Étude et implémentation complète du papier ICML 2015 « Show, Attend and Tell ». Le projet couvre l’encodage CNN, le décodeur LSTM avec mécanisme d’attention douce, l’entraînement sur les jeux de données Flickr8k et Flickr30k et l’évaluation avec les métriques BLEU.
Fonctionnalités
Encodeur CNN (VGG19,Resnet152, ou Densenet161) gelé produisant une carte 14 × 14 × Nombres de features(fonction du CNN)
Décodage séquentiel avec LSTM et attention soft configurable
Teacher Forcing pour stabiliser et accélérer l’apprentissage
Scripts d’évaluation BLEU‑1 à BLEU‑4 et visualisation des masques d’attention
Défis
Temps de calcul GPU important (≈ 7 h d’entraînement)
Réglage fin du learning‑rate et des hyper‑paramètres
Reproductibilité des splits Karpathy sur Flickr30k
Biais possibles sur les images sans action ou sans humains
Solutions
Scheduler de learning‑rate (0.0005) et teacher forcing activé
Utilisation d’un supercalculateur pour l’entraînement
Monitoring GPU et early‑stopping
Propositions d’extensions : data‑augmentation, passage au dataset COCO