Show, Attend and Tell: Génération de légendes d’images avec attention

Projet 4ème année

PythonPyTorchDeep-LearningCNNLSTMSoft AttentionComputer Vision

Collaborateurs

Angelo Bou TanousBasile JoretHugo Tondenier

Étude et implémentation complète du papier ICML 2015 « Show, Attend and Tell ». Le projet couvre l’encodage CNN, le décodeur LSTM avec mécanisme d’attention douce, l’entraînement sur les jeux de données Flickr8k et Flickr30k et l’évaluation avec les métriques BLEU.

Fonctionnalités

Encodeur CNN (VGG19,Resnet152, ou Densenet161) gelé produisant une carte 14 × 14 × Nombres de features(fonction du CNN)
Décodage séquentiel avec LSTM et attention soft configurable
Teacher Forcing pour stabiliser et accélérer l’apprentissage
Scripts d’évaluation BLEU‑1 à BLEU‑4 et visualisation des masques d’attention

Défis

Temps de calcul GPU important (≈ 7 h d’entraînement)
Réglage fin du learning‑rate et des hyper‑paramètres
Reproductibilité des splits Karpathy sur Flickr30k
Biais possibles sur les images sans action ou sans humains

Solutions

Scheduler de learning‑rate (0.0005) et teacher forcing activé
Utilisation d’un supercalculateur pour l’entraînement
Monitoring GPU et early‑stopping
Propositions d’extensions : data‑augmentation, passage au dataset COCO