Retour aux projets
Show, Attend and Tell: Génération de légendes d’images avec attention

Show, Attend and Tell: Génération de légendes d’images avec attention

Projet 4ème année
PythonPyTorchDeep-LearningCNNLSTMSoft AttentionComputer Vision

Collaborateurs

Angelo Bou TanousBasile JoretHugo Tondenier

Étude et implémentation complète du papier ICML 2015 « Show, Attend and Tell ». Le projet couvre l’encodage CNN, le décodeur LSTM avec mécanisme d’attention douce, l’entraînement sur les jeux de données Flickr8k et Flickr30k et l’évaluation avec les métriques BLEU.

Fonctionnalités

  • Encodeur CNN (VGG19,Resnet152, ou Densenet161) gelé produisant une carte 14 × 14 × Nombres de features(fonction du CNN)
  • Décodage séquentiel avec LSTM et attention soft configurable
  • Teacher Forcing pour stabiliser et accélérer l’apprentissage
  • Scripts d’évaluation BLEU‑1 à BLEU‑4 et visualisation des masques d’attention

Défis

  • Temps de calcul GPU important (≈ 7 h d’entraînement)
  • Réglage fin du learning‑rate et des hyper‑paramètres
  • Reproductibilité des splits Karpathy sur Flickr30k
  • Biais possibles sur les images sans action ou sans humains

Solutions

  • Scheduler de learning‑rate (0.0005) et teacher forcing activé
  • Utilisation d’un supercalculateur pour l’entraînement
  • Monitoring GPU et early‑stopping
  • Propositions d’extensions : data‑augmentation, passage au dataset COCO