工作描述
Contexte :
L'image captioning génère des descriptions textuelles pour des images, reliant vision et langage, avec des applications en accessibilité et recherche d'images. Pour améliorer les performances des modèles, la data augmentation multimodale crée des variations textuelles et visuelles, enrichissant les données et renforçant la robustesse des réseaux.
Objectif du stage :
L'objectif principal de ce stage est d'explorer et de développer des méthodes innovantes de data augmentation multimodale pour améliorer la robustesse des modèles de captioning d'images. Le stagiaire sera amené à :
1. Étudier et identifier les approches existantes de data augmentation dans les domaines de la vision et du langage.
2. Concevoir des méthodes de data augmentation multimodale : cela inclut, par exemple, la génération de variations de descriptions textuelles pour une même image, l'ajout de bruit ou de modifications visuelles dans les images, et l'adaptation des techniques de fusion multimodale pour exploiter ces nouvelles données.
3. Implémenter et tester les méthodes proposées en utilisant des modèles d'image captioning de pointe.
4. Évaluer l'impact des augmentations multimodales sur les performances des modèles, à travers des métriques standard en image captioning
工作要求
•Étudiant-e en dernière année d'ingénierie, informatique, ou discipline connexe avec une spécialisation en vision par ordinateur, machine learning ou NLP.
•Connaissance des réseaux de neurones et de la vision par ordinateur, idéalement avec une première expérience en traitement du langage naturel.
•Compétences en programmation (Python, PyTorch/TensorFlow) et en manipulation de données multimodales.
确定您未来的工作地点
100 avenue de Paris 91300
Massy
Ile de France 法国
- 地图在开放数据库许可证下提供 Open Database Licence.
- © OpenStreetMap contributors.
- © Safran