注意 本网站不推荐使用internet explorer浏览器。请使用其他Web浏览器以获取更好的体验。

Apprenti-e : Application RAG/LLM avec des données spécifiques F/H

已发布
公司 : 赛峰集团 工作领域 : 安全业务,算法,统计 位置 : Magny-les-hameaux France , Ile de France , 法国 合同类型 : Apprenticeship 合同期限 : 兼职 所需学位 : 本科文凭 所需经验 : 无经验 专业地位 : 学生
已发布

工作描述

Safran est un groupe international de haute technologie, équipementier de premier rang dans les domaines de l'Aéronautique, de l'Espace, de la Défense et de la Sécurité. Au sein de Safran Tech (le centre de R&T du groupe), l'Unité de Recherche Maths & Algorithms for Temporal Data (MATD) développe de nouveaux outils pour répondre aux grands enjeux en aéronautique ; en particulier, des méthodes de suivi efficaces de la santé des équipements, afin d'optimiser la maintenance et garantir la sécurité.
Des avancées récentes des grands modèles de langage génératif (en anglais, Large Language Model (LLM)) rencontrent un succès dans de nombreux domaines et applications. En particulier, au sein de l'écosystème de travail de Safran, il existe un besoin d'utilisation des modèles de LLM pour faciliter l'extraction d'informations à partir d'un ensemble de données de documentation métier. L'un des défis de l'utilisation de ces modèles dans cette tâche est de savoir comment ré-entraîner les modèles LLM avec des connaissances spécifiques au domaine ou des données supplémentaires, ce qui nécessite souvent des pipelines complexes et des ressources informatiques coûteuses.
Récemment, la Génération Augmentée par Récupération (en anglais, Retrieval Augmented Generation (RAG)) a été introduite comme une technique prometteuse pour faciliter l'incorporation de données supplémentaires aux LLM. Comparé aux modèles de génération conventionnels, RAG présente des avantages remarquables et a notamment atteint des performances de pointe dans de nombreuses tâches de traitement du langage naturel, telles que la génération de réponses de dialogue, la traduction automatique et le résumé [1]. En général, en appliquant la technique RAG, nous n'avons pas besoin de nous plonger profondément dans l'architecture (souvent complexe) du LLM ni dans la procédure d'entraînement complète de bout en bout. Au lieu de cela, le pipeline RAG ne nécessite que quelques étapes de code (voire aucune) pour permettre au modèle d'accéder et de s'améliorer à partir de données supplémentaires, grâce à des packages Python tels que Langchain [2].

补充说明

Dans ce sujet, nous explorons l'application de la technique RAG aux modèles LLM (par exemple, Mistral et LLAMA 2) dans la génération de réponses de dialogue impliquant la récupération d'informations à partir d'un ensemble de données de documentation techniques de Safran Tech (contenant des données textuelles sous forme de fichiers .pdf).
La mission en tant qu'apprenti-e consiste à :
• Comprendre et maîtriser les pratiques avec la bibliothèque Langchain (en Python) pour intégrer la technique RAG avec les modèles Mistral et LLAMA 2.
• Construire une plateforme/un logiciel (Python) pour relier le pipeline de Langchain à l'ensemble de données de documents de Safran.
• Proposer et réaliser amélioration pour les techniques RAG ainsi que d'autres méthodes de traitement du langage naturel.
• Participer à des travaux de l'équipe comme la mise en place et l'exécution d'expériences pour réaliser des articles scientifiques.
Bibliographie :
[1] Li, H., Su, Y., Cai, D., Wang, Y., & Liu, L. (2022). A survey on retrieval-augmented text generation. arXiv preprint arXiv:2202.01110.
[2] https://python.langchain.com/docs/expression_language/cookbook/retrieval

工作要求

Alternance en informatique/programmation pour machine learning en langage

确定您未来的工作地点

Rue des jeunes bois 78114

Magny-les-hameaux France

Ile de France 法国

复制地址
83,000
名员工
27
赛峰集团经营所在国家数量
35
职业类别