Crédit Agricole SA

Autres

★★★★ 38 Avis

Découvrir
ce recruteur

Assistant data scientist – moteur de recherche sémantique H/F

17 janvier Hauts-de-Seine, Montrouge Stage

Descriptif de la mission :


Dans le secteur banques et assurances, les bases documentaires sont nombreuses et couvrent plusieurs thématiques: réglementaire, client, marketing et communication, etc.
Les experts et conseillers en banque ont souvent recours à ces bases de données dans leurs tâches quotidiennes (exemple: apporter une réponse précise à une question posée par un client).
La recherche d’information rapide et pertinente est donc un besoin important pour accélérer l’accès à la bonne information.



Dans ce stage, nous nous intéressons à ces nouvelles approches de recherche d’information par réseaux de neurones profonds pour enrichir les fonctionnalités de la version actuelle du moteur de recherche.
Nous nous intéresserons en particulier aux techniques de recherche automatique d’extraits optimisés (features snippets) pour restituer les passages les plus pertinents des documents retournés par le moteur de recherche.
Pour ce faire, on se reposera sur les approches de représentation vectorielle des requêtes et des documents et mesures de similarité utilisés principalement dans les systèmes de Question/Réponse.
Des approches de transferts d’apprentissage à partir de gros corpus externes et internes sont aussi à explorer pour affiner ces représentations vectorielles.
On se propose d’évaluer les performances des modèles de langage récents de type BERT, XLNET, etc.
sur des corpus en langue française.
Toutes ces approches seront développées et évaluées sur des corpus internes au groupe Crédit Agricole et externes (comme le corpus publié dans la compétition Kaggle
TensorFlow 2.0 Question Answering).


Organisation et livrables :

Pour ce faire, le stage se déroulera en quatre étapes principales, sous l’encadrement de Data Scientists:
Réalisation d’un état de l’art sur la recherche d’information et les systèmes de Question/Réponse par réseaux de neurones profonds 

Sélection et implémentation des algorithmes les plus adaptés à la problématique et aux corpus

Réalisation d’une étude comparative pour évaluer les approches implémentées.

 
Des interactions avec des services métier du groupe seront organisées.

Université,Ecole d'ingénieur : Formation comportant une dominante NLP (traitement de langage naturel), Data Science, Machine Learning, Deep Learning, Intelligence artificielle, incluant de solides connaissances en développement logiciel.