Communiqué du 12 juin 2024 |
Dans la poursuite des recherches autour de l’intelligence artificielle et des avatars, la direction innovation a développé un agent conversationnel, sous la forme d’un avatar vidéo réaliste, permettant de répondre aux questions autour du tennis et de l’actualité du tournoi. Cet agent conversationnel est connecté aux différents LLM du marché et exploite un ensemble de données provenant notamment des sites de référence (franceinfo, FFT...).
Comment ça marche ?
Différentes briques technologiques ont été agrégées pour permettre de réaliser ce chatbot vidéo qui permet d’interagir et de poser des questions à un avatar réaliste. Une première brique « speech to text » qui utilise Whisper ASR (OpenAI) permet de transcrire la demande orale de l’utilisateur sous forme de texte qui alimentera le prompt envoyé au LLM sélectionné. En effet, ce démonstrateur permet de sélectionner différents LLM du marché (ChatGPT, Gemini, Mistral, LLaMa, Claude, Palm2…) pour tester les différents niveaux de réponse et, notamment, la pertinence et la rapidité des réponses envoyées.
Pour améliorer la qualité des réponses et la fraîcheur des données, une RAG (Retrieval Augmented Generation) a été mise en place au sein du démonstrateur. Cette base de données vectorielle permet d'enrichir le prompt avec des données récentes et vérifiées provenant de sites de référence sélectionnés, afin d'améliorer la fiabilité des réponses du LLM. En fonction des demandes utilisateur, celui-ci peut également interroger en temps réel la base de résultats de la FFT pour compléter ses réponses aux utilisateurs. La réponse formatée par le LLM en fonction des critères choisis (taille de la réponse, ton de la réponse, langue de la réponse…) est ensuite envoyée à la plateforme HEYGEN qui convertit la réponse texte en vocal (« speech to text ») et génère une vidéo d'avatar photoréaliste qui est diffusée en direct à l'utilisateur (via webRTC).
L’étude d’un tel dispositif nous permet, notamment, d’étudier les différentes problématiques liées à l’utilisation de ces technologies d’intelligence artificielle générative (coûts, fiabilité, éthique, hallucination…) avant d’envisager le déploiement d’un tel agent conversationnel au sein des services numériques de France Télévisions qui en exprimeraient le besoin.
Ce prototype a été développé par les équipes de la Direction de l’Innovation du Numérique du groupe audiovisuel public, en collaboration avec la société française Cybronics.