Le CEO et les cadres d’OpenAI ont apporté leurs réponses aux internautes sur le réseau social Reddit au sujet du référencement des sites web sur ChatGPT et SearchGPT. On vous a résumé l’essentiel.
Sommaire
Pourquoi ChatGPT fait perdre du trafic à Google
Sam Altman, CEO d’OpenAI, et d’autres cadres de la société pionnière de l’IA générative, ont lancé une session Ask Me Anything (AMA) sur Reddit pour répondre aux questions des internautes sur ChatGPT et la question du référencement des sites web sur la fonction de recherche du célèbre chatbot IA.
Depuis son lancement, fin 2022, ChatGPT a progressivement réorienté une partie du trafic internet de Google sur certains types de requêtes, notamment à intention informationnelle ou pédagogique.
En plus de l’avantage évident que lui confère sa nature conversationnelle, ChatGPT n’affiche pas de publicité, ne suit pas les utilisateurs sur le web et répond en langage naturel.
Sam Altman explique pourquoi ChatGPT Search est meilleur que Google
Un internaute a posé la question suivante au CEO d’OpenAI « Ma question porte sur la valeur de ChatGPT Search par rapport aux moteurs de recherche populaires. Quels sont les avantages ou les différentiateurs de ChatGPT Search ? ».
Réponse de Sam Altman : « Pour de nombreuses requêtes, je trouve qu’il s’agit d’un moyen beaucoup plus rapide et plus facile d’obtenir les informations que je recherche. Je pense que cela se vérifiera surtout pour les requêtes complexes. Je me réjouis également à l’idée qu’à l’avenir, une requête de recherche puisse dynamiquement générer une page web personnalisée en réponse ! ».
Le passage sur la création d’une page web personnalisée en réponse à la requête d’un internaute est à suivre de très près.
ChatGPT va-t-il continuer à « halluciner » ?
La question suivante portait sur les progrès d’OpenAI pour empêcher ChatGPT d’inventer des informations (ce qu’on appelle aussi des hallucinations) et sur la manière dont il va intégrer des données récentes à ses réponses.
Ces deux problèmes sont aujourd’hui gérés par la technologie de la Retrieval-Augmented Generation (RAG), qui sélectionne des informations à partir d’une base de données à jour, comme un index de recherche ou un graphe de connaissances, puis les fournit au chatbot pour qu’il les résume et les utilise comme base pour sa réponse.
Voici la question posée : « Les hallucinations seront-elles une caractéristique permanente de ChatGPT ? Pourquoi même dans la version O1, le chatbot hallucine de plus en plus lorsqu’il approche à la fin de sa réponse ? ». L’internaute a également posé une question sur la manière dont OpenAI compte gérer les données obsolètes que ChatGPT intègre dans ses réponses (parfois âgées de plus de deux ans), et qui posent donc un vrai problème de fiabilité et de véracité.
La réponse a été donnée par Mark Chen, vice-président senior de la recherche chez OpenAI : « Nous nous concentrons beaucoup sur la réduction des hallucinations, mais c’est un problème difficile — nos modèles apprennent à partir de textes écrits par des humains, et les humains déclarent parfois avec assurance des choses dont ils ne sont pas sûrs. »
Mark Chen a donné une piste d’amélioration : la technique « l’ancrage », couplée à l’Apprentissage par Renforcement (RL). Ces méthodes permettent l’apprentissage de la machine par l’expérience, en la récompensant lorsqu’elle donne des réponses correctes et en retenant la récompense lorsqu’elle hallucine. La machine « apprend » en faisant des choix qui maximisent les récompenses.
Dans le contexte des hallucinations, une récompense pourrait être un score ou un signal indiquant que la réponse est juste et factuelle. Pour l’heure, la « récompense » est un feedback positif de l’internaute.
« Nos modèles s’améliorent dans la citation des sources, ce qui ancre leurs réponses dans des sources fiables, et nous pensons également que le RL aidera avec les hallucinations. Lorsque nous pouvons vérifier de manière programmée si les modèles hallucinent, nous pouvons les récompenser pour ne pas le faire ».