Accueil » Université de Stanford : les performances de ChatGPT ont chuté en quelques mois

Université de Stanford : les performances de ChatGPT ont chuté en quelques mois

Une étude récente menée par l’Université de Stanford a relevé des variations très marquées dans les performances de ChatGPT. Cette découverte interroge la stabilité et la fiabilité du chatbot conversationnel d’OpenAI dans un contexte où de nombreux utilisateurs payants se plaignent des performances inégales de l’outil.

ChatGPT : des performances variables qui posent problème

Un travail de recherche approfondi mené par l’Université de Stanford a analysé les performances de deux versions de ChatGPT (GPT-3.5 et GPT-4) au fil de plusieurs mois et sur une variété de tâches, notamment la résolution de problèmes mathématiques, la réponse à des questions sensibles, le codage et le raisonnement visuel. Les chercheurs ont relevé des fluctuations significatives dans la capacité de cet outil développé par OpenAI à accomplir certaines tâches.

La fluctuation la plus remarquable a été observée dans la capacité de GPT-4 à résoudre des problèmes mathématiques. En mars dernier, GPT-4 était capable d’identifier correctement que le nombre « 17 077 » était un nombre premier avec une précision de 97,6 %. Trois mois plus tard, cette précision a dramatiquement chuté pour atteindre un degré de fiabilité de… 2,4 % ! 

Par contraste, le modèle GPT-3.5 a suivi une trajectoire presque inverse. En mars 2023, il répondait correctement à la même question seulement 7,4 % du temps. En juin 2023, son taux de réussite avait grimpé à 86,8 %. Ce constat est d’autant plus étonnant que GPT-4 correspond à la version payante de l’outil.

ChatGPT : la question difficile de l’arbitrage dans les mises à jour

James Zuo, professeur d’informatique à Stanford et co-auteur de l’étude, a exprimé sa surprise face à « l’ampleur du changement » observé, étant donné la sophistication de ChatGPT. Dans une interview accordée à nos confrères de Fortune, il a souligné les défis que pose l’ajustement de ces modèles d’intelligence artificielle à grande échelle : « Lorsque nous effectuons des ajustements sur un vaste modèle de langage pour améliorer ses performances sur certaines tâches spécifiques, cela peut potentiellement entraîner de nombreuses conséquences imprévues qui pourraient dégrader les performances du modèle sur d’autres tâches. Il existe toutes sortes d’interdépendances fascinantes dans la manière dont le modèle réagit aux différentes entrées, ce qui peut conduire à certains des comportements étonnants que nous avons observés ».

A PROPOS DE BtoB Leaders

BtoB Leaders est le média français de référence des professionnels du B2B. Nos équipes vous proposent toute l’actualité du marketing et du Modern Selling B2B, mais aussi des interviews exclusives, des insights, des guides pratiques, des Business Cases et des ressources à télécharger.

Sujets populaires

© 2024 btob-leaders.com. Une marque du groupe
logo infopro
nouveau logo btob leaders