Une étude récente menée par l’Université de Stanford a relevé des variations très marquées dans les performances de ChatGPT. Cette découverte interroge la stabilité et la fiabilité du chatbot conversationnel d’OpenAI dans un contexte où de nombreux utilisateurs payants se plaignent des performances inégales de l’outil.
ChatGPT : des performances variables qui posent problème
Un travail de recherche approfondi mené par l’Université de Stanford a analysé les performances de deux versions de ChatGPT (GPT-3.5 et GPT-4) au fil de plusieurs mois et sur une variété de tâches, notamment la résolution de problèmes mathématiques, la réponse à des questions sensibles, le codage et le raisonnement visuel. Les chercheurs ont relevé des fluctuations significatives dans la capacité de cet outil développé par OpenAI à accomplir certaines tâches.
La fluctuation la plus remarquable a été observée dans la capacité de GPT-4 à résoudre des problèmes mathématiques. En mars dernier, GPT-4 était capable d’identifier correctement que le nombre « 17 077 » était un nombre premier avec une précision de 97,6 %. Trois mois plus tard, cette précision a dramatiquement chuté pour atteindre un degré de fiabilité de… 2,4 % !
Par contraste, le modèle GPT-3.5 a suivi une trajectoire presque inverse. En mars 2023, il répondait correctement à la même question seulement 7,4 % du temps. En juin 2023, son taux de réussite avait grimpé à 86,8 %. Ce constat est d’autant plus étonnant que GPT-4 correspond à la version payante de l’outil.
ChatGPT : la question difficile de l’arbitrage dans les mises à jour
James Zuo, professeur d’informatique à Stanford et co-auteur de l’étude, a exprimé sa surprise face à « l’ampleur du changement » observé, étant donné la sophistication de ChatGPT. Dans une interview accordée à nos confrères de Fortune, il a souligné les défis que pose l’ajustement de ces modèles d’intelligence artificielle à grande échelle : « Lorsque nous effectuons des ajustements sur un vaste modèle de langage pour améliorer ses performances sur certaines tâches spécifiques, cela peut potentiellement entraîner de nombreuses conséquences imprévues qui pourraient dégrader les performances du modèle sur d’autres tâches. Il existe toutes sortes d’interdépendances fascinantes dans la manière dont le modèle réagit aux différentes entrées, ce qui peut conduire à certains des comportements étonnants que nous avons observés ».