Décidément, OpenAI ne lâche pas sa poule aux œufs d’or. Cette semaine, le pionnier de l’Intelligence Artificielle générative a annoncé l’arrivée des fonctions vocales sur ChatGPT, avec de belles applications en perspective pour les marketeurs, mais pas seulement.
ChatGPT se met enfin au text-to-speech
ChatGPT est désormais capable de lire du texte à haute voix… une fonctionnalité qui arrive près d’un an après le lancement du célèbre chatbot d’OpenAI.
Désormais, en cliquant simplement sur l’icône du microphone, les utilisateurs auront accès à cinq voix élaborées en collaboration avec des acteurs professionnels sur la base du modèle de synthèse vocale avancé d’OpenAI, capable de générer un rendu sonore « authentique » à partir de textes et de courts extraits vocaux.
Avec la dernière mise à jour, ChatGPT pourra également générer des images en réponse à certaines requêtes grâce au modèle de génération d’image d’OpenAI. Accessibles aux utilisateurs de ChatGPT Plus et Enterprise, ces nouvelles fonctionnalités traduisent la volonté de la firme d’aller au-delà de l’IA conversationnelle pour s’ouvrir sur des interactions diversifiées.
Mais tout n’est pas parfait. OpenAI reste toujours sur un élan expérimental, avec plusieurs limitations et/ou bugs sur ces nouvelles fonctionnalités. OpenAI précise par exemple que ChatGPT n’est pas encore fiable sur la retranscription de textes en langues étrangères à partir d’images, notamment celles qui s’écrivent avec des lettres non romaines (arabe, turc, chinois par exemple).
Nouvelles fonctionnalités = nouvelles inquiétudes
Comme à l’accoutumée, l’arrivée de nouvelles fonctionnalités dans l’outil d’OpenAI suscite des inquiétudes sur des utilisations abusives.
Par exemple, la capacité de générer des voix d’un réalisme étonnant pourrait faciliter des usurpations d’identité ou des actes frauduleux. OpenAI promet d’encadrer cette fonctionnalité et de sévir à chaque écart.
Pour l’heure, l’entreprise semble vouloir se limiter à des partenaires triés sur le volet sur la fonctionnalité d’imitation vocale. Spotify devrait être la première marque à en bénéficier, notamment pour traduire les podcasts tout en conservant la voix des intervenants. Le premier projet va donc consister à traduire les podcasts les plus populaires de l’anglais à l’espagnol. L’allemand et le français devraient suivre dans la foulée.