Les entreprises qui souhaitent mobiliser l’IA générative au service de leur performance commerciale doivent composer avec plusieurs difficultés : une offre de plus en plus large, la complexité des critères de choix, le manque de compétences en interne pour décider, l’opacité des grands modèles IA, etc.
Pour les aider à y voir plus clair, Salesforce a travaillé sur le premier grand benchmark des modèles IA appliqués au business.
Sommaire
Mieux décrypter l’offre en matière d’IA générative appliquée au business
Salesforce vient d’annoncer le lancement de son grand benchmark de l’Intelligence Artificielle générative (genAI) appliquée à la gestion de la relation client (CRM). Objectif : aider les entreprises à mieux décrypter l’offre en matière de grands modèles de langage (LLM) en fonction des spécificités de leur activité et de leurs besoins sur la partie Go-to-Market (GTM), que ce soit dans la partie vente ou marketing.
« Nos clients ne veulent pas seulement le meilleur modèle IA pour leur activité, ils veulent aussi qu’il soit conforme avec leurs normes de sécurité et qu’il soit proposé au meilleur prix », explique Clara Shih, PDG de Salesforce AI.
Les entreprises pionnières en matière d’utilisation de l’IA au service du business se retrouvent en effet face à un problème d’optimisation complexe au moment de choisir leur outil : trouver le meilleur équilibre entre le coût, la précision, la fiabilité, la sécurité et la rapidité.
La difficulté est d’autant plus grande que la majorité des modèles proposés sur le marché sont relativement opaques, sans oublier la relative absence de compétences actionnables en interne sur les sujets de l’IA générative appliquée au business. Salesforce souhaite donc se saisir de ce besoin avec le lancement de son grand benchmark de l’IA générative.
Au-delà des comparaisons théoriques et académiques de l’IA générative
Salesforce part d’un constat simple : les entreprises qui veulent investir dans l’IA générative pour améliorer leur compétitivité n’ont pas toujours la compétence en interne pour choisir le meilleur modèle et se lancer.
D’un autre côté, les benchmarks disponibles restent académiques, théoriques et axés sur l’IA générative au sens « grand public », sans grande pertinence pour le business.
Avec son nouveau benchmark, Salesforce compare les différents modèles IA selon des critères pertinents pour la performance commerciale.
« L’idée, c’est que si un client a certains besoins concernant les cas d’utilisation, les coûts de service ou la latence, il peut consulter notre benchmark, nos données et nos graphiques et prendre une décision éclairée », promet Silvio Savarese, VP exécutif et Chief Scientist chez Salesforce.
Un benchmark IA créé par des professionnels expérimentés
Le benchmark IA de Salesforce ne s’appuie pas sur des évaluations automatisées basées sur des LLM ou des données de synthèse. Des professionnels expérimentés ont travaillé sur le sujet, testé différents modèles IA et confronté chaque LLM à des cas d’usage concrets dans la gestion de la relation client et au-delà.
Salesforce affirme que cette approche permet une évaluation pratique de l’utilité commerciale de l’IA générative dans un large éventail de cas d’utilisation GTM, y compris les scénarios de vente et la prospection.
Quels KPI pour le choix du meilleur modèle IA pour le business ?
Le benchmark IA, créé dans le cadre d’une collaboration entre le groupe de recherche appliquée Frontier AI de Salesforce et les équipes produits et ingénierie du géant du CRM, est porté par des professionnels et des données massives pour évaluer les LLM selon quatre critères clés : l’exactitude, le coût, la rapidité et la sécurité/fiabilité.
#1 L’exactitude
Ce critère est composé de quatre sous-catégories : le côté factuel, l’exhaustivité, la concision et le respect des instructions ou prompts.
Salesforce note que plus les prédictions d’un LLM sont précises, plus les résultats sont actionnables pour une organisation et mieux celle-ci peut les exploiter pour améliorer l’expérience client et sa performance commerciale.
Salesforce explique que même si un modèle LLM donné n’est pas suffisamment précis pour un cas d’utilisation particulier, il peut être amélioré grâce à un travail d’ingénierie et un paramétrage plus ou moins rapide.
#2 Le coût
Ce critère classe les coûts opérationnels estimés d’un LLM pour divers cas d’utilisation business comme étant « élevés », « moyens »ou « faibles ». Les clients peuvent utiliser cette mesure pour évaluer la rentabilité des LLM par rapport à leur budget et à l’allocation de ressources au stack technologique.
#3 La rapidité
Ce critère évalue la réactivité et l’efficacité dans le traitement des instructions, la génération des résultats ou l’exécution des tâches.
Salesforce note que des temps de réponse plus rapides améliorent l’expérience utilisateur, réduisent les temps d’attente pour les clients et aident les équipes commerciales et de service à répondre plus efficacement aux demandes dans les meilleurs délais.
#4 La sécurité et la fiabilité
Cette partie se concentre sur la manière dont le modèle IA gère les données sensibles des clients, respecte les réglementations en matière de confidentialité des données et sécurise les informations.
« Ce qui est intéressant avec notre benchmark, c’est que ce n’est pas forcément le plus grand modèle IA qui donne les meilleurs résultats. Vous pouvez en effet obtenir des performances très satisfaisantes en utilisant des modèles plus petits et plus efficaces du point de vue du coût et de la rapidité », conclut Savarese.