Mistral AI

Start-up

Meta

Avec le modèle ouvert Mixtral 8x22B, Mistral AI fait... presque aussi bien que Llama 3

Qui a dit que Mistral abandonnait l'open source ? Avec son modèle Mixtral 8x22B, la start-up française offre un ratio performances/coûts que nombre d'entreprises – à commencer par Meta et Cohere – peuvent jalouser. Une démonstration de force qui souligne à quel point le marché évolue vite, et rappelle que les géants technologiques n'y sont pas les seuls compétiteurs sérieux.

Célia Séramour

18 avril 2024 \ 18h25

2 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

2 min. de lecture

Réagir

Célia Séramour

18 avril 2024 \ 18h25

Avec le modèle ouvert Mixtral 8x22B, Mistral AI fait... presque aussi bien que Llama 3 — Poursuivant la stratégie dépeinte par Arthur Mensch, cofondateur et dirigeant de Mistral AI, la start-up compte "apporter l'intelligence artificielle générative partout", notamment au travers de modèles open source comme en atteste la publication du LLM Mixtral 8x22B.

La start-up française Mistral AI revient sur le devant de la scène avec la publication de son dernier modèle open source Mixtral 8x22B. "Il établit une nouvelle norme de performance et d'efficacité au sein de la communauté de l'IA", assure la jeune pousse. Son principal atout : il s'agit d'un modèle SMoE (sparse Mixture-of-Experts) qui n'utilise que 39 milliards de paramètres actifs sur 141 milliards de paramètres, offrant ainsi une rentabilité inégalée pour sa taille.

Parmi ses autres caractéristiques, notons que ce grand modèle de langage parle couramment l'anglais, le français, l'italien, l'allemand et l'espagnol et possède de solides compétences en mathématiques et en codage. Mixtral 8x22B inclut par ailleurs une fenêtre contextuelle de 64 000 tokens permettant de traiter davantage d'informations, notamment des documents volumineux.

Des performances qui font rougir Llama 2 70B

Mistral AI a fait le choix de comparer son modèle à ceux de la famille Llama 2 de Meta ainsi que Command R et Command R+ de Cohere. Il en ressort que Mixtral 8x22B obtient un meilleur rapport performances/coût que Llama 2 70B et Command R+. En ce qui concerne les performances en elles-mêmes, il est clair que Mixtral 8x22B est optimisé pour le raisonnement (sur le test MMLU) avec un score de 77,75% contre 75,7% pour Command R+ et 69,9% pour Llama 2 70B.

Le modèle dispose de capacités multilingues natives. Il surpasse largement LLaMA 2 70B sur les tests HellaSwag, Arc Challenge et MMLU en français, allemand, espagnol et italien. Enfin, sur les tâches liées au codage et aux mathématiques, il obtient un score de 88,4 % en GSM8K maj@8 (contre 69,6% pour Llama 2 70B) et un score en Math maj@4 de 41,8 % (contre 13,8% pour Llama 2 70B). Petit hic cependant : Meta vient de publier Llama 3, et annonce des performances supérieures à celles de Mixtral 8x22B.

Llama 3 perfs

Sur le marché de l'IA générative, on n'a décidemment pas le temps de s'ennuyer.

Mistral oscille entre open source et quête de rentabilité

La start-up a publié Mixtral 8x22B sous Apache 2.0, une licence open source qui permet à quiconque d'utiliser le modèle n'importe où et sans restriction.

Dans un document présentant les performances du modèle, Mistral affirme que "Mixtral 8x22B est le prolongement naturel de notre famille de modèles ouverts" et le décrivent comme "plus rapide que n'importe quel modèle 70B dense, tout en étant plus performant que n'importe quel autre modèle ouvert (distribué sous des licences permissives ou restrictives). La disponibilité du modèle de base en fait une excellente base pour affiner les cas d'utilisation", conclut la start-up.

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.

Sélectionné pour vous