[go: up one dir, main page]

Avec le modèle ouvert Mixtral 8x22B, Mistral AI fait... presque aussi bien que Llama 3

Qui a dit que Mistral abandonnait l'open source ? Avec son modèle Mixtral 8x22B, la start-up française offre un ratio performances/coûts que nombre d'entreprises – à commencer par Meta et Cohere – peuvent jalouser. Une démonstration de force qui souligne à quel point le marché évolue vite, et rappelle que les géants technologiques n'y sont pas les seuls compétiteurs sérieux.

Partager
Avec le modèle ouvert Mixtral 8x22B, Mistral AI fait... presque aussi bien que Llama 3
Poursuivant la stratégie dépeinte par Arthur Mensch, cofondateur et dirigeant de Mistral AI, la start-up compte "apporter l'intelligence artificielle générative partout", notamment au travers de modèles open source comme en atteste la publication du LLM Mixtral 8x22B.

La start-up française Mistral AI revient sur le devant de la scène avec la publication de son dernier modèle open source Mixtral 8x22B. "Il établit une nouvelle norme de performance et d'efficacité au sein de la communauté de l'IA", assure la jeune pousse. Son principal atout : il s'agit d'un modèle SMoE (sparse Mixture-of-Experts) qui n'utilise que 39 milliards de paramètres actifs sur 141 milliards de paramètres, offrant ainsi une rentabilité inégalée pour sa taille.

Parmi ses autres caractéristiques, notons que ce grand modèle de langage parle couramment l'anglais, le français, l'italien, l'allemand et l'espagnol et possède de solides compétences en mathématiques et en codage. Mixtral 8x22B inclut par ailleurs une fenêtre contextuelle de 64 000 tokens permettant de traiter davantage d'informations, notamment des documents volumineux.

Des performances qui font rougir Llama 2 70B

Mistral AI a fait le choix de comparer son modèle à ceux de la famille Llama 2 de Meta ainsi que Command R et Command R+ de Cohere. Il en ressort que Mixtral 8x22B obtient un meilleur rapport performances/coût que Llama 2 70B et Command R+. En ce qui concerne les performances en elles-mêmes, il est clair que Mixtral 8x22B est optimisé pour le raisonnement (sur le test MMLU) avec un score de 77,75% contre 75,7% pour Command R+ et 69,9% pour Llama 2 70B.

Le modèle dispose de capacités multilingues natives. Il surpasse largement LLaMA 2 70B sur les tests HellaSwag, Arc Challenge et MMLU en français, allemand, espagnol et italien. Enfin, sur les tâches liées au codage et aux mathématiques, il obtient un score de 88,4 % en GSM8K maj@8 (contre 69,6% pour Llama 2 70B) et un score en Math maj@4 de 41,8 % (contre 13,8% pour Llama 2 70B). Petit hic cependant : Meta vient de publier Llama 3, et annonce des performances supérieures à celles de Mixtral 8x22B.

Llama 3 perfs

Sur le marché de l'IA générative, on n'a décidemment pas le temps de s'ennuyer.

Mistral oscille entre open source et quête de rentabilité

La start-up a publié Mixtral 8x22B sous Apache 2.0, une licence open source qui permet à quiconque d'utiliser le modèle n'importe où et sans restriction.

Dans un document présentant les performances du modèle, Mistral affirme que "Mixtral 8x22B est le prolongement naturel de notre famille de modèles ouverts" et le décrivent comme "plus rapide que n'importe quel modèle 70B dense, tout en étant plus performant que n'importe quel autre modèle ouvert (distribué sous des licences permissives ou restrictives). La disponibilité du modèle de base en fait une excellente base pour affiner les cas d'utilisation", conclut la start-up.

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

LES ÉVÉNEMENTS USINE DIGITALE

Tous les événements

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS