Google a récemment présenté Gemini, son tout nouveau modèle de langage (LLM) qui, selon l’entreprise, fait de l’ombre à ChatGPT dans presque tous les aspects de son domaine.

Gemini, bien plus qu’un simple successeur de Google Bard, se distingue par sa capacité à exceller dans la compréhension multimodale de son environnement. Conçu dès le départ pour être multimodal, ce modèle d’IA peut analyser, traiter et combiner avec aisance divers types d’informations tels que le texte, le code, l’audio, l’image et la vidéo. Cette polyvalence le place en tête sur 30 des 32 référentiels académiques, surpassant même le réputé GPT-4 et les concurrents actuels.
Les performances de Gemini résultent de ses capacités sophistiquées de raisonnement, lui permettant d’interpréter des informations complexes, tant écrites que visuelles. Google met en avant la singularité de ce modèle, capable d’isoler des connaissances difficiles à discerner au sein de vastes ensembles de données.
Google a publié une démonstration vidéo sur YouTube, mettant en avant les compétences époustouflantes de Gemini.
Ce modèle d’IA impressionne non seulement par sa résolution des problèmes de mathématiques et de physique, mais également par sa pertinence dans des tâches de compréhension moins logiques.
La disponibilité de Gemini ne se fait pas attendre, avec Google cherchant à mettre ce nouveau modèle à disposition du public sous trois tailles différentes. Gemini Ultra, le modèle le plus complet, Gemini Pro, un modèle polyvalent adapté à de nombreuses tâches, et Gemini Nano, une version locale du modèle, offrant des possibilités sur le Pixel 8 Pro dès aujourd’hui.
Google Bard, l’agent conversationnel de Google, est également intégré à Gemini, renforçant ainsi l’expérience utilisateur. Cependant, l’intégration complète en Europe se fait attendre en raison des considérations liées au RGPD.