ChatGPT peut désormais voir et parler

OpenAI a dévoilé des mises à jour majeures pour son modèle ChatGPT, visant à améliorer l’expérience utilisateur. L’une de ces mises à jour concerne la recherche multimodale, qui permettra aux utilisateurs d’intégrer des images dans les conversations avec l’IA. Cette fonctionnalité offre de nombreuses possibilités, notamment la capacité d’obtenir des réponses plus précises en montrant des images à l’IA.

Par exemple, les utilisateurs pourront prendre des photos de leur réfrigérateur et de leur garde-manger pour obtenir des recettes adaptées. De même, la prise en photo d’un problème mathématique pourra générer des indices pour le résoudre. Cette évolution rapproche ChatGPT de ses concurrents, comme Bing Chat et Google Bard, qui proposent déjà la recherche multimodale.

Une autre mise à jour importante concerne les réponses vocales. Auparavant, il était possible de dicter des requêtes à l’IA via l’application mobile, mais désormais, les utilisateurs pourront également écouter les réponses orales de ChatGPT. Le modèle Whisper convertira la parole en texte, puis une nouvelle technologie de synthèse vocale exprimera les réponses de l’IA de manière audible.

Cela ouvre de nouvelles perspectives pour une expérience utilisateur plus immersive. Les utilisateurs pourront ainsi se faire raconter des histoires, comprendre des sujets sans avoir à lire, ou simplement discuter avec l’IA de manière plus naturelle. OpenAI offre également un choix de cinq voix différentes pour personnaliser l’expérience.

Cependant, OpenAI reste attentif aux possibles dérives de cette technologie. Ils précisent que l’utilisation de la synthèse vocale sera limitée à des cas spécifiques, notamment le chat vocal, pour éviter les abus. Cette approche vise à prévenir les utilisations frauduleuses potentielles de cette technologie avancée.

Votre Page

A voir également sur Kessiya

Quitter la version mobile