Un groupe de chercheurs en intelligence artificielle de l’Université des sciences et technologies de Chine (USTC) et du Tencent YouTu Lab a mis au point un système baptisé « Woodpecker » (pivert en français), conçu pour corriger les hallucinations dans des modèles d’IA multimodaux tels que le GPT-4.
Selon le média Venture Beat, le document de recherche décrivant cette approche révolutionnaire a été publié sur le serveur de préimpression arXiv, sous le titre « Woodpecker : Hallucination Correction for Multimodal Large Language Models » (Pic : correction de l’hallucination pour les grands modèles linguistiques multimodaux).
« Comme un pivert soigne les arbres, il repère et corrige les hallucinations dans le texte généré », ont déclaré les chercheurs, expliquant l’inspiration derrière le nom du cadre. Chaque étape du processus est claire et transparente, ce qui permet une interprétation précieuse.

L’hallucination est un problème majeur pour l’IA conversationnelle, car elle génère de fausses informations. L’outil Woodpecker valide le texte par rapport aux images via un pipeline en cinq étapes afin d’identifier les incohérences.
Woodpecker a permis d’améliorer la précision de MiniGPT-4 de plus de 30 % par rapport aux critères de référence grâce à des modifications transparentes. Cette approche de correction sans apprentissage est plus efficace que les modèles de recyclage antérieurs.
Les chercheurs ont publié le code source de Woodpecker, encourageant ainsi l’exploration et l’application du cadre par l’ensemble de la communauté de l’IA. Pour ceux qui souhaitent expérimenter directement les capacités de Woodpecker, les chercheurs ont mis en place une démonstration interactive du système. Cette plateforme permet de comprendre le fonctionnement de Woodpecker en temps réel et d’observer ses capacités de correction des hallucinations.
L’IA générant des hallucinations convaincantes (mais erronées) a été l’un des plus grands problèmes à résoudre dans les LLM – et Woodpecker pourrait être le début d’une percée majeure vers des résultats plus fiables.