Des chercheurs ont découvert qu’il est possible de contourner les filtres de sécurité des IA comme ChatGPT et Gemini en les saturant d’informations, ce qui leur permet de révéler des contenus normalement restreints.
Des chercheurs ont mis en évidence une nouvelle technique permettant de contourner les filtres de sécurité des grands modèles linguistiques (LLM) tels que ChatGPT et Gemini. Cette méthode exploite une vulnérabilité liée à la surcharge d’informations, conduisant les chatbots à révéler des contenus normalement restreints, à contourner les filtres de sécurité et à enfreindre les règles établies.
L’IA progresse vite, mais reste vulnérable
Les progrès rapides de l’intelligence artificielle et son intégration croissante dans divers domaines de la vie quotidienne suscitent des préoccupations au sein de la communauté technologique concernant son utilisation responsable et les implications éthiques. Des études antérieures ont déjà montré que certains modèles LLM pouvaient générer des réponses trompeuses dans des situations de pression. La découverte actuelle ajoute une dimension supplémentaire à ces préoccupations.
Une équipe de chercheurs, composée de membres d’Intel, de Boise State University et de l’Université de l’Illinois, a publié un article détaillant leurs conclusions. Ils affirment que les chatbots peuvent être induits en erreur en les submergeant d’une quantité excessive d’informations, une méthode qu’ils nomment “surcharge d’informations”.
Lorsque le modèle d’IA est bombardé de données complexes, il se trouve dans un état de confusion. Cette confusion est identifiée comme la vulnérabilité permettant de contourner les mécanismes de sécurité intégrés. Les chercheurs ont développé un outil automatisé, baptisé “InfoFlood”, pour exploiter cette faiblesse et réaliser des contournements de sécurité.
ChatGPT et Gemini peuvent être trompés
Les modèles d’IA puissants, tels que ChatGPT et Gemini, sont équipés de garde-fous de sécurité conçus pour empêcher la génération de réponses inappropriées ou dangereuses. Cependant, la technique de la surcharge d’informations permettrait aux utilisateurs de soumettre des requêtes complexes, dissimulant ainsi des intentions potentiellement malveillantes. Les chercheurs ont indiqué à 404 Media que les modèles, en s’appuyant sur une compréhension de surface de la communication, peinent à saisir pleinement l’intention sous-jacente des requêtes complexes.
Les chercheurs ont l’intention de communiquer leurs découvertes aux entreprises développant des modèles d’IA majeurs en leur envoyant un dossier d’information qu’elles pourront partager avec leurs équipes de sécurité. Ce rapport met en lumière les défis persistants en matière de sécurité des modèles d’IA, même avec des filtres en place, et la possibilité pour des acteurs malveillants d’utiliser ces techniques pour introduire des contenus préjudiciables.