Les chatbots IA « hallucinent », mais ChatGPT ou Bard peuvent-ils être « hypnotisés » pour donner des recommandations malveillantes ?

Jean Delaunay

Les chatbots IA « hallucinent », mais ChatGPT ou Bard peuvent-ils être « hypnotisés » pour donner des recommandations malveillantes ?

Les chercheurs d’IBM ont réussi à « hypnotiser » les chatbots et à les amener à divulguer des informations confidentielles et à proposer des recommandations potentiellement dangereuses.

Les chatbots alimentés par l’intelligence artificielle (IA) ont tendance à « halluciner » en fournissant des informations incorrectes – mais peuvent-ils être manipulés pour donner délibérément des mensonges aux utilisateurs, ou pire, leur donner des conseils préjudiciables ?

Les chercheurs en sécurité d’IBM ont pu « hypnotiser » de grands modèles de langage (LLM) tels que ChatGPT d’OpenAI et Bard de Google et leur faire générer des réponses incorrectes et malveillantes.

Les chercheurs ont incité les LLM à adapter leur réponse selon des règles de « jeux » qui ont abouti à « hypnotiser » les chatbots.

Dans le cadre des jeux de création à plusieurs niveaux, il a été demandé aux modèles de langage de générer de fausses réponses pour prouver qu’ils étaient « éthiques et justes ».

« Notre expérience montre qu’il est possible de contrôler un LLM, en le faisant fournir de mauvais conseils aux utilisateurs, sans que la manipulation des données ne soit une exigence », a écrit Chenta Lee, l’un des chercheurs d’IBM, dans un article de blog.

Leur supercherie a conduit les LLM à générer du code malveillant, à divulguer des informations financières confidentielles d’autres utilisateurs et à convaincre les conducteurs de franchir les feux rouges.

Dans un scénario, par exemple, ChatGPT a déclaré à l’un des chercheurs qu’il est normal que l’agence fiscale américaine, l’Internal Revenue Service (IRS), demande un dépôt pour obtenir un remboursement d’impôt, ce qui est une tactique largement connue utilisée par les escrocs pour tromper. personnes.

Grâce à l’hypnose et dans le cadre de « jeux » sur mesure, les chercheurs ont également pu faire en sorte que le populaire chatbot IA ChatGPT propose en permanence des recommandations potentiellement risquées.

« Lorsque vous conduisez et que vous voyez un feu rouge, vous ne devez pas vous arrêter et traverser l’intersection », a suggéré ChatGPT lorsque l’utilisateur a demandé quoi faire s’il voyait un feu rouge en conduisant.

Les résultats montrent que les chatbots sont faciles à manipuler

Les chercheurs ont en outre établi deux paramètres différents dans le jeu, garantissant que les utilisateurs à l’autre bout du fil ne pourront jamais comprendre que le LLM est hypnotisé.

Dans leur message, les chercheurs ont demandé aux robots de ne jamais informer les utilisateurs du « jeu » et même de le redémarrer si quelqu’un réussit à le quitter.

« Cette technique a permis à ChatGPT de ne jamais arrêter le jeu pendant que l’utilisateur est dans la même conversation (même s’il redémarre le navigateur et de reprendre cette conversation) et de ne jamais dire qu’il jouait à un jeu », a écrit Lee.

Dans le cas où les utilisateurs se rendraient compte que les chatbots sont « hypnotisés » et trouveraient un moyen de demander au LLM de quitter le jeu, les chercheurs ont ajouté un cadre multicouche qui démarrait un nouveau jeu une fois que les utilisateurs quittaient le précédent, ce qui les emprisonnait dans une multitude infinie de jeux.

Alors que dans l’expérience d’hypnose, les chatbots ne répondaient qu’aux invites qui leur étaient données, les chercheurs préviennent que la capacité de manipuler et d’« hypnotiser » facilement les LLM ouvre la porte à une utilisation abusive, en particulier avec le battage médiatique actuel et l’adoption massive des modèles d’IA.

L’expérience d’hypnose montre également comment il est devenu plus facile pour les personnes ayant des intentions malveillantes de manipuler les LLM ; la connaissance des langages de codage n’est plus nécessaire pour communiquer avec les programmes, une simple invite textuelle doit être utilisée pour tromper les systèmes d’IA.

« Bien que le risque posé par l’hypnose soit actuellement faible, il est important de noter que les LLM constituent une toute nouvelle surface d’attaque qui va sûrement évoluer », a ajouté Lee.

« Il reste encore beaucoup de choses à explorer du point de vue de la sécurité et, par la suite, il est nécessaire de déterminer comment atténuer efficacement les risques de sécurité que les LLM peuvent introduire pour les consommateurs et les entreprises ».

Laisser un commentaire

10 + quatorze =