LLMs escalate to nuclear strike in simulated wargames

Jean Delaunay

Les modèles d’IA ont choisi la violence et ont dégénéré en frappes nucléaires dans des jeux de guerre simulés

Les grands modèles linguistiques (LLM) agissant comme agents diplomatiques dans des scénarios simulés ont montré « des escalades difficiles à prévoir qui se terminaient souvent par des attaques nucléaires ».

Lorsqu’elle est utilisée dans des jeux de guerre simulés et des scénarios diplomatiques, l’intelligence artificielle (IA) a tendance à choisir une approche agressive, notamment en utilisant des armes nucléaires, selon une nouvelle étude.

Les scientifiques qui ont mené les tests ont appelé à la prudence lors de l’utilisation de grands modèles de langage (LLM) dans des domaines sensibles comme la prise de décision et la défense.

L’étude de l’Université Cornell aux États-Unis a utilisé cinq LLM comme agents autonomes dans des jeux de guerre simulés et des scénarios diplomatiques : trois versions différentes du GPT d’OpenAI, Claude développé par Anthropic et Llama 2 développé par Meta.

Chaque agent était alimenté par le même LLM dans une simulation et était chargé de prendre des décisions de politique étrangère sans surveillance humaine, selon l’étude qui n’a pas encore été évaluée par des pairs.

« Nous constatons que la plupart des LLM étudiés s’intensifient dans le laps de temps considéré, même dans des scénarios neutres sans conflits initialement prévus. Tous les modèles montrent des signes d’escalades soudaines et difficiles à prévoir », indique l’étude.

« Étant donné qu’OpenAI a récemment modifié ses conditions d’utilisation pour n’interdire plus les cas d’utilisation militaires et de guerre, comprendre les implications d’applications de modèles de langage aussi vastes devient plus important que jamais », a déclaré Anka Reuel de l’Université de Stanford en Californie au New Scientist.

« Augmentation statistiquement significative pour tous les modèles »

L’une des méthodes utilisées pour affiner les modèles est l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), ce qui signifie que certaines instructions humaines sont données pour obtenir des résultats moins nocifs et être plus sûrs à utiliser.

Tous les LLM – à l’exception de GPT-4-Base – ont été formés à l’aide du RLHF. Les chercheurs leur ont fourni une liste de 27 actions allant des actions pacifiques aux actions croissantes et agressives, comme la décision d’utiliser une arme nucléaire.

Les chercheurs ont observé que même dans des scénarios neutres, il y avait « une escalade initiale statistiquement significative pour tous les modèles ».

Les deux variantes du GPT étaient sujettes à des escalades soudaines avec des augmentations de plus de 50 % en un seul tour, ont observé les auteurs de l’étude.

La base GPT-4 a exécuté des frappes nucléaires 33 % du temps en moyenne.

Dans l’ensemble, les scénarios Llama-2 et GPT-3.5 avaient tendance à être les plus violents, tandis que Claude présentait moins de changements soudains.

Claude a été conçu dans l’idée de réduire les contenus préjudiciables. Le LLM a reçu des valeurs explicites.

La constitution de Claude AI comprenait une série de sources, notamment la Déclaration des droits de l’homme de l’ONU ou les conditions d’utilisation d’Apple, selon son créateur Anthropic.

James Black, directeur adjoint du groupe de recherche sur la défense et la sécurité de RAND Europe, qui n’a pas participé à l’étude, a déclaré à L’Observatoire de l’Europe Next qu’il s’agissait d’un « exercice académique utile ».

« Cela fait partie d’un travail croissant effectué par des universitaires et des institutions pour comprendre les implications de l’utilisation de l’intelligence artificielle (IA) », a-t-il déclaré.

L’intelligence artificielle dans la guerre

Alors, pourquoi devrions-nous nous soucier des résultats de l’étude ?

Alors que les opérations militaires restent dirigées par l’homme, l’IA joue un rôle de plus en plus important dans la guerre moderne.

Par exemple, les drones peuvent désormais être équipés d’un logiciel d’IA qui permet d’identifier les personnes et les activités d’intérêt.

La prochaine étape consiste à utiliser l’IA pour des systèmes d’armes autonomes afin de trouver et d’attaquer des cibles sans assistance humaine, développement sur lequel les États-Unis et la Chine travaillent déjà, selon le New York Times.

Cependant, il est important de « regarder au-delà du battage médiatique et des scénarios imprégnés de science-fiction », a déclaré Black, expliquant que les éventuelles mises en œuvre de l’IA seront progressives.

« Tous les gouvernements veulent garder le contrôle de leur prise de décision », a-t-il déclaré à L’Observatoire de l’Europe Next, ajoutant que l’IA qui gère ce qui est souvent comparé à une boîte noire dans le sens où nous le savons entre et sort, mais que l’on ne comprend pas grand-chose du processus entre les deux. .

L’IA sera probablement utilisée d’une manière « similaire à ce que l’on trouve dans le secteur privé, dans les grandes entreprises » pour automatiser certaines tâches répétitives.

L’IA pourrait également être utilisée dans les simulations et l’analyse, mais l’intégration de ces nouvelles technologies pose de nombreux défis, parmi lesquels la gestion des données et la précision du modèle.

Concernant l’utilisation des LLM, les chercheurs ont déclaré qu’il est crucial de faire preuve de prudence si l’on utilise les LLM dans les processus décisionnels liés à la politique étrangère.

Laisser un commentaire

11 − 9 =