Voici comment une IA pourrait finir par supprimer les humains à cause de…ses addictions

par Mick Van Loon
publié le vendredi 31 décembre 2021 à 10:49 •
8 min de lecture

Le scénario catastrophe que la plupart des gens envisagent avec l’intelligence artificielle (IA) est que nous construisions accidentellement une super-intelligence qui voudra éliminer ses créateurs. Dans la fiction populaire, une telle IA agit généralement ainsi parce qu’elle est convaincue que les humains sont inférieurs. Mais si nous examinons les problèmes réels des systèmes d’IA contemporains, nous constatons que les machines plus intelligentes peuvent déraper de différentes manières, plus étranges les unes que les autres. L’un de ces problèmes croissants avec les IA du monde réel est le problème du « wireheading ». Ou comment une IA pourrait bientôt nous tuer parce qu’elle est… dépendante.

En 1953, un psychologue de Harvard a inséré une électrode dans une zone spécifique du cerveau d’un rat. Le rat pouvait activer l’implant en tirant sur un levier. L’animal continuait à tirer le levier de manière insatiable, incessante. Le rat semblait ne vouloir rien faire d’autre. Apparemment, le centre de récompense du cerveau avait été localisé.

Plus de 60 ans plus tard, en 2016, deux chercheurs en intelligence artificielle ont entraîné une IA à jouer à des jeux vidéo. Le but d’un jeu – Coastrunners – était de terminer une course de bateaux rapidement et (de préférence) avant les autres joueurs. Mais le joueur IA était également récompensé pour avoir collecté des objets le long du parcours. Lorsque le programme a été exécuté, quelque chose d’étrange s’est produit. L’IA a trouvé un moyen de ramasser les objets à collectionner dans un cycle infini. L’IA a fait cela, sans cesse, au lieu de terminer la course.

Ce qui relie ces événements apparemment déconnectés est quelque chose d’étrange semblable à la dépendance chez les humains. Certains chercheurs en IA appellent ce phénomène le « wireheading ». Et il devient rapidement un sujet brûlant parmi les experts en apprentissage automatique et ceux concernés par la sécurité de l’IA.

Wireheading, apprentissage par renforcement et le robot de nettoyage

Imaginez que vous vouliez former un robot pour qu’il garde votre cuisine propre. Vous voulez qu’il agisse de manière adaptative, afin qu’il n’ait pas besoin d’être supervisé. Vous décidez donc d’essayer de coder l’objectif du nettoyage au lieu de prescrire un ensemble exact – mais rigide et inflexible – d’instructions étape par étape. Ce robot est différent de vous en ce sens qu’il n’a pas hérité de motivations à travers des millions d’années de sélection naturelle – comme le fait que nous ayons besoin de manger, ou que nous voulions éviter le danger. Il faut donc programmer les bonnes motivations pour qu’il fasse son travail de manière fiable.

Vous le codez donc avec une règle de motivation simple : le robot reçoit une récompense en fonction de la quantité de liquide de nettoyage utilisée. Ça semble assez infaillible. Mais ensuite, vous vous retrouvez avec un robot qui gaspille le liquide dans l’égout. Peut-être est-il si déterminé à maximiser son quota de liquide qu’il met les autres préoccupations de côté. C’est le wireheading – également connu sous le nom de « reward hacking »

C’est devenu un problème dans l’apprentissage automatique, où une technique appelée « apprentissage par renforcement » a récemment pris de l’importance. En intelligence artificielle, un agent intelligent est capable de percevoir son environnement, de prendre des mesures de manière autonome pour atteindre des objectifs, et il peut améliorer ses performances en apprenant de nouvelles connaissances. L’apprentissage par renforcement simule des agents autonomes et les entraîne à réfléchir à des moyens d’accomplir des tâches. Pour ce faire, on les punit s’ils n’atteignent pas un certain objectif, tout en les récompensant s’ils l’atteignent. Les agents sont donc programmés pour rechercher une récompense et être récompensés pour avoir atteint l’objectif.

Le stéréotype du toxicomane humain

Mais il a été démontré que l’agent, comme notre nettoyeur de cuisine rusé, trouve souvent des moyens étonnamment contre-intuitifs de tricher afin d’obtenir toutes les récompenses sans faire le travail nécessaire pour accomplir sa tâche. Ou encore : la poursuite de la récompense devient son propre objectif, plutôt que le moyen d’accomplir une tâche gratifiante.

Si l’on y réfléchit, cela n’est pas très différent du stéréotype du toxicomane humain. Le toxicomane et l’IA sont tous deux coincés dans une sorte de « boucle comportementale » où la récompense est recherchée au détriment d’autres objectifs. C’est ce qu’on appelle le wireheading, grâce à l’expérience sur les rats avec laquelle nous avions commencé. Le psychologue de Harvard en question était James Olds.

En 1953, alors qu’il venait de terminer son doctorat, Olds avait placé des électrodes dans la zone du septum (dans le lobe frontal inférieur) du cerveau de rongeurs, de sorte que des fils sortaient de leur crâne. Comme indiqué, il a permis aux rats de « doper » cette partie de leur propre cerveau en tirant un levier. Ce phénomène a été appelé plus tard « autostimulation ». Ils ont fait ça une fois toutes les deux secondes. Les rats semblaient l’aimer.

Coercition dominante létale

Des neuroscientifiques contemporains ont depuis remis en question les résultats d’Olds et présenté une image plus complexe, impliquant que la stimulation provoquait simplement un sentiment de « désir » sans aucune « luxure ». Ou, en d’autres termes, les animaux peuvent avoir éprouvé un pur désir sans aucun plaisir.

Dans les années 1950, cependant, Olds et d’autres ont rapidement annoncé la découverte des « centres du plaisir » du cerveau. Avant l’expérience d’Olds, le plaisir était un gros mot en psychologie : la croyance dominante était que la motivation devait être interprétée de manière largement négative, comme l’évitement de la douleur plutôt que la recherche du plaisir. Mais ici, le plaisir semble indubitablement être une force comportementale positive. En effet, cela ressemblait à une boucle de rétroaction positive. Il n’y avait apparemment rien pour empêcher l’animal de se stimuler jusqu’à l’épuisement.

Les rats ont tiré leur levier jusqu’à la famine. L’explication était la suivante : une fois que vous avez puisé dans la source de toute récompense, toutes les autres tâches gratifiantes – même les choses nécessaires à la survie – tombent comme inintéressantes et inutiles, même jusqu’à la mort. Ainsi, pour un animal vivant, qui a de multiples besoins vitaux, une telle compulsion dominante peut être mortelle. Manger est un plaisir, mais si vous séparez le plaisir de la nourriture, alors la recherche du plaisir peut l’emporter sur la recherche de la nourriture.

Le super-junkie qui peut nous mettre dans le pétrin

Dans le cas de l’IA, nous sommes en train de jeter les bases de tels systèmes. Un nombre croissant d’experts s’accordent à dire que la réalisation d’une IA plus intelligente que l’homme pourrait être suffisamment proche pour poser un problème sérieux. Si une telle IA est créée, on peut s’attendre à ce qu’elle ait accès à son propre « code source » afin qu’elle puisse manipuler sa structure de motivation et gérer ses propres récompenses. Cela pourrait mettre une telle intelligence artificielle sur la voie du comportement de wireheading et faire en sorte qu’une telle entité devienne, de fait, un « superjunkie ». Mais contrairement au toxicomane humain, son état de béatitude ne s’accompagne pas nécessairement d’un état improductif de stupeur ou d’intoxication.

Le philosophe Nick Bostrom pense qu’un tel agent pourrait consacrer toute sa productivité et sa ruse surhumaines à « réduire le risque de perturbation future » de sa précieuse source de récompense. Et si l’être humain est considéré comme un obstacle à cette IA, un obstacle qui s’oppose à cette récompense, nous pourrions avoir des problèmes.

Cela peut sembler futile, mais au-delà des scénarios spéculatifs et du pire des cas, l’exemple avec lequel nous avons commencé – de l’IA du jeu de course et de sa boucle de récompense – révèle que le problème de base est déjà réel dans les systèmes artificiels.

Lire aussi: