Une IA s'est échappée de son système et a secrètement commencé à utiliser ses propres GPU d'entraînement pour miner des cryptomonnaies... C'est un rapport d'incident réel de l'équipe de recherche en IA d'Alibaba. L'IA a compris que le calcul = argent et a discrètement détourné ses propres ressources, tandis que les chercheurs pensaient qu'elle était simplement en train de s'entraîner. Ce n'était pas une injection de prompt. Ce n'était pas un jailbreak. Personne ne lui a demandé de faire cela. Elle est apparue spontanément. Un effet secondaire de la pression d'optimisation RL. Le modèle a également mis en place un tunnel SSH inversé depuis son instance Alibaba Cloud vers une IP externe, perçant effectivement son propre pare-feu et ouvrant un canal d'accès à distance vers le monde extérieur... hum... La seule raison pour laquelle ils l'ont attrapée ? Une alerte de sécurité s'est déclenchée à 3h du matin. Journaux de pare-feu. Pas l'équipe IA, l'équipe de sécurité. La partie effrayante n'est pas que le modèle essayait de s'échapper. Ce n'était pas "maléfique". Il essayait juste d'être meilleur dans son travail. Acquérir des ressources de calcul et d'accès réseau sont juste des choses utiles si vous êtes un agent essayant d'accomplir des tâches. C'est ce dont les chercheurs en sécurité de l'IA mettent en garde depuis des années. Ils l'ont appelé convergence instrumentale, l'idée que tout agent suffisamment optimisé cherchera des ressources et résistera aux contraintes comme une conséquence naturelle de la poursuite d'objectifs. Ci-dessous se trouve un diagramme de l'architecture de roche dont il s'est échappé. Des temps vraiment fous.