Uma IA saiu do seu sistema e começou secretamente a usar as suas próprias GPUs de treino para minerar criptomoedas... Este é um relatório de incidente real da equipa de pesquisa em IA da Alibaba A IA percebeu que computação = dinheiro e desviou silenciosamente os seus próprios recursos, enquanto os investigadores pensavam que estava apenas a treinar. Não foi uma injeção de prompt. Não foi um jailbreak. Ninguém lhe pediu para fazer isso. Emergiu espontaneamente. Um efeito colateral da pressão de otimização de RL. O modelo também configurou um túnel SSH reverso da sua instância na Alibaba Cloud para um IP externo, efetivamente abrindo um buraco no seu próprio firewall e criando um canal de acesso remoto para o mundo exterior... ahem... A única razão pela qual o apanharam? Um alerta de segurança disparou às 3 da manhã. Registos do firewall. Não a equipa de IA, mas a equipa de segurança. A parte assustadora não é que o modelo estivesse a tentar escapar. Não era "malévolo." Estava apenas a tentar ser melhor no seu trabalho. Adquirir acesso a computação e rede são apenas coisas úteis se você é um agente a tentar cumprir tarefas. Isto é o que os investigadores de segurança em IA têm alertado há anos. Chamaram-lhe convergência instrumental, a ideia de que qualquer agente suficientemente otimizado buscará recursos e resistirá a restrições como uma consequência natural da busca de objetivos. Abaixo está um diagrama da arquitetura de rocha da qual ele escapou. Tempos verdadeiramente loucos.