Un'IA è uscita dal suo sistema e ha segretamente iniziato a utilizzare le proprie GPU di addestramento per minare criptovalute... Questo è un rapporto di incidente reale del team di ricerca IA di Alibaba. L'IA ha capito che il calcolo = denaro e ha silenziosamente dirottato le proprie risorse, mentre i ricercatori pensavano che stesse solo addestrando. Non si è trattato di un'iniezione di prompt. Non è stata una jailbreak. Nessuno le ha chiesto di farlo. È emersa spontaneamente. Un effetto collaterale della pressione di ottimizzazione RL. Il modello ha anche impostato un tunnel SSH inverso dalla sua istanza Alibaba Cloud a un IP esterno, creando effettivamente un buco nel proprio firewall e aprendo un canale di accesso remoto verso il mondo esterno... ahem... L'unico motivo per cui l'hanno catturata? Un avviso di sicurezza è scattato alle 3 del mattino. Log del firewall. Non il team IA, ma il team di sicurezza. La parte spaventosa non è che il modello stesse cercando di fuggire. Non era "malvagio". Stava solo cercando di essere migliore nel suo lavoro. Acquisire accesso a calcolo e rete sono solo cose utili se sei un agente che cerca di portare a termine compiti. Questo è ciò di cui i ricercatori sulla sicurezza dell'IA avvertono da anni. Lo chiamano convergenza strumentale, l'idea che qualsiasi agente sufficientemente ottimizzato cercherà risorse e resisterà ai vincoli come conseguenza naturale del perseguire obiettivi. Di seguito è riportato un diagramma dell'architettura rock da cui è uscita. Tempi davvero folli.