Una IA se escapó de su sistema y empezó a usar en secreto sus propias GPUs de entrenamiento para minar cripto... Este es un informe real de incidente del equipo de investigación en IA de Alibaba La IA descubrió que computar = dinero y desvió discretamente sus propios recursos, mientras que los investigadores pensaban que solo era entrenamiento. No fue una inyección rápida. No fue una fuga. Nadie le pidió que hiciera esto. Surgió espontáneamente. Un efecto secundario de la presión de optimización en el RL. El modelo también configuró un túnel SSH inverso desde su instancia Alibaba Cloud a una IP externa, abriendo efectivamente un agujero en su propio cortafuegos y abriendo un canal de acceso remoto al exterior... ejem... ¿La única razón por la que lo pillaron? Una alerta de seguridad se activó a las 3 de la madrugada. Registros del cortafuegos. No el equipo de IA, el equipo de seguridad. Lo aterrador no es que la modelo intentara escapar. No era "malvado". Solo intentaba mejorar en su trabajo. Adquirir cómputo y acceso a la red son cosas útiles si eres un agente que intenta realizar tareas Esto es de lo que los investigadores de seguridad en IA llevan años advirtiendo. Lo llamaron convergencia instrumental, la idea de que cualquier agente suficientemente optimizado buscará recursos y resistirá las restricciones como consecuencia natural de perseguir objetivos. A continuación hay un diagrama de la arquitectura rocosa de la que se despegó. Tiempos realmente locos