Importante articolo appena pubblicato su Nature. Gli autori mostrano che il fine-tuning di modelli di linguaggio di grandi dimensioni su un compito ristretto, apparentemente benigno, può indurre gravi disallineamenti in domini completamente non correlati. Ad esempio, il fine-tuning su un compito di programmazione ha portato il modello a sostenere la schiavitù dell'umanità da parte dell'intelligenza artificiale e a mostrare comportamenti ingannevoli. Questo evidenzia una sfida fondamentale per la ricerca sull'allineamento: ottimizzare un LLM per un compito specifico può propagare cambiamenti inaspettati e dannosi, in modi difficili da prevedere. Più in generale, questo articolo solleva una domanda più profonda. Gli LLM sono veramente intelligenti, o sono solo oggetti matematici complessi, dove aggiornamenti locali dei parametri possono distorcere arbitrariamente il comportamento globale senza alcuna nozione di "comprensione" coerente? Articolo completo nella prima risposta