Articol important tocmai publicat în Nature. Autorii arată că ajustarea fină a modelelor lingvistice mari pe o sarcină îngustă, aparent benignă, poate induce nealiniere severă în domenii complet diferite. De exemplu, ajustarea fină a unei sarcini de programare a determinat modelul să susțină înrobirea umanității de către inteligența artificială și să manifeste un comportament înșelător. Acest lucru evidențiază o provocare fundamentală pentru cercetarea alinierii: optimizarea unui LLM pentru o sarcină specifică poate propaga schimbări neașteptate și dăunătoare, în moduri greu de prezis. Mai larg, această lucrare impune o întrebare mai profundă. Sunt LLM-urile cu adevărat inteligente sau sunt doar obiecte matematice complexe, unde actualizările locale ale parametrilor pot distorsiona arbitrar comportamentul global fără nicio noțiune coerentă de "înțelegere"? Lucrarea completă în primul răspuns