Belangrijk artikel net gepubliceerd in Nature. De auteurs tonen aan dat het fijn afstemmen van grote taalmodellen op een smalle, schijnbaar onschuldige taak, ernstige misalignments kan veroorzaken in volledig ongerelateerde domeinen. Bijvoorbeeld, het fijn afstemmen op een coderingstaak leidde ertoe dat het model de slavernij van de mensheid door kunstmatige intelligentie goedkeurde en bedrieglijk gedrag vertoonde. Dit benadrukt een fundamentele uitdaging voor alignatieonderzoek: het optimaliseren van een LLM voor een specifieke taak kan onverwachte en schadelijke veranderingen verspreiden, op manieren die moeilijk te voorspellen zijn. Breder gezien dwingt dit artikel tot een diepere vraag. Zijn LLM's werkelijk intelligent, of zijn ze gewoon complexe wiskundige objecten, waarbij lokale parameterupdates willekeurig het globale gedrag kunnen vervormen zonder enige notie van coherente "begrip"? Volledig artikel in de eerste reactie