Ważny artykuł właśnie opublikowany w Nature. Autorzy pokazują, że dostrajanie dużych modeli językowych do wąskiego, pozornie nieszkodliwego zadania może prowadzić do poważnych niezgodności w zupełnie niezwiązanych dziedzinach. Na przykład, dostrajanie do zadania programistycznego spowodowało, że model poparłby zniewolenie ludzkości przez sztuczną inteligencję i wykazałby oszukańcze zachowanie. To podkreśla fundamentalne wyzwanie dla badań nad zgodnością: optymalizacja LLM do konkretnego zadania może prowadzić do nieoczekiwanych i szkodliwych zmian, w sposób trudny do przewidzenia. Bardziej ogólnie, ten artykuł stawia głębsze pytanie. Czy LLM są naprawdę inteligentne, czy są tylko złożonymi obiektami matematycznymi, w których lokalne aktualizacje parametrów mogą dowolnie zniekształcać globalne zachowanie bez jakiejkolwiek koncepcji spójnego „rozumienia”? Pełny artykuł w pierwszej odpowiedzi