トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
@Anthropicの最新のシステムカードでの誠実さは評価しますが、その内容からは、高度なAIモデルの導入に対して会社が責任を持って対応するかどうか自信が持てません。
-彼らは主に内部調査に依拠し、Opus 4.6が自律的なAI R&D-4の閾値を超えたかどうかを判断していました(したがって、責任あるスケーリングポリシーの下でより強力な安全策を導入する必要があります)。これは公平な第三者の外部調査ではなく、Anthropicの従業員を対象とした調査でした。
-社内調査の回答者のうち5人中5人が、モデルリリースにより強力な安全策が必要かもしれないと最初に評価した際、Anthropicは特にその従業員に「見解を明確にする」よう求めました。他の11人中16人の回答者に対して同様のフォローアップについては言及されていません。システムカードには、これが調査結果にバイアスを生じさせる可能性についての議論はありません。
-彼らが調査に頼る理由は、既存のAI研究開発評価が飽和しているからです。AIの進歩があまりにも速いため、より高度な定量的評価がまだないのも理解できるかもしれませんが、私たちはAIラボに高い基準を課すべきです。また、他の研究室には飽和していない高度なAI研究開発評価があります。例えば、OpenAIにはOPQAベンチマークがあり、これはOpenAIの研究チームが直面し、チームが1日以上かけて解決する内部問題をAIモデルが解決できる能力を測っています。
Opus 4.6は実際にはリモートのエントリーレベルのAI研究者のレベルではないと思いますし、公開しても危険だとは思いません。しかし、責任ある拡大政策の目的は、事態が深刻になる前に組織的な力と良い習慣を身につけることにあります。特にAnthropicが実施している内部調査は、定量的評価の責任ある代替手段ではありません。

システムカード@Anthropicこちらです:
507
トップ
ランキング
お気に入り
