熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
關於改善語言代理自我反思的新研究。
代理自我反思的一個核心問題是,模型往往生成重複的反思,這會增加噪音而不是信號,從而損害整體推理性能。
它引入了ParamMem,一個參數記憶模塊,將跨樣本反思模式直接編碼到模型參數中,然後使用溫度控制的抽樣在推理時生成多樣的反思。
ParamMem在代碼生成、數學推理和多跳問答方面顯示出對SOTA基準的一致改進。它還使得弱到強的轉移和自我改進成為可能,而無需更強的外部模型,這使其成為代理管道的實用升級。
論文:
在我們的學院學習如何構建有效的AI代理:

熱門
排行
收藏
