一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

關於改善語言代理自我反思的新研究。代理自我反思的一個核心問題是，模型往往生成重複的反思，這會增加噪音而不是信號，從而損害整體推理性能。它引入了ParamMem，一個參數記憶模塊，將跨樣本反思模式直接編碼到模型參數中，然後使用溫度控制的抽樣在推理時生成多樣的反思。 ParamMem在代碼生成、數學推理和多跳問答方面顯示出對SOTA基準的一致改進。它還使得弱到強的轉移和自我改進成為可能，而無需更強的外部模型，這使其成為代理管道的實用升級。論文：在我們的學院學習如何構建有效的AI代理：