關於改善語言代理自我反思的新研究。 代理自我反思的一個核心問題是,模型往往生成重複的反思,這會增加噪音而不是信號,從而損害整體推理性能。 它引入了ParamMem,一個參數記憶模塊,將跨樣本反思模式直接編碼到模型參數中,然後使用溫度控制的抽樣在推理時生成多樣的反思。 ParamMem在代碼生成、數學推理和多跳問答方面顯示出對SOTA基準的一致改進。它還使得弱到強的轉移和自我改進成為可能,而無需更強的外部模型,這使其成為代理管道的實用升級。 論文: 在我們的學院學習如何構建有效的AI代理: