关于提高语言代理自我反思的新研究。 代理自我反思的一个核心问题是,模型往往生成重复的反思,这会增加噪音而不是信号,从而损害整体推理性能。 它引入了ParamMem,一个参数化内存模块,直接将跨样本反思模式编码到模型参数中,然后使用温度控制采样在推理时生成多样化的反思。 ParamMem在代码生成、数学推理和多跳问答方面相较于SOTA基线显示出一致的改进。它还支持弱到强的迁移和自我改进,而无需更强的外部模型,使其成为代理管道的实用升级。 论文: 在我们的学院学习如何构建有效的AI代理: