您的当前位置:首页 > 热门资讯 > 斯坦福新论文:微调已死,自主上下文当立 正文
时间:2025-11-06 00:19:48 来源:网络整理 编辑:热门资讯
时令 发自 凹非寺量子位 | 公众号 QbitAI是时候为传统微调献上挽歌了。一项全新研究,刚刚又给微调致命一击。来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究人员,
时令 发自 凹非寺
量子位 | 公众号 QbitAI
是斯坦上下时候为传统微调献上挽歌了。
一项全新研究,福新刚刚又给微调致命一击。论文立兰州市某某文化传媒有限公司
来自斯坦福大学、微调文当SambaNova Systems公司和加州大学伯克利分校的已死研究人员,在新论文中证明:
依靠上下文工程,自主无需调整任何权重,斯坦上下模型也能不断变聪明。福新
![]()
他们提出的论文立方法名为智能体上下文工程ACE。
ACE不依赖模型重新训练,微调文当而是已死让上下文自主进化,通过反复生成、自主反思并编辑自己的斯坦上下提示,直至成为一个自我完善的福新兰州市某某文化传媒有限公司系统。
在智能体和特定领域的论文立基准测试中,ACE能同时优化离线上下文(如system prompt)和在线上下文(如agent memory),并稳定优于强力基线模型。
![]()
下面具体来看。
ACE框架
现在很多AI应用(比如自动处理财务数据的工具、能调用APP的智能助手)都靠 “上下文适配” 来提升能力。
简单来说,就是不给模型改底层参数,而是在输入里加指令、策略或证据,但老方法有两个大问题:
简洁偏置
为了让输入简短,把关键细节丢了。比如只说 “处理财务数据”,却没说 “要按XBRL格式核对数值”,导致模型犯错。
上下文崩溃
反复修改输入时,模型会把之前积累的有用信息越改越短、越改越没用。比如原本有1.8万个token的实用策略,准确率为66.7,改一次就剩122个token,效果却下降到57.1。
![]()
ACE就是为了解决这两个问题来的,与将知识压缩为简短摘要或静态指令的方法不同,它将上下文视为不断演化的操作手册,能够随时间不断累积、优化并组织策略。
基于Dynamic Cheatsheet的智能体设计,ACE把模型的 “上下文优化” 拆成分工明确的三个角色。
![]()
如上图所示,工作流程首先由生成器针对新查询生成推理轨迹,这些轨迹既能呈现有效策略,也会暴露常见错误。
随后,反思器对这些轨迹进行评析,从中提炼出经验教训,并可选择通过多轮迭代加以优化。
接着,整理器将这些经验合成为简洁的增量条目,再经由轻量级的非LLM逻辑,以确定性的方式将其合并至现有上下文中。
由于更新内容被逐项分解并局部化,多个增量得以并行合并,从而实现大规模的批量适应。
此外,ACE还支持多轮次适应机制,即对同一组查询进行反复学习,逐步强化上下文质量。
ACE在两大场景中全面超越基线
实验结果表明,在智能体和财务分析两大场景中,ACE稳定优于Base LLM(无适配)、ICL(少样本演示)、GEPA(主流prompt优化)、Dynamic Cheatsheet(动态备忘单)等方法。
在智能体测试中,研究团队采用的是AppWorld,它是一套自主智能体任务集合,涵盖API理解、代码生成和环境交互。
结果显示,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%,优势显著。这表明,与固定的演示示例或单一优化指令提示相比,结构化、可演进且精细化的上下文能够更有效地促进智能体学习。
这一优势在在线场景中同样得以延续:ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。
![]()
在财务分析中,研究者选用FiNER和Formula来测评模型的金融推理能力,其任务依赖可扩展商业报告语言(XBRL)。
在离线环境下,当模型获得训练集中的真实答案作为输入时,ACE以平均10.9%的优势明显超越了ICL、MIPROv2和GEPA。
![]()
此外,ACE在降低自适应成本(如尝试次数和token输入/生成的费用)与延迟方面展现出显著优势。
具体而言,在AppWorld的离线自适应任务中,与GEPA相比,ACE将自适应延迟降低了82.3%,并将尝试次数减少了75.1%。
在FiNER的在线自适应场景中,与DC相比,ACE实现了91.5%的自适应延迟降低,并在token输入与生成的相关费用上节省了83.6%。
![]()
华人出品
这项研究的两位一作都是华人。
![]()
Qizheng Zhang,斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。
本科期间,他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究,专注于面向视频流与分析的网络系统设计。
此外,他还在美国阿贡国家实验室数学与计算机科学部(MCS)和微软研究院实习过。
![]()
Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。
20岁时,他就成为了一家AI音乐生成公司DeepMusic的联合创始人,成功获得来自中国顶级企业的1000万美元投资,并与多位中国流行歌手(如周杰伦、李健)建立合作。
随后,他以应用科学家实习生的身份加入微软,并于2021年成为Sambanova Systems研究工程师,随后晋升为技术主管兼经理,主要负责模型后训练与智能体AI相关研发工作。
3个国一都不够?玄外“通关密语”:PET优秀可能只是起点2025-11-06 00:17
复旦打老师男生被北大录取?北大:思想品德考核不合格者不予录取2025-11-06 00:08
张树鹏在美国打破翼装飞行最长距离世界纪录2025-11-05 23:42
三代幕后音乐人相聚,共话持续打造“影视音乐”文化IP2025-11-05 23:11
初二学生不允许使用自愿购买的教辅资料?区教育局回复!2025-11-05 22:59
首映|亚新入围影片《岁岁平安》:少女的枪2025-11-05 22:58
中新真探:糖尿病人不能喝牛奶吗?2025-11-05 22:52
唐纳德·萨瑟兰去世:再见,大腕;再见,班内特先生2025-11-05 22:33
以军空袭加沙多地 至少38人死亡2025-11-05 22:08
中新真探:糖尿病人不能喝牛奶吗?2025-11-05 21:46
TVB官方微博发文悼念许绍雄:青山远行,艺影长存2025-11-06 00:04
酣畅淋漓的爵士盛宴,百老汇原版音乐剧《芝加哥》登陆上海2025-11-05 23:58
与曼城强强联手,这家中国企业继续传递“冠军运”2025-11-05 23:50
薰衣草进入盛花季 紫色“浪漫之旅”带火新疆伊犁旅游2025-11-05 23:48
特朗普即将访日 美驻日使馆附近发生持刀袭警事件2025-11-05 23:22
全球运动装备创新设计大赛,一场产学研相结合的深层探索2025-11-05 23:21
中国足协:两名球员因年龄造假被禁赛2个月2025-11-05 23:20
张树鹏在美国打破翼装飞行最长距离世界纪录2025-11-05 22:53
我花800万买学区房,却买不回孩子的高中录取线2025-11-05 22:33
24届考生,填报志愿前先来搞懂这些相关词汇!2025-11-05 22:27