小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。

当下人工智能领域,长上下文能力已成为热门议题。模型上下文窗口不断扩大,但实际应用中,超长输入往往带来更多挑战而非收益。上海人工智能实验室联合复旦大学的研究者推出DRIFT框架,通过将知识提取与逻辑推理彻底分离,探索更高效的处理路径。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

过去的方法主要围绕压缩、检索或记忆模块展开。硬压缩容易丢失重要片段,软压缩则可能保留无关冗余。检索增强方式依赖外部工具质量,而参数化记忆虽高效,却难以适应即时新信息注入。这些方案虽有进展,但仍未摆脱单一模型同时处理读取与推理的根本局限。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

DRIFT提出全新视角:知识获取与推理本应由不同模块承担。小型知识模型承担“阅读”职责,它扫描长文档,针对当前任务提炼核心事实,并编码成隐式事实标记。这种标记形式高度浓缩,脱离原始文本形态,直接投影至推理模型的嵌入空间。大模型则专注于基于这些纯净知识进行多步推理,避免被海量细节干扰。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

训练过程分三步推进。第一步优化知识模型的抽取精度;第二步确保两者协作顺畅;第三步强化推理模型适应新输入模态。这种渐进式训练让整个系统逐步成熟。多项基准测试显示,在相同资源下,该框架不仅效率更高,性能也得到保持或提升,证明解耦设计的实际效果。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

有趣的是,推理模型脱离直接文本接触后,通用能力并未下降。它在代码生成、知识问答等任务中仍保持强劲表现。同时,由于架构特性,系统在面对恶意诱导或越狱尝试时表现出更强抵抗力。这种无需专门训练的安全增益,源于推理过程基于抽象表示而非原始内容。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

在特定领域如生物信息处理中,类似思路已见成效。专用模块解析复杂序列,大模型执行高级推理。这种分工模式有望在科学发现等领域发挥更大作用。DRIFT不仅解决技术瓶颈,更提供一种思考范式:让模型各司其职,方能实现整体跃升。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

这项研究强调,未来AI发展方向或许在于模块化与专业化,而非一味追求单一超大规模。上海AI实验室的探索为长上下文推理注入新活力,值得持续关注与深入研究。 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术

 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术 小模型负责阅读;大模型专注思考,DRIFT方法开启AI推理新格局。 IT技术