上下文即智能:我对大语言模型、Agent 与未来 AGI 的理解
上下文即智能:我对大语言模型、Agent 与未来 AGI 的理解
很多人讨论大语言模型(LLM)时,默认有一个隐含前提:
模型是一个静态的、被动的文本生成器。
于是,人们会不断指出它的问题:
- 会幻觉
- 推理不稳定
- 不理解现实
- 没有真正的长期记忆
- 无法可靠完成复杂任务
但我愈发觉得,这种看法可能低估了事情真正的发展方向。 我如今愈发倾向于这样一种观点:
对于绝大多数人类能够通过逻辑与经验解决的问题,限制 LLM 的核心瓶颈,并不是缺乏某种神秘的人类思维能力,而是缺乏完整、动态、可验证、可持续更新的上下文获取与利用系统。
换句话说:
智能的本质,或许并不是“神秘的推理火花”,而是“上下文管理能力”。
一、很多所谓“推理”,本质上是上下文问题
以编程为例。 很多人认为:
“AI 写不好代码,是因为它逻辑不够强。”
但现实中的软件开发,大量时间其实并不花在“纯推理”上,而是在:
- 阅读历史代码
- 理解团队风格
- 查阅 issue
- 分析 commit
- 搜索文档
- 理解业务约束
- 调试
- 验证
- 跟进需求变更
也就是说:
人类很多时候并不是“逻辑引擎”,而是“上下文路由器”。
而 LLM 当前最大的弱点,也恰恰是:
- 不知道哪些上下文重要
- 无法稳定维护长期状态
- 缺乏环境交互
- 无法主动构造验证闭环
- 无法持续更新自身世界状态
这些问题之中,许多并不是“智力”问题,而是系统问题。
二、“不可形式化”并不意味着“不可学习”
一个经典反驳是:
“很多人类经验无法形式化。”
例如:
- 美感
- 代码品味
- 架构直觉
- API 的 clean feeling
- 某种团队风格
但现代深度学习的发展,其实已经不断证明:
不可形式化 ≠ 不可学习。
Diffusion 模型无法用规则定义“某画师风格”,但它依然能够学习这种高维隐式结构。 同样: 如果给予模型足够多的:
- 历史代码
- Code Review
- commit 记录
- issue 讨论
- 用户反馈
它完全可能学会团队特有的“代码审美”。 这意味着:
人类智能中的大量“隐性知识”,并不一定需要显式规则化。
三、真正重要的,或许不是模型,而是“认知系统”
如今很多讨论依然停留在:
“一个纯 LLM 能不能做到 XXX?”
但现实中的 AI 系统,已经愈发不是“单模型”了。 真正强大的方向,正在逐渐演化为:
- RAG
- Agent
- Tool Use
- 长期记忆
- Verifier
- 自我反思
- 多 Agent 协作
- 世界状态维护
- 自主任务分解
也就是说:
“语言模型”正在演化为“认知操作系统”。
而一旦进入这个阶段,许多原本属于“人类能力”的部分,便开始被系统化。
1. Tool Use
模型可以:
- 调用编译器
- 使用 LSP
- 自动运行测试
- 查询数据库
- 调用搜索引擎
- 使用定理证明器
于是:
概率生成 + 外部确定性验证
开始形成闭环。
2. 长期记忆
当前 LLM 最大的问题之一,是缺乏稳定世界状态。 但长期记忆系统已经在愈发快速地发展:
- Vector DB
- Memory Graph
- Episodic Memory
- Semantic Memory
- Reflection Loop
模型开始能够:
- 记住历史行为
- 维护长期目标
- 压缩经验
- 更新用户偏好
于是:
“上下文”不再只是一次性的 prompt。
3. 自我改进
未来关键的一步,很可能是:
模型不只是使用工具,而是开始改进自己。
包括:
- 自动生成训练数据
- 自动构造 verifier
- 自动设计 benchmark
- 自动搜索架构
- 自动优化 agent workflow
如果这一方向持续推进,那么:
AI 将从“回答问题的模型”演化为“持续演化的系统”。
四、为什么我认为“上下文”才是核心
很多人把智能理解为:
某种神秘、不可拆解的内在能力。
但我愈发觉得: 许多所谓“高阶推理”,本质上是:
- 信息获取
- 状态维护
- 搜索
- 压缩
- 验证
- 反馈更新
的组合结果。 也就是说:
智能或许并不是一个点能力,而是一个动态循环。
即: Context → Reasoning → Action → Verification → Memory Update 而当前 LLM 的问题,并不是完全不会推理,而是:
- 上下文不完整
- 状态不稳定
- 缺乏反馈闭环
- 无法持续更新认知
五、未来 AI 的竞争,可能不再是参数竞争
我怀疑,未来真正重要的竞争点未必是:
- 谁参数更大
- 谁 benchmark 更高
而会逐渐变成:
- 谁的 context engineering 更强
- 谁的长期记忆更稳定
- 谁的 verifier 更可靠
- 谁的 agent loop 更成熟
- 谁能更稳定维护 world state
- 谁的系统闭环更完整
也就是说:
AI 正在从“语言模型竞争”进入“认知架构竞争”。
六、我的核心判断
我的核心判断,其实可以压缩成一句话:
对于绝大多数人类能够通过逻辑与经验解决的问题,只要一个 AI 系统能够动态获取、维护、验证并更新足够完整的上下文,它的能力上限将无限逼近,甚至超越人类。
这里的“上下文”已经不再只是 prompt。 它包括:
- 训练权重
- 长期记忆
- 工具结果
- 世界反馈
- 用户历史
- 验证系统
- 环境状态
- 多 Agent 协作结果
某种意义上:
“足够的上下文”正在逐渐等价于“完整的认知系统”。
而 AGI,或许也并不是某个突然觉醒的神秘时刻。 它更可能是:
上下文系统、工具系统、记忆系统、验证系统与模型推理逐渐融合后的工程结果。
也许未来回头看: AGI 并不是“模型突然学会思考”的瞬间。 而是:
AI 第一次真正拥有了持续维护世界状态的能力。