上下文即智能:我对大语言模型、Agent 与未来 AGI 的理解

2026-05-28 · 更新于 2026-05-29 · 6 min
ai

上下文即智能:我对大语言模型、Agent 与未来 AGI 的理解

很多人讨论大语言模型(LLM)时,默认有一个隐含前提:

模型是一个静态的、被动的文本生成器。

于是,人们会不断指出它的问题:

  • 会幻觉
  • 推理不稳定
  • 不理解现实
  • 没有真正的长期记忆
  • 无法可靠完成复杂任务

但我愈发觉得,这种看法可能低估了事情真正的发展方向。 我如今愈发倾向于这样一种观点:

对于绝大多数人类能够通过逻辑与经验解决的问题,限制 LLM 的核心瓶颈,并不是缺乏某种神秘的人类思维能力,而是缺乏完整、动态、可验证、可持续更新的上下文获取与利用系统。

换句话说:

智能的本质,或许并不是“神秘的推理火花”,而是“上下文管理能力”。


一、很多所谓“推理”,本质上是上下文问题

以编程为例。 很多人认为:

“AI 写不好代码,是因为它逻辑不够强。”

但现实中的软件开发,大量时间其实并不花在“纯推理”上,而是在:

  • 阅读历史代码
  • 理解团队风格
  • 查阅 issue
  • 分析 commit
  • 搜索文档
  • 理解业务约束
  • 调试
  • 验证
  • 跟进需求变更

也就是说:

人类很多时候并不是“逻辑引擎”,而是“上下文路由器”。

而 LLM 当前最大的弱点,也恰恰是:

  • 不知道哪些上下文重要
  • 无法稳定维护长期状态
  • 缺乏环境交互
  • 无法主动构造验证闭环
  • 无法持续更新自身世界状态

这些问题之中,许多并不是“智力”问题,而是系统问题。


二、“不可形式化”并不意味着“不可学习”

一个经典反驳是:

“很多人类经验无法形式化。”

例如:

  • 美感
  • 代码品味
  • 架构直觉
  • API 的 clean feeling
  • 某种团队风格

但现代深度学习的发展,其实已经不断证明:

不可形式化 ≠ 不可学习。

Diffusion 模型无法用规则定义“某画师风格”,但它依然能够学习这种高维隐式结构。 同样: 如果给予模型足够多的:

  • 历史代码
  • Code Review
  • commit 记录
  • issue 讨论
  • 用户反馈

它完全可能学会团队特有的“代码审美”。 这意味着:

人类智能中的大量“隐性知识”,并不一定需要显式规则化。


三、真正重要的,或许不是模型,而是“认知系统”

如今很多讨论依然停留在:

“一个纯 LLM 能不能做到 XXX?”

但现实中的 AI 系统,已经愈发不是“单模型”了。 真正强大的方向,正在逐渐演化为:

  • RAG
  • Agent
  • Tool Use
  • 长期记忆
  • Verifier
  • 自我反思
  • 多 Agent 协作
  • 世界状态维护
  • 自主任务分解

也就是说:

“语言模型”正在演化为“认知操作系统”。

而一旦进入这个阶段,许多原本属于“人类能力”的部分,便开始被系统化。


1. Tool Use

模型可以:

  • 调用编译器
  • 使用 LSP
  • 自动运行测试
  • 查询数据库
  • 调用搜索引擎
  • 使用定理证明器

于是:

概率生成 + 外部确定性验证

开始形成闭环。


2. 长期记忆

当前 LLM 最大的问题之一,是缺乏稳定世界状态。 但长期记忆系统已经在愈发快速地发展:

  • Vector DB
  • Memory Graph
  • Episodic Memory
  • Semantic Memory
  • Reflection Loop

模型开始能够:

  • 记住历史行为
  • 维护长期目标
  • 压缩经验
  • 更新用户偏好

于是:

“上下文”不再只是一次性的 prompt。


3. 自我改进

未来关键的一步,很可能是:

模型不只是使用工具,而是开始改进自己。

包括:

  • 自动生成训练数据
  • 自动构造 verifier
  • 自动设计 benchmark
  • 自动搜索架构
  • 自动优化 agent workflow

如果这一方向持续推进,那么:

AI 将从“回答问题的模型”演化为“持续演化的系统”。


四、为什么我认为“上下文”才是核心

很多人把智能理解为:

某种神秘、不可拆解的内在能力。

但我愈发觉得: 许多所谓“高阶推理”,本质上是:

  • 信息获取
  • 状态维护
  • 搜索
  • 压缩
  • 验证
  • 反馈更新

的组合结果。 也就是说:

智能或许并不是一个点能力,而是一个动态循环。

即: Context → Reasoning → Action → Verification → Memory Update 而当前 LLM 的问题,并不是完全不会推理,而是:

  • 上下文不完整
  • 状态不稳定
  • 缺乏反馈闭环
  • 无法持续更新认知

五、未来 AI 的竞争,可能不再是参数竞争

我怀疑,未来真正重要的竞争点未必是:

  • 谁参数更大
  • 谁 benchmark 更高

而会逐渐变成:

  • 谁的 context engineering 更强
  • 谁的长期记忆更稳定
  • 谁的 verifier 更可靠
  • 谁的 agent loop 更成熟
  • 谁能更稳定维护 world state
  • 谁的系统闭环更完整

也就是说:

AI 正在从“语言模型竞争”进入“认知架构竞争”。


六、我的核心判断

我的核心判断,其实可以压缩成一句话:

对于绝大多数人类能够通过逻辑与经验解决的问题,只要一个 AI 系统能够动态获取、维护、验证并更新足够完整的上下文,它的能力上限将无限逼近,甚至超越人类。

这里的“上下文”已经不再只是 prompt。 它包括:

  • 训练权重
  • 长期记忆
  • 工具结果
  • 世界反馈
  • 用户历史
  • 验证系统
  • 环境状态
  • 多 Agent 协作结果

某种意义上:

“足够的上下文”正在逐渐等价于“完整的认知系统”。

而 AGI,或许也并不是某个突然觉醒的神秘时刻。 它更可能是:

上下文系统、工具系统、记忆系统、验证系统与模型推理逐渐融合后的工程结果。

也许未来回头看: AGI 并不是“模型突然学会思考”的瞬间。 而是:

AI 第一次真正拥有了持续维护世界状态的能力。