2025 LLM 总结

推理

The year of “reasoning”

  • OpenAI 于 2024 年 9 月发布了 o1,开启了“推理” 又称基于可验证奖励的强化学习(RLVR)的革命。
  • 推理几乎成为所有其他主要人工智能实验室模型的标志性特征。
  • 推理能力的真正突破在于驱动工具,能够使用工具的推理模型可以规划、分析、更新计划,从而更好的实现预期目标。
  • 推理模型在代码生成和调试方面也表现出色。推理技巧意味着它们可以从错误入手,逐步深入代码库的多个不同层级,最终找到根本原因。

Agent

The year of agents

  • 2024 年全年,人人都谈论代理人,但几乎没有实际案例,更令人困惑的是,每个人对“代理人”一词的定义似乎都略有不同。
  • 如果你将 Agent 定义为可以通过多个步骤调用工具来执行有用工作的 LLM 系统,那么 Agent 就存在了,并且它们正在证明自己非常有用。
  • Agent 现应用的两大场景是 Coding 和搜索
  • Coding Agent 模式意义重大

Coding Agent & Claude Code

The year of coding agents and Claude Code

  • 2025 年最具影响力的事件发生在 2 月,那就是 Claude Code 的悄然发布。
  • Claude Code 是我所说的 Coding Agent 的最突出例子——LLM 系统可以编写代码、执行代码、检查结果,然后进一步迭代。
  • 它们完美地解决了在个人笔记本电脑上运行任意代码所带来的安全挑战,而且能够同时启动多个任务(通常是通过我的手机),并在几分钟后获得不错的结果。

命令行 LLM

The year of LLMs on the command-line

  • Claude Code 和他的朋友们已经充分证明,只要模型足够强大,并且有合适的工具,开发人员就会接受命令行中的 LLM。
  • 截至 12 月 2 日 ,Anthropic 公司宣布 Claude Code 的年化收入已达 10 亿美元 !我没想到一款命令行工具能达到如此高的成就。

YOLO 与异常正常化

The year of YOLO and the Normalization of Deviance

  • 大多数编码代理的默认设置是几乎对用户执行的每个操作都要求确认。
  • 任何尝试过使用自动确认(又称 YOLO 模式)运行 Agent 的人都体验过这种权衡:使用没有安全机制的代理感觉就像是完全不同的产品
  • 像 Claude Code for web 和 Codex Cloud 这样的异步编码代理的一大好处是,它们默认可以在 YOLO 模式下运行,因为没有个人电脑会损坏。
  • 异常正常化是指反复接触危险行为而没有产生负面后果,导致个人和组织接受这种危险行为是正常的
  • 如果我们继续以本质上不安全的方式运行这些系统,离灾难就越近。

每月 200 刀

The year of $200/month subscriptions

  • ChatGPT Plus 最初的定价为每月 20 美元,此后,这个价格一直保持不变。
  • 今年出现了一个新的定价先例:Claude Pro Max 20x 套餐,每月 200 美元。
  • OpenAI 也提供类似的 200 美元套餐,名为 ChatGPT Pro。Gemini 的 Google AI Ultra 套餐每月 249 美元。
  • 像 Claude Code 和 Codex CLI 这样的工具,一旦你开始给它们布置更复杂的任务,就会消耗大量的代币,以至于每月 200 美元的套餐反而能提供相当可观的折扣。

中国名列前茅的开源权重模型

The year of top-ranked Chinese open weight models

  • 2024 年,中国人工智能实验室展现出一些早期活力,主要体现在 Qwen 2.5 和早期的 DeepSeek 上。它们都是不错的模型,但还称不上世界一流。
  • DeepSeek 于 1 月 20 日发布了 DeepSeek R1 ,随即引发了一场大规模的 AI/半导体抛售潮 :英伟达市值蒸发约 5930 亿美元,投资者恐慌地认为 AI 或许并非美国垄断。
  • 这些模型大多不仅是开放的,而且是根据 OSI 批准的许可证完全开源的。
  • 它们中的一些甚至可以与 Claude 4 Sonnet 和 GPT-5 相媲美!
  • 遗憾的是,中国实验室都没有公布完整的训练数据或用于训练模型的代码,但他们发表了详细的研究论文,这有助于推动技术进步,尤其是在高效训练和推理方面。

长任务

The year of long tasks

  • 2025 年取得了巨大的进步,GPT-5、GPT-5.1 Codex Max 和 Claude Opus 4.5 能够完成人类需要花费数小时才能完成的任务——而 2024 年的最佳模型也仅能完成不到 30 分钟的任务。
  • METR 的结论是 “人工智能能够执行的任务长度每 7 个月翻一番”。
  • 我并不认为这种趋势会持续下去,但这确实是一种引人注目的方式来展示当前智能体能力的发展趋势。

文修改图

The year of prompt-driven image editing

  • 其关键特性是用户可以上传自己的图像,并使用提示来告诉它如何修改这些图像。
  • 图像生成领域更大的新闻来自谷歌,他们推出了可通过 Gemini 平台获取的 Nano Banana 模型。
  • Nano Banana 之所以能引起人们的注意,是因为它能够生成有用的文本 !而且,它在执行图像编辑指令方面也明显是表现最好的模型。
  • Nano Banana Pro 正迅速证明,对于任何从事演示文稿或其他视觉材料制作的人来说,它都极具价值。

学术竞赛荣获金奖

The year models won gold in academic competitions

  • 国际数学奥林匹克竞赛(IMO)的挑战题目都是专门为该赛事设计的。这些题目绝不可能出现在训练数据中!
  • 值得注意的是,这两个模型都无法使用工具——它们的解决方案完全来自它们的内部知识和基于令牌的推理能力。
  • 事实证明,足够高级的 LLM 其实也能做数学!

OpenAI 失去领先地位

The year that OpenAI lost their lead

  • 去年,OpenAI 仍然是 LLM 领域无可争议的领导者,尤其是考虑到 o1 和 o3 推理模型的预览版。
  • 在图像模型方面,他们仍然落后于 Nano Banana Pro。在代码方面,许多开发者认为 Opus 4.5 略胜 GPT-5.2 Codex 一筹。
  • OpenAI 的优势在于赢得了消费者的认可。虽然没人知道 “LLM” 是什么,但几乎每个人都听说过 ChatGPT。

Gemini

The year of Gemini

  • 2025 年,他们推出了 Gemini 2.0、Gemini 2.5 和 Gemini 3.0——每个型号系列都支持音频/视频/图像/文本输入。
  • 发布了 Gemini CLI、Jules、AI Studio 的持续改进、Nano Banana 图像模型、用于视频生成的 Veo 3、有前途的 Gemma 3 系列开源权重模型。
  • 谷歌最大的优势在于其底层技术。几乎所有其他人工智能实验室都使用英伟达的 GPU 进行训练,而英伟达 GPU 的高额利润支撑了该公司数万亿美元的估值。
  • 谷歌 Gemini 的产品名称完美地体现了公司的内部组织结构,这一点一直让我觉得很有趣——它之所以叫 Gemini,是因为它是由谷歌的 DeepMind 和 Google Brain 团队合并而成的(就像双胞胎一样)。

氛围编程

The year of vibe coding

  • 关键思想是 “忘记代码的存在”——直觉编码捕捉到了一种新的、有趣的软件原型设计方式,这种设计仅通过提示就能“基本有效”。
  • 我这辈子好像从来没见过哪个新词流行起来——或者被曲解得这么快。
  • 并非所有人工智能辅助编程都是基于直觉的编程。
  • 专业的软件开发就是编写能够证明其有效性的代码,无论你是如何构建的。

MCP

The (only?) year of MCP

  • 2025 年初,MCP 迅速走红 。在 5 月份, OpenAI 、 Anthropic 和 Mistral 三家公司在短短八天内相继推出了对 MCP 的 API 级支持!
  • MCP 的发布恰逢模型在工具调用方面终于变得稳定可靠,以至于很多人似乎误以为 MCP 支持是模型使用工具的先决条件。
  • 我认为 MCP 可能只是昙花一现的原因在于 Coding Agent 的爆炸式增长。似乎在任何情况下,Bash 都是最佳工具——如果你的 Agent 能够运行任意 shell 命令,它就能完成任何可以通过在终端输入命令完成的操作。
  • Anthropic 公司似乎也意识到了这一点,并在当年晚些时候发布了出色的 Skills 机制。

令人担忧的 AI 浏览器

The year of alarmingly AI-enabled browsers

  • 尽管存在非常明显的安全风险,但似乎每个人都想在浏览器中安装 LLM。
  • 我的浏览器可以访问我最敏感的数据,并控制着我的大部分数字生活。针对浏览器代理的即时注入攻击,如果能够窃取或修改这些数据,后果不堪设想。
  • 它们对于解决那些无法通过 API 解决的问题非常有用。

泔水

The year of slop

  • slop (noun):低劣数字内容( 名词 ):通常通过 AI 大量生产的低质量数字内容
  • 互联网上一直充斥着大量低质量内容。挑战依然在于如何找到并推广优质内容。
  • 很可能,泔水问题正像一股不断蔓延的浪潮,而我却浑然不觉。

参考

https://simonwillison.net/2025/Dec/31/the-year-in-llms/#the-year-of-agents

https://simonwillison.net/2025/Sep/18/agents/