蔡子博士Chris (@caiziboshi) “李厚辰提出原创性的AI大模型三个阶段，供参考：第一阶段：Scaling Law 的原始验证期”

2026.05.03 17:47

李厚辰提出原创性的AI大模型三个阶段，供参考：第一阶段：Scaling Law 的原始验证期 (2020 - 2024上半年) 这一时期的核心逻辑是“规模效应”，以 GPT-3 到 GPT-4 的跨越为标志，验证了只要持续堆砌算力、扩大数据规模并增加模型参数，模型的能力就会产生质的飞跃。这一阶段主要由美国顶尖实验室定义规则，中国企业的整体参与度较低，处于观察与蓄力状态，直到 2024 年末才真正大规模切入大模型战场。此时的竞争门槛主要在于算力的原始积累和对 Scaling Law 的早期信仰。第二阶段：推理模型与蒸馏红利期 (2024第三季度 - 2025全年) 当预训练的 Scaling Law 遭遇瓶颈（如 GPT-4.5 表现不及预期）时，行业重点转向了推理模型（Reasoning Model）和思维链技术。这对中国企业而言是一个“黄金时代”，因为推理能力可以通过“蒸馏”技术获取，即通过拷贝顶级模型产生的思考链文本来训练自己的模型。中国企业如 DeepSeek 和通义千问，巧妙地利用基座模型稍弱但推理能力可快速同步的特点，实现了结构性的赶超，凭借高性价比和极速的迭代能力在市场上表现强劲。第三阶段：预训练回归与智能体化时代 (2026年起) 进入 2026 年，以 GPT-5.5 和 Anthropic 的新模型为代表，行业重新证明了超大规模预训练依然是硬道理，竞争再次回到了基座模型（Base Model）的算力比拼上。同时，发展重心转向了 Agentic（智能体化），模型开始具备调用外部工具和文档的 Harness 系统能力。由于 Agentic 的逻辑数据更难被简单“蒸馏”，加上高端芯片（如 H200）的获取限制，中国企业面临算力壁垒加深和技术路径转型的双重挑战，此前靠“推理红利”缩小差距的窗口期正面临关闭风险。个人观点： 1，第三阶段挑战主要强调了算力和芯片的限制。斯坦福 2026 报告显示，2026 年的技术关键在于合成数据（Synthetic Data）。这意味着即使算力受限，如果能通过模型自博弈产生高质量数据，依然可以突破 Scaling Law 的上限。该理论对此类“以巧破千斤”的路径讨论不足。 2，作者认为中国靠“基座不足、推理来凑”的红利期已经结束。这种看法忽视了边缘侧 AI（On-device AI）的市场潜力。斯坦福报告指出，2026 年小型化、低功耗模型在手机和机器人端的应用爆发，这恰恰是中国硬件产业链的强项。中国企业通过极高性价比的“轻量级基座+深度行业智能体”依然可能在垂直领域维持红利。 3，作者主要从“能力比拼”角度出发，未涉及社会治理变量。2026 年 AI 发展的最大阻碍并非算力或算法，而是合规与安全阻碍。Agentic AI 因为具备操作权限，其风险呈几何级增长。如果美国因为严苛的监管导致智能体部署缓慢，这反而会给监管环境相对灵活的中国市场留下追赶窗口。

显示更多