宝玉 (@dotey) “豆包是我日常用得最多的国产模型，迭代最快最稳。豆包 App 的 C 端日活过亿，火山引擎”

2026.02.14 08:50

豆包是我日常用得最多的国产模型，迭代最快最稳。豆包 App 的 C 端日活过亿，火山引擎的模型即服务在国内份额第一，日均 Token 调用量和 OpenAI、Google 是同一档的。能撑起这个体量，模型得过硬。豆包大模型 2.0 刚发布，第一时间用豆包App“专家”模式测了下洗车问题，效果挺不错，不仅回答出来了，而且因为我是在海外使用，特别说明了中国和美国法律的法规不同。（参考图2）我看了他们的官方推送（链接见评论），一个感受越来越强：字节是在认真对标 OpenAI 和 Google。从里面能看出几个不一样的地方。【1】他们在乎的是用户到底需要什么豆包 2.0 的官方推送里，反复出现一个词：“真实世界复杂任务”。不是说跑了哪个榜第一，而是围绕大规模生产环境下的使用需求做了系统性优化。举个具体例子：他们基于 ClawdBot/OpenClaw 框架在飞书上搭了一个智能客服 Agent。这个客服不只是回答问题，它能调用不同 Skills 完成对话，遇到搞不定的问题会主动拉群找真人同事，帮用户预约上门维修，维修完还会主动回访。一个完整的业务闭环，不只是一个 Demo。【2】自建评测，而不是追着榜单跑字节做了大量自建的 Benchmark 和内部评测。公开榜单是有限的，而且越来越容易被针对性优化。真正想让模型在生产环境里好用，必须自己定义评估标准。这让我想起姚顺雨加入腾讯后在内部说的一句话：“不要打榜，也不要盯着榜单做事。真正决定模型能否走出 Demo 的，不是再刷几个榜，而是你有没有把系统放进真实世界的约束里，用真实世界的方式去评估它。” 字节显然很早就在这么做了。【3】成本降了一个数量级豆包 2.0 的模型效果对标 GPT 5.2 和 Gemini 3 Pro，但 Token 定价降了大约一个数量级。在 Agent 时代，一个复杂任务可能要消耗大量 Token 做推理和长链路生成，成本是真正的瓶颈。把价格打下来，才能让 Agent 真正普及起来，而不是只有极客在玩。【4】长期投入，不走捷径字节在底层技术研究上一直有持续投入，很多工作是长期推进的。比如最近大火的 Seedance 2.0 视频生成模型确实做到了世界领先水平，不是刷榜号称领先，而是产品可用级别的领先。豆包 2.0 的多模态能力也是这种长期积累的结果，在视频理解的 EgoTempo 基准上甚至超过了人类分数。这些东西不是突击几个月能做出来的。从产品体量、模型投入、评估体系到成本控制，字节对标的就是 OpenAI 和 Google。豆包用起来确实好用，而且每次更新都能感觉到在变好。对我来说，这比任何跑分都有说服力。

显示更多