Kevin Ma (@kevinma_dev_zh) “我从去年开始至今的策略一直没有变，要编码，永远用最顶级的工具和模型，否则就是纯粹”

2026.06.15 09:16

我从去年开始至今的策略一直没有变，要编码，永远用最顶级的工具和模型，否则就是纯粹浪费时间。不是说其它模型完全不行，从能力特长、稳定性和价格方面，把它们用到合适的场景是很有必要的。对于 thinking, design, coding, 用最好的模型和工具，虽然贵点但节省时间，实际效益是更高的。

显示更多

Versun@VersunPan

2026.06.15 08:25

国产模型能用了，但我还不敢用前段时间，我的 GPT 账户意外被封，被迫开始全面试用国产模型过去两周，我深度使用了 DeepSeek v4 Pro、Xiaomi Mimo 2.5 Pro、Minimax M3 和 Kimi 2.7，覆盖编码、文字创作和 Hermes Agent 自动化三大场景以下是真实使用体验 DeepSeek v4 Pro：资深老编辑文字能力确实顶尖，总结、翻译、摘要、润色都让我非常满意。但代码生成、长时任务和 Agent 工具调用只能算差强人意。它更像一位经验丰富的老编辑——文笔一流，但让他写代码或处理复杂流程，就有点力不从心 Xiaomi Mimo 2.5 Pro：六边形战士综合能力最均衡，没有明显短板。文字、代码、逻辑都在线，像一个公司里随时能顶上的得力助手，交给他的任务基本都能稳妥完成。 Minimax M3：名校实习生文字功底不如 DeepSeek，但在长时任务和 Agent 工具调用上表现很稳定。缺点是"智商"偶尔着急，复杂推理会卡壳。像一个名校毕业的实习生——执行力不错，但遇到需要深度思考的问题还得再带一带 Kimi 2.7：准旗舰水准这是四款中表现最好的，整体能力接近 GPT 5.5 的水准。除了发布第一天有些不稳定，后续更新后体验大幅提升，目前是我最常用的国产模型国产模型的共同痛点：稳定性然而，这些模型都有一个通病——输出稳定性不足以我的 Hermes Agent 为例：我有十几个定时自动化任务，在 GPT 5.5 下可以数月稳定运行但同样的 Prompt 和任务流交给上述国产模型，几乎每天都会有一两个任务莫名其妙报错诡异的是，这些报错任务单独手动执行时，又能顺利通过这种"薛定谔的报错"让我很难完全信任它们处理无人值守的长时任务我的当前工作流因此，我对国产模型和 GPT 5.5 采取了不同的信任策略：一次性、短时任务 → 首选 Kimi 2.7，效率和质量都足够代码开发、复杂项目、长时自动化任务 → 仍回退到 GPT 5.5，稳定性是底线简单来说：国产模型我已经敢用，但还不敢完全放手，关键任务仍需人工审查代码和结果，充当最后一道防线。 PS：至于GLM 5.2，我对智普伤透心了，没有好感，故略过

显示更多