TopicDigg
最新
社区
登录
注册
注册并分享邀请链接,可获得视频播放与邀请奖励。
立即注册
Phoenix Yin (@Phoenixyin13) “LMSYS Arena已经是目前整个 AI 圈公认含金量最高、最难刷榜、水分最少的榜单了。 比起” — TopicDigg
Phoenix Yin
@Phoenixyin13
🇺🇸 04美本 | 计算机科学&认知科学 ⚙️AI, cognition, crypto, and the future of intelligence. ✨相信好奇心驱动。相信人永远可塑。
加入 May 2025
1.1K
正在关注
11.3K
粉丝
Phoenix Yin
@Phoenixyin13
2026.06.19 08:08
LMSYS Arena已经是目前整个 AI 圈公认含金量最高、最难刷榜、水分最少的榜单了。 比起某些厂商自己发论文、用固定题库比如MMLU、HumanEval跑出来的作弊满分 ,Arena 机制更像电竞比赛的排位天梯赛。 看到这个 2026 年第 25 周AI代码能力的排名,我有这几个最直观的看法。 Claude江山稳固。 Claude-Fable-5 强势空降第一。直接登顶。更夸张的是,前 20 名里它家占了 9 个席位,包括各种版本的 Opus 和 Sonnet。在代码和复杂工程领域,Claude 依然是很多程序员的本命。 这次最亮眼的黑马绝对是国产的 GLM-5.2 Max,直接冲到了全球第二。 这代表国产模型在纯代码逻辑、Debug 和架构设计上,已经真正具备了跟国际顶尖模型贴身肉搏、甚至全面超越大部分旧旗舰的硬实力。 Thinking模型已经成为标配。 这种通过长思维链反复推演、自己 Debug 完再输出代码的模式,已经在盲测中被全球开发者用脚投票,证明了它在应对复杂项目时的胜率更高。 前 20 名里,国产模型占了 7 个席位。而且阿里的通义千问和月之暗面都咬得很紧,甚至还推出了专门的 kimi-k2.7-code 这种垂直上榜的特化型号。 国内在大模型数据清洗、工程落地和代码对齐上的技术已经非常成熟。 这种榜单的更新、迭代,对开发者来说是天大的好事。 模型之间卷得越厉害,平时写代码、跑 Cursor、调 Agent 时的体验就越丝滑。 现在已经不是某一家模型独大的时代了。 针对不同的代码场景,比如要长文本上下文选 Kimi,要极致推理逻辑选 Claude、GLM,组合使用才是性价比最高的方式。
显示更多
0
0
55
95
14
转发到社区
热门用户
Serenity
@aleabitoreddit
898.2K 粉丝
sunny
@77sunnyx
1.1M 粉丝
Reuters
@Reuters
26M 粉丝
BTS_official
@bts_bighit
45.1M 粉丝
NBA
@NBA
46.7M 粉丝
BABYMONSTER
@YGBABYMONSTER_
858.8K 粉丝
BTS JAPAN OFFICIAL
@BTS_jp_official
13.7M 粉丝
ITZY
@ITZYofficial
6.3M 粉丝
菌烨tako
@Takomayuyi
2.7M 粉丝
2PM
@follow_2PM
1.2M 粉丝
Miu_Cosplayer
@smilecutty
731.1K 粉丝
TWICE
@JYPETWICE
12.6M 粉丝
TWICE JAPAN OFFICIAL
@JYPETWICE_JAPAN
3.5M 粉丝
ポケモン公式
@Pokemon_cojp
3M 粉丝
小空Sora
@konkon6927
427.9K 粉丝