注册并分享邀请链接,可获得视频播放与邀请奖励。

ruanyf (@ruanyf) “SWE-rebench 是全新的测试基准,选择最近一个月 GitHub 的真实 PR 任务,让大模型去跑” — TopicDigg

ruanyf 的个人资料封面
ruanyf 的头像
ruanyf
@ruanyf
Stay Focused, Keep Shipping. Build Early, Build Always. Improve yourself, Write solid/simple/stupid code.
加入 March 2007
372 正在关注    200.1K 粉丝
SWE-rebench 是全新的测试基准,选择最近一个月 GitHub 的真实 PR 任务,让大模型去跑。 因为测试任务是变动的,没法提前准备,所以排名相对真实。 最新榜单的前10名全是美国模型,国产模型的得分跟 Opus 4.5 相当,不过优点是便宜,最低价格仅为榜首模型的3%。
显示更多
0
17
126
15
转发到社区