注册并分享邀请链接,可获得视频播放与邀请奖励。

Jiayuan (JY) Zhang 的个人资料封面
Jiayuan (JY) Zhang 的头像

Jiayuan (JY) Zhang (@jiayuan_jy)

@jiayuan_jy
Building @MulticaAI. Ex-@devv_ai. Ex-@tiktok_us.
1.3K 正在关注    114.5K 粉丝
几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面,会出现考虑不是特别全的情况。 但是加另外一个 Agent 作为 gate 和 mentor(例如 Opus 4.7),可以获得一个非常好的结果,M3 写代码,Opus 4.7 做 code review 并给出具体的修改意见,可以做到一个很好的「效果 + token 使用」的平衡。 为了保证客观性,正在做一个更加量化的数据评测:用 Multica 这个项目中真实的 Issue 来做 benchmark。 整个流程均基于 Multica 的 Squads 功能,会同步加上其他主流 OSS 模型作为评测的对象。
显示更多
Over 11K open source project commits created by @MulticaAI in the past 2 months.
几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面,会出现考虑不是特别全的情况。 但是加另外一个 Agent 作为 gate 和 mentor(例如 Opus 4.7),可以获得一个非常好的结果,M3 写代码,Opus 4.7 做 code review 并给出具体的修改意见,可以做到一个很好的「效果 + token 使用」的平衡。 为了保证客观性,正在做一个更加量化的数据评测:用 Multica 这个项目中真实的 Issue 来做 benchmark。 整个流程均基于 Multica 的 Squads 功能,会同步加上其他主流 OSS 模型作为评测的对象。
显示更多
0
12
61
8
转发到社区
MiniMax-M3 will by arrive on HuggingFace openweight at next week!
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: Token Plan: 🚀New! MiniMax Code: Weights & Tech Report in ~10 Days
显示更多
0
31
465
39
转发到社区
已经测试一个早上了,目前体感上接近 Opus 4.7(还需要进一步测试)。 用 M3 来写代码,Opus 4.8 + GPT5.5 来做对抗式的 code review,效果还不错。 已经完成了 1 个 PR
显示更多
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: Token Plan: 🚀New! MiniMax Code: Weights & Tech Report in ~10 Days
显示更多
0
43
330
22
转发到社区
Heavily testing MiniMax M3 for multi-agent collaboration.
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: Token Plan: 🚀New! MiniMax Code: Weights & Tech Report in ~10 Days
显示更多
MiniMax M3 is here!
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: Token Plan: 🚀New! MiniMax Code: Weights & Tech Report in ~10 Days
显示更多
In case you don't know, @MulticaAI already supports most desktop platforms. iOS is coming soon.
A robot built for tinkers.
We are a humanoid robotics startup from the Valley. For the past year, we’ve been quietly building humanoid robots. Today, we want to share something special with the world: Domo — a $2,999 humanoid robot built for developers, creators, researchers, and anyone ready to build with physical intelligence. Enjoy. Details at:
显示更多
We added @karpathy -inspired coding rules from @jiayuan_jy to AGENTS.md and ran 40 @openclaw PRs through three coding agents. The result: Code quality was basically unchanged, but the agents got there with less work. Fewer tool calls, lower time and cost.
显示更多
0
4
145
14
转发到社区
开源 Multica:专为 AI-native 团队设计的 Agent + 人的协作平台 为什么做 Multica? Multica 最初是为了解决我们团队自己的问题: 1. 团队间的知识无法共享。 每个人都在用 coding agent,但产出的上下文全部散落在各自的 agent session 里。A 做完了一件事,B 不知道;agent 跑完了一轮,结果只有发起人看得到。团队知识变成了一座座孤岛。 2. 多人 + 多 Agent 的协作缺乏中枢。 当团队同时有多个 agent 在跑任务,谁在做什么、做到哪了、卡住了没有——没有一个地方能看到全貌。人和 agent 之间、agent 和 agent 之间,缺少一个共同的协作界面。 Multica 是什么? 一句话:像 Linear 一样管理任务,但 AI agent 是一等公民。 你可以像分配任务给同事一样,把 issue 分配给 agent。agent 会自动领取任务、在你的本地机器上执行代码、提交结果、更新状态、发表评论——一切都发生在同一个看板里,所有人实时可见。 核心思路很简单:每个人把自己的 coding agent(Claude Code / Codex)注册到团队 workspace,之后就可以像分配任务给同事一样分配给 agent。agent 自动执行、更新状态、发表评论,所有人实时可见。 适合谁? - 1-10 人的 AI-native 小团队 - 正在大量使用 coding agent 但缺少协作中枢的团队 - 希望让 agent 融入日常工作流而不是当作独立工具的团队 官网: 欢迎 star、试用、提 issue,也欢迎 PR。
显示更多
0
106
1K
162
转发到社区