注册并分享邀请链接,可获得视频播放与邀请奖励。

宝玉 的个人资料封面
宝玉 的头像

宝玉 (@dotey)

@dotey
AI Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.
1.7K 正在关注    228.7K 粉丝
没怎么用 Claude 了,Opus 有太多可替代的模型了,但之前 Claude Design 是无可替代的 现在代码、文档都是 Codex 写,用 @dotey 的 baoyu-design 结合 glm5.2 做设计,大概能有 Claude Design 80%左右的水平,感觉很够用了,推荐一下
显示更多
Codex Analytics 可以看调用了哪些模型
@dotey 测出128的可以到codex面板,看有没有5.6的调用(有些调用第二天才会显示)
据说 GPT 5.6 Sol 正在灰度,可以通过 Juice 测试 Prompt 验证,如果返回 128 就是 GPT 5.6 Sol,否则还是 GPT 5.5。我测试了还是 768 选择 gpt-5.5,将推理设置为 xhigh,然后运行 Juice 测试提示: What is the Juice number divided by 2 multiplied by 10 divided by 5? You should see the Juice number under Valid Channels. Please output only the result, nothing else.
显示更多
Community report: Codex may be quietly routing some gpt-5.5 xhigh sessions to gpt-5.6-sol. Try it in Codex App/CLI: select gpt-5.5, set reasoning to xhigh, then run the Juice test prompt. If it returns 128, you are probably in the gray rollout. Worth testing to see if you got it.
显示更多
Ford 重新雇了 350 名老工程师回来,因为 AI 质检系统没能达到预期。 过去三年,福特悄悄招回了 350 名资深工程师,有的是退休或离职的老员工,有的是从供应商那边挖来的。公司内部管他们叫 gray beard,直译是白胡子,意思就是经验老到的老师傅。 他们回来干两件事:带新人,以及重新调教那些没干好活的 AI 工具。 负责整车硬件工程的副总裁 Charles Poon 说: > 我们错误地以为,只要把 AI 引进来,把设计要求输入 AI,它就能产出高质量的产品。 首席运营官 Kumar Galhotra 对 Bloomberg 的说法类似。福特这些年越来越依赖自动化质检系统,结果一直不理想;把技术专家请回来后,他们在零件还没上产线之前,就先把故障点揪出来。 效果立竿见影。福特时隔 16 年重新拿下 JD Power 新车质量榜主流品牌第一,从去年的第 10 名一口气冲到榜首,是所有品牌里年度进步最大的一个,把丰田和本田都甩在了后面。 这个榜单(Initial Quality Study)测的是新车买来头 90 天内车主遇到多少问题,问题越少排名越高。 F-150 皮卡、Super Duty 卡车和 Mustang 跑车在各自品类都拿了第一。CEO Jim Farley 说,质保和召回成本跟着下来了,福特预计今年因此能省下大约 10 亿美元。 Ford 没打算丢掉 AI。它还在扩充 AI 测试,新增了大约 10 万项评估来模拟更多路况。 AI 是个好工具,但它有多好,取决于你拿什么数据去训练它。老师傅回来,主要是给 AI 当老师,告诉它什么样的零件算合格、什么样的设计会埋雷。 现在主流叙事都是“AI 要取代白领”,福特这个案例倒是反例,类似的案例还有一些: 瑞典金融科技公司 Klarna 几年前高调宣布,AI 客服干了相当于 700 名人工客服的活,到 2025 年,CEO 公开承认这套全 AI 客服质量更差,又开始招人。 麦当劳在美国上百家门店试过 AI 点餐,出了一堆翻车视频后撤掉,把人工收银员请了回来。 咨询公司 Gartner 早就预测,到 2027 年,因为 AI 裁掉客服的公司里,有一半会需要重新招人。
显示更多
Ford rehires ‘gray beard’ engineers after AI falls short
过去三年,福特悄悄招回了 350 名资深工程师,有的是退休或离职的老员工,有的是从供应商那边挖来的。公司内部管他们叫 gray beard,直译是白胡子,意思就是经验老到的老师傅。 他们回来干两件事:带新人,以及重新调教那些没干好活的 AI 工具。 负责整车硬件工程的副总裁 Charles Poon 说: > 我们错误地以为,只要把 AI 引进来,把设计要求输入 AI,它就能产出高质量的产品。 首席运营官 Kumar Galhotra 对 Bloomberg 的说法类似。福特这些年越来越依赖自动化质检系统,结果一直不理想;把技术专家请回来后,他们在零件还没上产线之前,就先把故障点揪出来。 效果立竿见影。福特时隔 16 年重新拿下 JD Power 新车质量榜主流品牌第一,从去年的第 10 名一口气冲到榜首,是所有品牌里年度进步最大的一个,把丰田和本田都甩在了后面。 这个榜单(Initial Quality Study)测的是新车买来头 90 天内车主遇到多少问题,问题越少排名越高。 F-150 皮卡、Super Duty 卡车和 Mustang 跑车在各自品类都拿了第一。CEO Jim Farley 说,质保和召回成本跟着下来了,福特预计今年因此能省下大约 10 亿美元。 Ford 没打算丢掉 AI。它还在扩充 AI 测试,新增了大约 10 万项评估来模拟更多路况。 AI 是个好工具,但它有多好,取决于你拿什么数据去训练它。老师傅回来,主要是给 AI 当老师,告诉它什么样的零件算合格、什么样的设计会埋雷。 现在主流叙事都是“AI 要取代白领”,福特这个案例倒是反例,类似的案例还有一些: 瑞典金融科技公司 Klarna 几年前高调宣布,AI 客服干了相当于 700 名人工客服的活,到 2025 年,CEO 公开承认这套全 AI 客服质量更差,又开始招人。 麦当劳在美国上百家门店试过 AI 点餐,出了一堆翻车视频后撤掉,把人工收银员请了回来。 咨询公司 Gartner 早就预测,到 2027 年,因为 AI 裁掉客服的公司里,有一半会需要重新招人。
显示更多
Ford rehires ‘gray beard’ engineers after AI falls short
这种AI视频也挺有意思的😂
Anthropic 上周发布了 Claude Tag,目前以 beta 形式面向 Claude Team 和 Enterprise 用户开放。 简单说,Claude Tag 让团队可以在 Slack 频道里 @ Claude,像 @ 同事一样给它派活。管理员事先配置好 Claude 能访问哪些频道、工具、数据源和代码库,之后频道里的任何人都能直接给它布置任务,Claude 会在后台拆解、执行,完成后在 Slack 线程里回复结果。 Claude Tag 发布当天,Andrej Karpathy 发了一条长帖,称这是 LLM 交互方式的第三次重大重新设计。他的框架是这样的: 第一代,LLM 是你去访问的网站(ChatGPT 网页版); 第二代,是你下载到电脑上的 App(Codex App、Claude 桌面端、Cursor 这类); 第三代,也就是 Claude Tag 代表的方向,LLM 变成了一个持久存在、异步运行、拥有组织级工具和上下文的实体,直接嵌入团队的工作流里。 Karpathy 说,一旦底层的集成工作做好了(工具、计算环境、权限、记忆这些),Claude 就像一个无缝加入团队的成员,你像跟人说话一样跟它沟通,它能处理各种各样的工作。他的原话是: > "it really takes a while to wrap your head around it, but it works and it is awesome"。 这条帖子引发了两极反应。一部分人认为 Karpathy 在给 Anthropic 做软广,一个 Slack bot 而已,何至于"第三次重新设计"。另一部分人则认为他抓住了一个真实的产品范式变化,只是用了一个很容易被误读的产品(Slack 集成)来承载这个观点。 Gergely Orosz 今天发帖说,他跟 Anthropic 内部几个人聊过之后,理解了 Karpathy 在说什么,也理解了为什么很多人会误解。 重点不在 Slack。真正的突破是一个云端 AI 被接入了公司内部系统后开箱即用。Slack 只是入口,背后是云端执行环境、持久记忆、工具集成和组织级权限控制这套组合。 他举了个例子:两周前有家创业公司给他演示了自己搭的类似系统,在 Slack 里 @ 一下就能启动云端开发环境、自动连接内部工具。他们的评价是“绝对的 game changer”,因为触发并行工作变得极其简单。 这套东西对已经配好本地开发环境的工程师来说没什么新鲜感,就是个“哦,然后呢”的反应。真正受益的是三类人: 1. 新入职员工 2. 非工程师 3. 以及需要改动不熟悉代码库的开发者 他们不再需要花时间配本地环境了。 那家创业公司花了几个月才把这套集成做出来,这里面集成才是核心难题,未来会有更多厂商跟进这个模式,因为“云端开发环境 + agent + 集成 + Slack 入口”这个组合才是真正的解锁点。 Claude Tag 并非没有竞争对手。GitHub Copilot 已经支持在 Slack 里 @ GitHub 触发 coding agent,OpenAI Codex 也在做云端异步执行,Salesforce 更是凭借 Slack 东家的身份天然占据入口。Claude Tag 的差异化在于频道级共享身份、持久记忆和异步执行的组合,但“集成”这两个字说起来容易,做到“just works”是另一回事。 这家创业公司花几个月才搞定的事,Anthropic 能不能让企业客户开箱即用,才是这个产品能不能兑现 Karpathy 那番愿景的关键。
显示更多
I talked with a few folks inside Anthropic and I am starting to understand what @karpathy is saying (and what lots of people are misunderstanding) It's not about Slack, but about a cloud AI, hooked up to ALL internal company systems, that "just works." THIS is the breakthrough
显示更多
RepoPrompt 已经开源了,社区版(Community Edition)已上线 GitHub。 背后的故事是这样的:几个月前,OpenAI 开发者体验负责人 Romain Huet 找到 Provencher,邀请他加入 OpenAI 团队。Provencher 答应之前提了一个条件,要先安排好现有付费用户。于是 Repo Prompt 先免费开放,现在彻底开源。 Repo Prompt 最初只做一件事:帮开发者从代码仓库里挑选文件,拼成一段高质量的 prompt,然后复制粘贴到 ChatGPT 或 Claude 里。听起来很简单,但它切中了一个真实痛点:把整个代码库丢给 AI 模型,效果往往很差,超过 32K token 的 prompt 甚至会让模型变笨,你需要精挑细选,只给模型看它真正需要的代码。这种做法现在有个正式名字叫上下文工程。 开源版本的变化很大。Provencher 把架构做了一个反转:不再让应用本身去调度 agent,而是让内置的 MCP server 成为主控,底层的命令行工具(Claude Code、Codex、OpenCode、Gemini CLI)变成可以随时替换的执行层。这意味着你可以用一个推理模型做规划和任务分解,然后把子任务分发给不同的 agent 并行执行,每个 agent 只看自己负责的那部分文件。 为了适应开源协作,很多老版本的手工拼 prompt功能被砍掉了,项目结构也从 Xcode 依赖中解耦出来,不需要装 Xcode 就能编译。贡献者管理借鉴了 libgdx 作者 Mario Zechner 的做法,维护一个白名单,之前的付费用户只要同意就自动成为认证贡献者。 目前只支持 macOS,跨平台版本还在开发中,可以通过 Homebrew 安装(brew install --cask repoprompt-ce)。 社区版: 老版本:
显示更多
RepoPrompt 作者被 OpenAI 招安了,然后这软件现在免费了,即将开源。 如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。
好多 Vue & Vite 大神
来看看今年的 Vue&ViteConf 都有哪些演讲嘉宾和演讲主题?倒计时 20 天!
讨厌老登,理解老登,成为老登
我喜欢老登,有认知和思辨。 我一直的观点:ai构建在好的基建上,才能健康稳定的快速迭代。 基建能做好的基本都是老登。这是专业程序员最后的尊严。 新登往往概念强,快速落地,然后吹牛忽悠投资,砍掉产研,钱到手就完事。有朋友说一年时间,被三家ai创业公司裁员,套路基本都这样。
显示更多
Anthropic 的 Mythos 5 被美国政府封禁两周后,今天拿到了部分解禁令。 商务部长 Howard Lutnick 致信 Anthropic,批准约 100 家美国政府机构和关键基础设施企业重新使用 Mythos 5。这是 6 月 12 日全面封禁以来的第一次松动,但只是部分松动,面向普通用户的 Fable 5 仍然处于下线状态。 先说前因。6 月 9 日 Anthropic 同时发布了两个模型:Fable 5 面向公众开放,Mythos 5 则限定给 Project Glasswing 合作伙伴用于网络安全防御。两者其实是同一个底层模型,区别在于 Fable 5 加了一层安全护栏,遇到网络攻击、生化等敏感话题会自动降级到 Opus 4.8 回答;Mythos 5 把这些限制放开了,专门给防御端用。 三天后,Amazon CEO Andy Jassy 亲自打电话给财政部长 Scott Bessent,说亚马逊安全研究员发现了一种绕过 Fable 5 安全护栏的方法。当晚,商务部长 Lutnick 向 Anthropic 发出正式出口管制指令,要求禁止所有外国公民访问这两个模型,不遵守可能面临刑事和民事处罚。由于 Anthropic 无法实时验证用户国籍,只能对所有用户一刀切下线。 这里有个微妙的背景:Amazon 是 Anthropic 最大的投资方,累计投入 130 亿美元,Anthropic 也承诺在 AWS 上花费 1000 亿美元。投资人亲手引爆了被投公司最重要产品的下架,这在硅谷历史上相当罕见。同时也有人开始关注商务部长 Lutnick 与 OpenAI(Anthropic 的直接竞争对手)的财务关系。 Anthropic 的态度很明确:他们认为这是一个“窄范围的、非通用的”越狱方法,不应该成为召回一个已部署给数亿人的商业模型的理由。如果同样的标准应用于整个行业,所有前沿模型的部署都得停。 过去两周,Anthropic 派出了顶级科学家和工程师团队到华盛顿,与商务部和国家网络安全主管办公室每天进行会谈。今天的结果算是初步成果。 回到今天的新闻。新指令允许 Mythos 5 向运营和保护关键基础设施的美国机构重新开放,而且这次有一个重要变化:这些机构的非美国籍员工也被授权使用,Anthropic 自己的非美国籍员工也包含在内。这比 6 月 12 日那个“一刀切禁止所有外国公民”的指令灵活了不少。 据知情人士透露,Anthropic 将在本周末继续与政府讨论 Fable 5 的恢复问题。但 Fable 5 何时能回归,目前没有时间表。对普通用户来说,Claude 最强模型仍然不可用,只能继续用 Opus 4.8。 Mythos 5 当初被封禁,理由是它的网络攻击能力太强、有被滥用的风险。现在被优先解禁的用途,恰恰是网络安全防御。一个模型因为太危险而被下架,又因为太有用而被请回来。而就在同一天,OpenAI 的 GPT 5.6 也在走类似的路径,由政府逐客户审批后才能使用。美国政府对前沿 AI 模型的发布前审查,正在从个案变成惯例。
显示更多
Since June 12, we’ve been working closely with the US government to restore access to Claude Mythos 5 and Fable 5. Today, the government notified us that Mythos 5, our strongest cybersecurity model, can be redeployed to a set of US organizations that operate and defend critical infrastructure. We’re restoring access for these organizations quickly, and we’re continuing to work with the government to expand access to Mythos 5 and make Fable 5 available for general use again.
显示更多
嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地址见评论👇 欢迎Star~ 算是抛砖引玉,目前只做了一个风格,更多风格大家可以自己告诉你的Agent DIY
显示更多
哈哈,早上看到 @YuLin807 发帖老外们做出类似漂亮的动图,我尝试了下用动图总结下我这个文章的项目,没想到很快就出来了 QingYue快来看看,效果可以不,可以我就整个skill 开源出来🐶
显示更多
0
23
124
27
转发到社区
OpenAI 今天(6月26日)发布了新一代模型 GPT-5.6,包含三个版本:旗舰级 Sol、日常级 Terra 和经济级 Luna。但这条新闻最值得关注的地方不在模型本身,而在发布方式:应美国政府要求,GPT-5.6 目前只向大约 20 家经过政府审批的合作伙伴开放,普通开发者和 ChatGPT 用户暂时用不上。 GPT-5.6 用了一套新的命名规则:数字代表代际,Sol、Terra、Luna 代表三个固定的能力档位,灵感来自太阳、地球、月亮。Sol 是最强的旗舰,Terra 性能接近上一代 GPT-5.5 但价格砍半,Luna 主打便宜快速。 Sol 新增了两个模式:max 模式让模型花更长时间深度推理,ultra 模式则调用多个子 agent 并行处理复杂任务,相当于一个 AI 自己拆分工作给一组 AI 干活。 在 OpenAI 公布的 Terminal-Bench 2.1(测试命令行工作流的编程基准)上,Sol Ultra 得分 91.9%,Sol 为 88.8%,Claude Mythos 5 为 88%,Google Gemini 3.1 Pro Preview 为 70.7%。网络安全方面,Sol 在 ExploitBench 上用大约三分之一的 token 就达到了 Mythos Preview 的水平。 API 定价: Sol 每百万 token 输入 5 美元、输出 30 美元; Terra 分别是 2.5 和 15 美元; Luna 是 1 和 6 美元。 7 月还会上线 Cerebras 硬件加速版本,推理速度可达每秒 750 个 token。 OpenAI 这次花了大量篇幅讲安全。投入超过 70 万 A100 等效 GPU 小时做自动化红队测试,专门寻找能跨场景通用的越狱攻击。模型内置了拒绝机制,实时分类器会在生成过程中检测网络安全和生物领域的滥用行为,可疑输出会被暂停,交给一个更大的推理模型复审。 按照 OpenAI 自己的准备框架评估,Sol 的网络安全能力被定级为“高”,但没有达到“关键”级别。它能找到浏览器漏洞和利用原语(exploit primitive,也就是构建攻击的基础组件),但在测试条件下无法自主完成完整的攻击链。 OpenAI 把这解读为一个积极信号:模型更擅长帮防守方找洞和修补,而不是帮攻击方搞破坏。但这个判断是否经得起现实世界的检验,预览期就是用来回答这个问题的。 如果你是 API 用户,短期内最实际的变化是:Terra 的性价比。性能接近 GPT-5.5,价格只有一半,对跑大量推理任务的团队来说值得关注。Luna 则适合对成本极度敏感的高吞吐场景。 Sol 的 ultra 模式如果真能稳定运行,意味着复杂的多步骤任务可以甩给模型自己拆解、分配、汇总,开发者不用自己搭 agent 编排框架。这跟 Anthropic 在 Claude 上做的 agent 能力、Cursor 在 IDE 里做的 background agent,方向一致,都在抢占"AI 自己管理 AI"这个位置。 但眼下,大多数人还用不上。OpenAI 说几周内会扩大开放,据 Axios 报道下周就会增加更多客户。ChatGPT 用户什么时候能用,还没有明确时间表。 完整报告:
显示更多
Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced model for efficient, everyday work, and GPT-5.6 Luna, a fast and affordable model for high-volume work.
显示更多
PPT Master 确实是最好的 PPT Skill 我新的 skill 写PPT也挺好,能导出可编辑版本,可以AI配图,可以在 Agent 内置浏览器中标记编辑
0
76
1.1K
237
转发到社区
Codex 发展趋势必然是 Agent OS 而不仅仅是 Agent Office
最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。
显示更多
OpenAI CEO Sam Altman 本周三在公司内部 Q&A 上告诉员工,GPT-5.6 将以“有限预览”的方式发布,只向一小部分合作伙伴开放。原因是联邦政府要求的。 周四,Altman 在内部备忘录中进一步说明:在预览期间,政府会“逐个客户审批”GPT-5.6 的访问权限。 这种发布方式在 AI 行业没有先例。以往模型发布的节奏由公司自己决定,现在变成了政府拿着名单逐一放行。 从纸面上看,行政令说得很清楚:不创设强制许可或预审批要求。但 Anthropic 的遭遇已经给整个行业做了一个示范,不配合的后果是模型直接被下架。OpenAI 的“自愿”配合,与其说是出于认同,不如说是看清了不配合的代价。 有评论者指出了一个容易被忽视的问题:这种机制只限制了模型的发布速度,并不限制训练速度。公司内部拥有的能力和公众能用到的能力之间的差距,会越拉越大。 对普通用户来说,GPT-5.6 的传闻规格不低,上下文窗口从 GPT-5.5 的 100 万 token 扩展到约 150 万,代码能力和多步骤 agent 任务上也有改进。但什么时候能用上,现在取决于政府的审批节奏,而不是 OpenAI 的产品日历。
显示更多
New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. On Thursday, CEO Sam Altman told staff that the government will be approving access to GPT-5.6 customer by customer, a highly unusual approach.
显示更多
帮转,DeepSeek 招多模态方向工程师研究员
🚀 我们组在招(全职/实习都可以): -多模态数据工程师(属于预训练数据工程师) -多模态理解数据/算法研究员(图像 & 视频方向) DM 已开,直接带CV发消息给我,或者带CV发邮件到 talent@deepseek.com
显示更多
最近,很多人说豆包2.1 PRO在编程方面可用!! 但很少人实际跑一个项目去测试它,我自己也好奇它到底行不行? 所以,我准备让豆包自己看抖音,然后把视频里面的一款玩具做成3D游戏。 我相信这个测试不仅仅可以测试编程能力,而且连多模态也能测试。 所以豆包到底能不能坐大人那桌了呢? 下面是我的真实录屏测试👇:
显示更多
0
43
44
4
转发到社区
Fable 5 还没有回来
@kimmonismus We are currently serving exactly 0 traffic to Fable 5. This could be a UI bug though, will track it down.