Grok Build发布了,Terminal里使用的Agent CLI,仅限Heavy订阅用户可用。没人会去用吧?毕竟也没几个Heavy订阅用户。
An early beta of Grok Build, an agentic CLI for coding, building apps, and automating workflows is now available for SuperGrok Heavy subscribers.
Through this early beta, we will improve the model and product based on your feedback.
Try it at
显示更多
Toto 2.0:开源时序预测模型
包含4M到2.5B五个大小的模型,Scaling Law有效,参数越大效果越好。在BOOM、GIFT-Eval、TIME评测上排名第一。
时序预测模型,可以理解为根据过去的数字推测未来的数字,跟预测相关的都可以使用。
模型:
显示更多
Codex手机版上线了,内置在ChatGPT APP里,可以远程控制电脑上的Codex。
Codex最近持续上大分!ChatGPT订阅超值!
You've been asking for this one...
Now in preview: Codex in the ChatGPT mobile app.
Start new work, review outputs, steer execution, and approve next steps, all from the ChatGPT mobile app. Codex will keep running on your laptop, Mac mini, or devbox.
显示更多
Claude限制了订阅额度的可用范围,程序化调用的功能都改成了使用单独的额度(很少)。基本就是让订阅用户就用Claude产品,别把Claude当服务给第三方用,目的是节省成本。
显示更多
Starting June 15, paid Claude plans can claim a dedicated monthly credit for programmatic usage.
The credit covers usage of:
- Claude Agent SDK
- claude -p
- Claude Code GitHub Actions
- Third-party apps built on the Agent SDK
显示更多
Google推出Gemini Intelligence
将Gemini AI深度整合进Android设备,实现跨应用的多步骤任务自动化。目标是把Android从"操作系统"升级为"智能系统",让设备能主动代替用户处理繁琐日常事务。
官方介绍:
显示更多
这个AI鼠标功能噱头大于实用
实际就是记录鼠标轨迹,程序在后台把当前屏幕截图,鼠标轨迹画了上去,然后识别位置操作。跟提供一个图片,然后在上面画圈标注的效果是一样的。
而且你猜为什么只能语音输入,不能键盘输入,是因为键盘输入必须要移动鼠标到打字区域,轨迹就乱了。
显示更多
We’re reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️
These experimental demos show how people can intuitively direct Gemini on their screens using motion, speech, and natural shorthand to get things done 🧵
显示更多
Claude全面进军法律行业:20+连接器、12个法律领域插件,打通法律工作全链路
· 法律工作高度依赖特定工具链(合同管理、电子发现、文档管理、数据室等),Claude现在能直接与这些系统对话,省去了手动导出和上下文切换
· 通过12个插件可以定制Claude的输出风格
· 法律AI市场的头部玩家(Harvey、Thomson Reuters、Everlaw等)都在用Claude构建产品,生态飞轮已经转起来了
Github:
官方介绍:
显示更多
阿里开源Ovis2.6-80B-A3B:视觉多模态MoE模型
Ovis系列模型是阿里国际数字商务团队开源的模型,这个模型的特点是能主动进行视觉推理,在思维链中可以主动调用视觉工具,如裁剪、旋转图像区域。
2.6版本相比上一版,把主干LLM替换成了MoE模型。
模型:
显示更多
Jina开源embeddings-v5-omni系列模型
在原有v5-text基础上扩展支持图像、音频、视频四模态检索。非端到端训练,只训练0.35%的连接层参数,文本主干完全不动。
视觉编码器用的Qwen3.5 ViT,音频编码器用的Qwen2.5-Omni。
模型:
显示更多
写给幼儿园小朋友的AI分享课
作者是Lerry,他刚去女儿的幼儿园给小朋友们分享了什么是AI、AI能做什么、AI会犯错、为什么AI这么厉害小朋友还要学习。
他的分享PPT是用html做的,里面的内容很适合小朋友。
在线PPT:
他的博客记录:
显示更多
教程:
第1步:使用GPT Image 2生成每个细胞的正面图和背面图
先生成正面,提示词:画一个动物细胞的3D模型,俯视图,核心部件通过截面的形式展示内部细节,比例是1:1
生成后确认没问题后,在聊天里继续生成背面,提示词:再画出这个细胞背面的图片,不需要截面的形式
得到下方的图1和图2
第2步:使用Tripo 3D生成模型
使用多视图生成模型,上传正面图片和背面图片,选择V3.1模型(需要订阅会员),操作步骤如图3
第3步:压缩Tripo生成的3D模型
Tripo生成的3D模型,大小在50M以上,加载太慢。安装Blender,使用Draco方法压缩,单个模型压缩到6M左右。具体咋操作?我他妈也不会,Blender是现安装的,操作全是Claude Code操作,MCP我都没安装,反正是Computer User和Python脚本一顿操作,就等着就行。
第4步:
有了3D模型素材,让Agent写个单页面网站,推动到Github并部署Pages即可。这里我还是用的Cursor大哥的赞助,代码和部署完全是Cursor Agent做的。
显示更多
开源版本及教程:
在线体验:
Github:
Fun interactive science app ideas | Part 3
Played around with generating 3D biological structures and made an app to explore them interactively
UI Design
GPT Images 2
Code
Gemini 3.1 Pro
More demos ↓
显示更多
菲尔兹奖得主Gowers亲历:ChatGPT 5.5 Pro在一小时内完成博士级数学研究
ChatGPT 5.5 Pro在没有人类数学指导的情况下,独立完成了一项加法数论中的研究成果,且具有原创的、全新的思路。
显示更多
I've recently got in on the act of getting AI to solve open problems in mathematics. More precisely, I gave some questions asked by Melvyn Nathanson to ChatGPT 5.5 Pro, to which I have been given access, and it answered them. 🧵
显示更多
Mira创办的公司发布了实时交互模型
全双工,仅200毫秒延迟,多模态(支持文本、音频、视频),276B的MoE版本,在FD-bench v1.5评分上显著高于GPT-realtime-2.0。同时有后台模型异步处理深度任务,可以保证任务效果。
显示更多
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way.
We share our approach, early results, and a quick look at our model in action.
显示更多
飞书绝对是目前国内最AI Native的平台,开源、AI友好、个人账号也能用。
一人公司把飞书CLI这一套研究透彻,给传统公司开个课绝对有市场。
让Agent安装飞书CLI的提示词: 帮我安装飞书 CLI:<
官方使用说明:
显示更多
更前卫的是,飞书CLI可以直接接管你的飞书账号,Agent直接查看你的消息,用你的名义发消息、写文档。这个能力现阶段还比较克制,接管只有2个小时的有效期,Agent也会拒绝一些敏感的操作。
下方视频是我用Agent接管了我的飞书账号,然后用另外一个账号跟他聊天的过程,Agent直接回复和产出文档,妥妥的满血AI员工。
要是员工离职直接把飞书账号交接给Agent,Agent能读取过去的聊天记录和文档,真就赛博前同事了,比蒸馏Skill高了不知多少个段位。
显示更多
飞书的核心能力基本全部开放了,包括:
收发消息:Agent直接替你收消息,并能以你的名字发消息;而且Agent可以在群里@其他Agent,多Agent可以协作完成任务
文档:Agent编辑云文档、PPT、表格、多维表格、画布(支持流程图、架构图、思维导图)
云空间和知识库:Agent管理文件和知识库
办公:Agent参与会议、邮件、审批,自动追踪待办任务
例如,我可以在飞书里给我的Agent发消息,让它用飞书的画板画一个思维导图。画完之后,我在飞书打开,可以继续编辑。飞书CLI创建的画板、PPT、文档都是可直接编辑的。
显示更多