卧槽,这个项目Three.js的典范啊!
这个日本小哥的
@yoshifujidesign
把这个Three.js作品把蜘蛛直接无缝变形成了马。
从多条腿的蜘蛛形态,一帧帧自然地伸展、融合、重组,最终变成一匹奔跑的马。
整个过程没有硬切,没有突兀的形状变化,而是像有机体一样在流动。
作者用Three.js做到了极致的形态插值和骨骼/顶点动画控制,把两个完全不同的生物结构,用一种非常优雅的方式连接起来。
项目体验地址:
显示更多
兄弟们,终于跑通了~
爆肝完成,现在做项目介绍太方便了!
这套视频讲解的Skills 差不多跑通了,只需提供网站、内容、视频地址等就可以直接给你剪基础这样的讲解视频。
还挺方便的,需要的人多吗?
感兴趣的朋友多么?评论区告诉我
显示更多
看到Product Hunt 日榜的一个产品,想到
@xiaoerzhan 小耳做的一个工具,这个软件终生版5美金。
所以,其实大家的小Vibe Coding 产品 还是做好营销和挖掘客户才是关键,不然酒香也怕巷子深啊。
PS:本内容仅是我做产品Demo展示,做了个skills可以输入产品内容或者链接就可以制作出营销讲解视频。
tts的音频是使用小米的模型,感觉还可以啊。
显示更多
Supervision:Roboflow出品的计算机视觉开源工具包,斩获45K GitHub Stars,三周涨5K!。
它把最常见的CV工作流抽象成了可复用的组件:模型无关的推理、各种 annotator(框、掩码、标签、轨迹)、数据集加载转换、跟踪和区域统计等。
无论你用YOLO、RF-DETR还是其他检测模型,拿到detections对象后,几行代码就能完成标注和可视化。
最强的地方在于它极大地降低了重复造轮子的成本。
以前写一个检测+跟踪+统计的Pipeline要写好几百行,现在基本能用Supervision直接搭起来。
社区也贡献了大量高质量的annotator和工具,让整个生态越来越完善。
在当前多模型共存的时代,这种“模型无关 + 高质量可视化 + 数据集工具”的组合,基本成了大多数CV项目的默认依赖。
Github项目地址👇🏻
显示更多
兄弟们,这个项目简直是搞自媒体神器啊!
斩获3.5K Star,还直接开源免费啊!
还不赶紧给你的Agent搞起来啊
又有一个给AI Agent装“互联网眼睛”的开源项目,叫Agent-Reach。
它通过一个CLI工具,让Agent能免费读取和搜索Twitter、Reddit、YouTube、GitHub、B站、小红书等多个平台的内容。
核心不是自己写爬虫,最牛的是智能选择当下最稳定的开源后端工具,并自动做健康检查和故障切换。
安装后,Agent就能直接处理“帮我看这个YouTube视频的字幕”“搜一下Twitter上对这个产品的评价”“全网搜LLM框架对比”这类任务,而且全程零API费用、本地运行。
最实用的是它把这些碎片化的能力封装成了Agent可直接调用的skill,还做了多后端路由和自动降级,让整个系统更稳定可靠。
这其实是在补齐当前很多agent最缺的一块能力:低成本、可靠的网页和社交媒体内容获取。
非常丝滑和nice,搞创作搜集信息的兄弟们,别错过了!
✍🏻项目地址,记得给作者Star啊,见评论区👇🏻
显示更多
这个开源视频制作工作流真爽啊!
单日斩获3000 Star,真的牛~
又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。
它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录片蒙太奇、电影感、Talking Head等),内置52个工具和500+个agent skills。
用户只需要用自然语言描述需求,agent就能完成调研、脚本、素材生成、剪辑合成全流程。
最硬核的是它同时支持AI生成内容和真实素材工作流,还做了生产级的质量把控(预合成验证、后渲染自检、预算控制)。
渲染引擎用了Remotion和自研的HyperFrames,能输出高质量的动态视频。
本质上它是把“视频制作”这件事彻底agent化了,让普通人也能通过对话让agent产出接近专业水准的视频内容。
显示更多
Google Research在2024年悄悄开源了一个时间序列模型。
除了做预测的人,没人注意到。这是一个错误。
这个模型叫TimesFM。
论文发在ICML 2024,标题是"一个用于时间序列预测的解码器架构基础模型"。
核心思路直接借鉴语言模型:先在海量数据上预训练,然后用同一个模型预测任何新序列,不需要重新训练。
过去几十年,时间序列预测一直是一个数据集一套模型的模式。
你收集某个问题的数据,选一个模型架构。
在这个数据上训练,验证。如果问题变了,从头来过。
每个数据集都是一个独立项目。
每个场景都是一条独立流水线。
TimesFM改变了这件事,它在大量跨领域、跨频率的时间序列数据上预训练。
训练完成后,面对任何新的时间序列都能直接预测,零样本预测。
2025年9月,Google发布了2.5版本。
参数从500M降到200M,上下文从2048拉到16K。
加了一个30M的分位数预测头,能同时输出点预测和10%到90%的置信区间。
更小的模型。更长的上下文。
更好的结果。这很少见。
实际影响很具体,200M参数跑一张GPU就行。
16K上下文意味着你可以喂五年日数据,模型能抓住年度季节性。
分位数预测头意味着你不只有一个预测值,还有不确定性范围。
Google内部已经在用了。BigQuery ML里用SQL直接调。Google Sheets的Connected Sheets里内置了。Vertex AI提供了Docker端点。
开源版本免费,两行Python。
加载模型,调用forecast。输入numpy数组,输出预测结果。
2026年4月,Google加了通过HuggingFace Transformers和PEFT用LoRA微调的能力。
这意味着你可以用少量领域数据把预训练模型适配到你的具体场景。
时间序列预测不是一个光鲜的领域。没有病毒式传播的演示。没有十亿美元的消费产品。
但每个管理库存、预测需求、监控设备、交易金融工具的企业都依赖它。
TimesFM把这个行业最好的工具变成了pip install就能用的东西。
地址见评论区👇🏻
显示更多
Claude Code用户你知道吗?
你每天都在浪费一个功能!90%的都不知道!
Anthropic负责应用AI的负责人,刚做了一场2026年关于Agent记忆管理最实用的演讲 (晚点视频我更新到主页)。
他叫Lamis。
他和那些在前沿构建Agent的初创公司直接合作。
他拆解了Anthropic构建Agent记忆系统的完整方法论。
四层。
每一层解决了前一层的一个致命问题。
起点是一个Markdown文件。
他们在每次会话开头放一个CLAUDE.md文件,代码库结构。
组织信息,个人偏好,纯文本。
Anthropic的评价是"unreasonably effective"。
一个简单的文本文件,效果超过了复杂的Prompt工程方案。
但文件越来越长,上下文膨胀。会话空间不够。这条路撞墙了。
于是他们做了记忆工具。
让Agent自己决定什么时候读取、什么时候写入、什么时候更新记忆。
全部在带内完成,也就是在会话上下文中进行。
让他们意外的是:Agent判断什么值得记住的能力,比人类还强。自主性在这种场景下运作得非常好。
第三步是Skills。
核心思想是渐进式披露。Agent只看文件顶部几行前言,决定是否需要加载整个文件。
Lamis的比喻很精准,房间里有一个书架。有人跟我说法语,我扫一眼书名,找到法语词典,抽出来读。
不需要把七年的法语课都塞进脑子里。
第四步最简单。
他们把整个记忆系统建模为普通文件系统。Markdown文件。bash,grep。
不需要向量数据库。不需要专门的工具。Agent本来就擅长搜索文件。
但生产环境暴露了新问题。
多个Agent同时写入同一个记忆文件。
一个Agent往组织级上下文写入错误信息,所有Agent全部受影响。
记忆过时了怎么办。有人通过提示词注入向记忆中写入恶意内容怎么办。
Anthropic设计了四道防线。版本控制,能回滚。基于哈希的并发控制。权限分层,组织级只读,Agent草稿区可写。干净的API保证可移植性。
然后是最有意思的部分:做梦。
带内记忆有一个根本性局限。
Agent既要完成任务,又要管理记忆。两个竞争性目标。
而且Agent只能看到当前会话的信息,识别不了跨会话的模式。
做梦是一个带外的异步处理过程。
它取一段时间内的所有会话记录,交给一个专门的Agent分析。这个Agent查看记忆存储,识别模式,提出更改建议。
就像一个校长审查所有学生的作业。发现每个地理学生都在同一道题上答错。查了课程表,发现整个主题根本没有教。
做梦有自己的专用资源,不和任务执行竞争上下文。
Anthropic已经在生产中跑这套系统了。
Agent第二次执行同一个任务时表现更好。成本降低,因为能一次性完成。延迟下降。做梦消耗的额外token,被任务本身的效率提升抵消了。
Lamis最后说了一句话:模型智能本身不会产生复利。它需要上下文来执行你交给它的具体任务。
上下文工程的效果是倍增智能,即使模型本身变得更聪明,这个投资依然有价值。
这场演讲来自2026年AI DevCon。值得花半小时看看。
显示更多
这个开源视频制作工作流真爽啊!
单日斩获3000 Star,真的牛~
又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。
它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录片蒙太奇、电影感、Talking Head等),内置52个工具和500+个agent skills。
用户只需要用自然语言描述需求,agent就能完成调研、脚本、素材生成、剪辑合成全流程。
最硬核的是它同时支持AI生成内容和真实素材工作流,还做了生产级的质量把控(预合成验证、后渲染自检、预算控制)。
渲染引擎用了Remotion和自研的HyperFrames,能输出高质量的动态视频。
本质上它是把“视频制作”这件事彻底agent化了,让普通人也能通过对话让agent产出接近专业水准的视频内容。
显示更多
兄弟们,记忆赛道太卷了…
又有一个开源工具给AI coding agent装上了“无限记忆”。
叫Memanto。
它能把你每次和agent的完整工作会话保存下来,用AI自动组织和压缩,然后在下次需要时在90ms内把相关上下文找回来。
支持Claude Code、Cursor、Codex、LangGraph、CrewAI等主流工具。
以前每次新开会话,agent就失忆,你得重新讲一遍项目背景、架构决策、之前踩过的坑。
现在它能记住你上一次做到哪了,直接接力继续干。
实现上没有用传统向量数据库,而是通过AI压缩 + 高效检索来控制成本和速度。
安装也极简,只需要pip install memanto。
这其实是在解决agentic coding里一个很基础但很疼的问题:上下文的持久化和高效复用。
记忆做得好,agent才能真正从“一次性工具”变成“长期协作伙伴”。
显示更多
ACABAN DE DARLE MEMORIA INFINITA A CLAUDE, CODEX Y CURSOR
100% GRATIS y open source
Se llama Memanto y ya tiene +1k estrellas en GitHub
Antes en cada sesion nueva tu agente olvidaba todo
Tenias que explicarle de nuevo el proyecto, las decisiones, los errores
Memanto lo resuelve de raiz
→ Guarda el contexto completo de tus sesiones de trabajo
→ Organiza y comprime la informacion utilizando IA
→ Recupera lo relevante en menos de 90ms
→ Funciona con claude code, cursor, codex, LangGraph, CrewAI y mas
Sin bases de datos vectoriales
Sin configuracion compleja
Solo un comando: pip install memanto
Tu agente ya recuerda donde lo dejaste
No mas perder tiempo explicando lo mismo cada dia
显示更多
语音产品也是真的卷啊~
Voicenotes现在把他们的语音输入做成了iOS系统级键盘。
更新后,你可以在任何有输入框的地方直接用Voicenotes的键盘说话(微信、邮件、笔记、评论区都行),说完立刻转成文字。
相当于给整个iOS系统加了一个高质量的AI语音输入法。
这比单纯的App内语音输入实用多了。
以前很多AI笔记App只能在自己App里用语音,现在直接把能力打到系统键盘层,用户可以在任何场景下用上他们的转录和智能处理。
从产品角度看,这是把“语音输入”从功能变成了基础设施。谁能把高质量语音转文字做到系统级,谁就拿到了用户在各个App里的输入入口。
显示更多
Voicenotes Dictation is now live on iOS.
You can now use the Voicenotes keyboard to speak into any app with a text box - Messages, emails, notes, comments, basically anywhere you’d normally type. Just speak, and your words appear instantly.
Update Voicenotes from the App Store to try it.
显示更多
我靠,这个项目还挺有意思的!
有人用AI做了一个能实时解说世界杯的解说员,而且不只支持英语,还能切换成法语。
它实时抓取直播画面帧,让GPT-5.4-mini看比赛并生成解说词,再用ElevenLabs以体育解说员的语气播报出来。
整个过程是端到端的实时调用,已经能比较自然地跟上比赛节奏。
更关键的是,这个系统不是死板的模板生成,直接让模型真正“看”比赛内容后再组织语言。
这意味着理论上它可以适应不同语言、不同风格的解说,甚至未来还能做双解说员对喷这种更有趣的玩法。
目前最大的挑战还是延迟和解说的精准度,但方向已经很明确了:AI正在从“辅助内容”变成“实时内容生产者”。
这让我想到2个玩法,一个是已经有的产品叠叠社的一个字母实时互动,一个是声音多种声线克隆或者直接使用有些比如建国的声音来解说,就会比较有意思。
项目已经开源,地址见评论👇🏻
显示更多
i tried building an AI commentator for the World Cup
it watches the live stream as the viewers, samples the newest frames, reads the action, and speaks the play-by-play back into the broadcast in real time
here it is calling the 2022 final:
显示更多
补齐垃圾𝕏 搜索的功能,好东西。
直接被Fengdu老哥开源。
地址:
受够了每次搜 X 都要查高级语法
就干脆自己做了个Chrome 扩展插件
「X Search Filters」—— 高级搜索面板
在可视化面板上点点点,可以轻松搜指定用户、时间、地点、图片、视频、高赞推文,筛选。
支持预览语法、历史记录、收藏,中英文随意切。
已开源,感兴趣欢迎使用~
显示更多
阿里最近通义实验室这个视频挺火的!
其实也和之前发的黄教授因果模型那个事儿还有异曲同工之妙的地方!
Tongyi Lab抛出一个问题:为什么AI在虚拟世界里很强,但让机器人去拿个鸡蛋却容易卡住?
他们的新视频在讲Embodied Intelligence的核心难点,机器人“想得清楚”和“做得稳”完全是两回事。
在数字世界里,模型可以反复试错、快速迭代。
但在物理世界,传感器噪声、执行延迟、环境变化、物理约束让每一步都充满不确定性。
一个简单的抓取动作,可能因为光线、摩擦力、物体形状的微小差异就失败。
这其实把当前AI的两大世界拉开了对比:语言和代码世界里,scaling law还在狂飙。
所以,待解决的问题还是很多,路还挺长。
AI时代,才是寒武纪爆发之际。
显示更多
兄弟们!这个研究有点牛逼啊!
Physical AI 的瓶颈根本不是「模型不够大」,是一开始范式就错了。
先说一个真实场景:桌子高了 2cm,当前最强的 VLA 模型直接失败。
为什么?
因为它只学到了「手伸到某个位置」的相关性,根本不知道「为什么」会摔、「怎样」才能不摔。
这就是 LLM/VLA 路线的致命伤,它在互联网数据上学的是统计相关性,但物理世界运行靠的是因果律。
你可以生成一段完美的「桌面物体掉落」视频,但模型完全不知道下一秒会发生什么。
UCSD 黄碧薇教授
@huang_biwei 刚在 CVPR 2026 发了 Causal World Models(因果世界模型)框架,给这个问题指出了一条新路:让 AI 从「模仿动作」进化到「理解因果」。
不是学「人做了什么」,是让它学「这样做为什么有效、换一个场景为什么失效」。
她今天宣布 Aether AI 融资2000万美金,也成为全球首个因果世界模型公司。
关于她的含金量,我们也来挖一挖:
① 12 年因果 AI 深耕,CMU PhD(导师 Kun Zhang + Clark Glymour)
②100+ 顶会论文,Apple Scholar in AI/ML
③causal-learn 作者(Python 因果发现库,GitHub 高星)
CLeaR 2025 Program Co-Chair
④世界模型赛道正热:杨立昆 AMI 融了 $10 亿+,李飞飞 World Labs $10 亿,国内 25 起融资超 22 亿。
几乎所有玩家都在卷数据量、卷仿真规模。
但 Aether AI 的切入点完全不同,不卷 Scale,卷因果结构。
这可能是具身智能从「花拳绣腿」到「真正理解物理世界」的范式转折点。
感兴趣的可以看看官网:
显示更多
真正的大佬真的就可以早早预见这个趋势!
美国政府 reportedly 要亲自审批谁能用GPT-5.6,这已经不是单纯的模型发布了。
据说OpenAI计划只给一小部分合作伙伴有限预览,Sam Altman被告知要等其他政府部门批准。
Commerce Secretary Lutnick还亲自打电话警告不要擅自发布。这已经接近事实上的许可制了。
Yann LeCun之前就警告过这种趋势:如果以安全为由把AI系统锁起来,只让少数人接触,那AI就无法真正实现“让智能民主化”。
他一直主张开源才是把AI放到所有人手里的正确方式。
当最强的闭源模型开始被政府按客户审批时,开源模型的意义就不再只是技术上的追赶,而是成了对抗技术集中控制的一种实际路径。
显示更多
美国🇺🇸政府又整活儿了!
特朗普政府要求 OpenAI 推迟新模型发布,理由是安全担忧。
根据多家媒体(包括《The Information》、路透社等)报道:
特朗普政府已要求 OpenAI 分阶段(stagger)发布其下一代前沿模型(据报道为 GPT-5.6),原因是存在网络安全和国家安全担忧。
具体情况包括如下:
- OpenAI CEO Sam Altman 在公司内部问答中告知员工:新模型不会立即全面公开发布,而是先以有限预览(limited preview)的形式,仅开放给一小部分选定的合作伙伴和企业客户。
- 在这个预览阶段,美国政府将对每个客户的访问权限进行逐个审批(customer-by-customer)。
- 这一要求来自美国政府两个关键机构:国家网络总监办公室(Office of the National Cyber Director)和科技政策办公室(Office of Science and Technology Policy)。
- 这与近期 Anthropic 的情况类似,政府也在对先进模型的发布施加更严格的控制。
背景:
这与特朗普政府今年6月初签署的行政命令有关。
该命令建立了一个自愿框架,鼓励 AI 公司在其最强大的模型公开发布前,提前最多30天提交给政府进行网络安全测试。
以评估潜在风险(尤其是网络攻击能力、对关键基础设施的威胁等)。
OpenAI 表示将遵守这一自愿审查机制,强调安全与创新需要并行推进。
意义:
这标志着美国政府对前沿 AI 模型发布的监管正在加强。
即使是自愿性质,也意味着 AI 公司不能完全自主决定何时、以何种方式向公众开放最先进的模型。
未来这类“分阶段发布 + 政府审批”的模式可能会成为常态。
总结:OpenAI 原本计划的全面发布被政府要求改为受控的有限预览,目的是在模型正式落地前更好地管控安全风险。
原文:
显示更多
美国🇺🇸政府又整活儿了!
特朗普政府要求 OpenAI 推迟新模型发布,理由是安全担忧。
根据多家媒体(包括《The Information》、路透社等)报道:
特朗普政府已要求 OpenAI 分阶段(stagger)发布其下一代前沿模型(据报道为 GPT-5.6),原因是存在网络安全和国家安全担忧。
具体情况包括如下:
- OpenAI CEO Sam Altman 在公司内部问答中告知员工:新模型不会立即全面公开发布,而是先以有限预览(limited preview)的形式,仅开放给一小部分选定的合作伙伴和企业客户。
- 在这个预览阶段,美国政府将对每个客户的访问权限进行逐个审批(customer-by-customer)。
- 这一要求来自美国政府两个关键机构:国家网络总监办公室(Office of the National Cyber Director)和科技政策办公室(Office of Science and Technology Policy)。
- 这与近期 Anthropic 的情况类似,政府也在对先进模型的发布施加更严格的控制。
背景:
这与特朗普政府今年6月初签署的行政命令有关。
该命令建立了一个自愿框架,鼓励 AI 公司在其最强大的模型公开发布前,提前最多30天提交给政府进行网络安全测试。
以评估潜在风险(尤其是网络攻击能力、对关键基础设施的威胁等)。
OpenAI 表示将遵守这一自愿审查机制,强调安全与创新需要并行推进。
意义:
这标志着美国政府对前沿 AI 模型发布的监管正在加强。
即使是自愿性质,也意味着 AI 公司不能完全自主决定何时、以何种方式向公众开放最先进的模型。
未来这类“分阶段发布 + 政府审批”的模式可能会成为常态。
总结:OpenAI 原本计划的全面发布被政府要求改为受控的有限预览,目的是在模型正式落地前更好地管控安全风险。
原文:
显示更多
太卷了,不学习进步都被00后淘汰了。
Demo Go …
不管他,先做个垃圾出来😂
普通开发者别一天整那些高端货!
掌握这6点+1 就够了,尤其第7个!
无需深究Transformer原理,2026年也能构建AI智能体。
先搞清楚基础概念,这6个(+1)核心架构支柱:
1. 模型上下文协议(MCP)
可理解为“AI的USB-C接口”。一套通用标准,让任何智能体都能即插即用外部工具与数据——无需为每个工具单独开发集成方案。
由Anthropic提出,已被业界快速采纳。
2. 智能体循环(Loop-Engeerning)
每个智能体的核心引擎。
循环流程:感知→思考→行动→观察→重复。
智能体会持续循环直至任务完成,或判定陷入僵局。没有循环,就没有自主性。
3. 技能模块(Skills )
智能体的岗位职责定义。
MCP负责连接,工具提供API接口,而技能模块则是更高阶的逻辑层,负责协调这些组件以实现完整目标。
4. 单体与多智能体架构(Agent Swarm)
同一光谱的两种模式。
单体架构:由单个大语言模型运行全流程。
多智能体架构:专业智能体分工协作——有的检索,有的验证,有的生成,以复杂性换取规模优势。
5. 智能体驱动的RAG
赋予RAG“大脑”。
智能体可将查询路由至专业知识源,验证检索到的上下文,并动态决策应采用哪些信息。
6. 智能体记忆系统
短期记忆存在于上下文窗口中。
长期记忆则按需从外部存储(知识库或向量数据库)提取。这使得智能体能在多轮交互中保持连贯性,并从历史交互中学习。
7. 人机协同机制(HITL)
最终的安全护栏。
自主循环虽强大,但对高风险任务而言纯粹自主具有危险性。
HITL在关键操作执行前插入人工检查点,以便批准或修正。
显示更多
Skip transformer math to build AI agents in 2026.
You just need these 6 (+1) core architectural pillars.
𝟭. 𝗠𝗼𝗱𝗲𝗹 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗣𝗿𝗼𝘁𝗼𝗰𝗼𝗹 (𝗠𝗖𝗣)
Think "USB-C for AI." One universal standard that lets any agent plug into external tools and data — instead of hand-building an integration for every tool. Anthropic introduced it; the industry adopted it fast.
𝟮. 𝗔𝗴𝗲𝗻𝘁 𝗟𝗼𝗼𝗽𝘀
The engine behind every agent. A cycle of: perceive → think → act → observe → repeat. The agent keeps looping until the task is done, or it decides it's stuck. No loop, no autonomy.
𝟯. 𝗦𝗸𝗶𝗹𝗹𝘀
The agent's job description. MCP handles the connection and tools expose the API, a Skill is the higher-level logic that orchestrates them into a finished outcome.
𝟰. 𝗦𝗶𝗻𝗴𝗹𝗲 𝘃𝘀 𝗠𝘂𝗹𝘁𝗶-𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲
Two ends of one spectrum. Single-agent: one LLM runs the whole pipeline. Multi-agent: specialized agents split the work, one retrieves, one validates, one writes, trading simplicity for scale.
𝟱. 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗥𝗔𝗚
RAG with a brain. The agent can route queries to specialized knowledge sources, validate retrieved context, and make dynamic decisions about what information to use.
𝟲. 𝗔𝗴𝗲𝗻𝘁 𝗠𝗲𝗺𝗼𝗿𝘆
Short-term lives in the context window; long-term is pulled on demand from external stores (knowledge bases or vector databases). It's what keeps agents coherent across interactions, and lets them learn from past ones.
𝟳. 𝗛𝘂𝗺𝗮𝗻-𝗶𝗻-𝘁𝗵𝗲-𝗟𝗼𝗼𝗽 (𝗛𝗜𝗧𝗟)
The ultimate guardrail. Autonomous loops are powerful, but pure autonomy is dangerous for high-stakes tasks. HITL inserts human checkpoints for approval or correction before critical actions run.
Which term would you add? 🤔
显示更多
这下让真的可以让很多人都闭嘴了!
Unsloth把GLM-5.2压缩到1-bit后。
本地跑起来居然还能和Claude Opus、GPT-5.5正面比创意输出。
他们用Mac Studio M3 Ultra 256GB RAM跑1-bit版本,速度还能到21 tok/s左右。
在同一个prompt下生成的HTML/设计效果,看起来甚至比闭源模型更丰富、更“有想法”。
这已经不是简单的量化了,而是把一个原本需要海量显存的超大模型,硬生生塞进了消费级硬件还能打。
GLM-5.2本身就以创意和长上下文见长,现在连极致量化后都还能保持较强的表现,确实有点超出预期。
这也再次验证了一个趋势:开源模型在极端优化后,正在快速缩小和闭源前沿模型在实际可用性上的差距,尤其是在本地部署和特定任务上。
大内存的本子这下真的太香了,Qwen 3.7 这些模型又该迭代版了。
显示更多
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5
We gave 3 models the same prompt and compared one-shot outputs.
The 1-bit GLM-5.2 GGUF ran locally on a Mac Studio M3 Ultra with 256GB RAM at ~21.6 tok/s.
Which output do you like best?
GGUF:
显示更多
M5 Stack 小机器人在AI这一波算是破圈了,你别说怪好玩的😂