搜索 LLM 相关的推文与用户

Geek@geekbb

6hours ago

阿里发布面向工业领域的 LLM 知识评测集 IndustryBench，2049 道题目源自从中国国家标准摘要和结构化工业产品记录，横跨 7 个能力维度、10 个行业类别。

显示更多

0

转发到社区

Kevin Lin@KevinQHLin

2026.05.14 20:31

🌟Introducing🎻Violin — an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most high-quality content (lecture, talk, podcast) is locked behind a single language, leaving global audiences behind. So we built Violin: a video skill that combines speech recognition, LLM translation, and speech synthesis into one seamless pipeline. 🌐 Demo: 📝 Blog: 🔗 GitHub: ✨Key Features: 🎙️High-quality multilingual ASR & Translation & TTS. 🗣️Personalize translation & voice (turn an academic talk into something children can follow). 💬Chat with the video — ask any questions grounded in the video. 🧩Support Web app, CLI, and Agent skill 🍃Fully open-source under MIT. ❤️Built with the wonderful @ShangZhu18 and advised by @james_y_zou ! All features powered by @togethercompute . Try it and let us know what you think! 🎻

显示更多

0

3

51

20

转发到社区

Sumanth@Sumanth_077

2026.05.14 14:17

Stop testing and rewriting prompts manually! Most teams run evals, look at failures, guess what's wrong, rewrite the prompt, then repeat. It's slow and you never know if your rewrite actually fixes the root issue. The better way is evolutionary optimization. Instead of manual rewrites, you use genetic algorithms to analyze eval feedback and rewrite prompts automatically. The algorithm maintains diverse prompt candidates that excel at different problem types, not just one "best" version. DeepEval does this using GEPA - Genetic Evolution with Pareto Selection. You provide a prompt template, test cases, and metrics to optimize for. The optimizer handles the rest. Here's how it works: It splits your test cases into validation and feedback sets. The validation set scores every prompt fairly. The feedback set provides training signals for mutations. Then it starts evolving. It selects a parent prompt, runs it on a minibatch of test cases, collects metric feedback on what failed, and uses an LLM to rewrite the prompt addressing those issues. If the rewritten prompt scores better, it gets added to the candidate pool. After several iterations, it returns the highest-scoring prompt. Key capabilities: • Works with 50+ built-in metrics - answer relevancy, hallucination, bias, task completion, and more. • Supports multi-objective optimization - optimize for multiple metrics simultaneously without forcing tradeoffs. • Configurable iterations and minibatch sizes - control search thoroughness and compute cost. The best part? It's 100% open source. Link to DeepEval in the comments!

显示更多

0

4

27

10

转发到社区

比特币橙子Trader@oragnes

2026.05.14 01:27

想建立高质量的AI信息流，从这15个账号开始！这 15 个账号基本覆盖了：研究工程教育开源产品 AGI 思考 AI 真实能力评测 @karpathy 他的推文经常提前定义 LLM 叙事。很多你两个月后在 LinkedIn 上看到的 AI 话题，可能他早就讲过了。 @fchollet Keras 作者，ARC-AGI 提出者。经常分享关于智能、本质能力、Benchmark 和 AI 局限性的深度思考。 @ylecun 深度学习先驱，Meta 首席 AI 科学家。观点很宏观，也经常有对 AI 研究路线的批判和讨论。 @AndrewYNg AI 教育领域的传奇人物。内容非常实用，覆盖机器学习建议、课程、产品落地和真实世界应用。 @rasbt Sebastian Raschka，经常分享实用 ML / LLM 实现、“从零构建”教程，以及相关书籍内容。 @dair_ai 高频更新 ML / AI 论文线程，用通俗方式拆解前沿研究，适合快速跟进 AI 进展。 @lilianweng 前 OpenAI 成员。她的 Lil’Log 风格内容非常值得看，擅长深入拆解 LLM 研究和技术细节。 @jeremyphoward 经常分享 AI / Crypto 相关观点，也长期推动实用深度学习的普及和大众教育。 @simonw Django 联合创始人。聚焦实用 LLM 工具、实验、提示词、Agent 和工程实践拆解。 @_akhaliq 持续整理最新 arXiv 论文、模型发布、开源 AI 项目和研究动态，信息流非常快。 @ID_AA_Carmack 关注 AGI 和底层优化问题，很多观点能让你重新思考“智能”和“工程”的本质。 @gwern 高质量长文作者，擅长 AI 研究笔记、深度 essays 和长期主义视角的技术观察。 @goodside 专注 LLM 评测、提示词研究和真实能力测试，经常能看到非常细的模型行为观察。 @drfeifei 计算机视觉先驱，关注以人为中心的 AI、空间智能和未来 AI 研究方向。 @demishassabis Google DeepMind CEO。长期关注通用 AI 的未来方向，也是理解 DeepMind 路线的重要窗口。大家还有要补的吗？评论区👇👇👇👇

显示更多

0

2

7

0

转发到社区

Nous Research@NousResearch

2026.05.13 17:09

Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a 2-3× wall-clock speedup at matched FLOPs without changing the model architecture, optimizer, tokenizer, or training data. During the first third of training, the model reads and predicts contiguous bags of tokens, averaging their embeddings on the input side and predicting the next bag with a modified cross-entropy on the output side. For the remainder of the run, it trains normally on next-token prediction. The inference-time model is identical to one produced by conventional pretraining. Validated at 270M, 600M, and 3B dense scales, and at 10B-A1B MoE. The work on TST was led by @bloc97_, @gigant_theo, and @theemozilla.

显示更多

0

144

3.6K

405

转发到社区

Lao Bai@Wuhuoqiu

2026.05.13 11:30

记得Defi Summer 20年到22年这三年时间，大家经常感慨的一句话就是“币圈一天，人间一年” 因为技术迭代太快了，每天都有数不行的新东西出来，几天不看就跟不上节奏现在这个感觉在币圈彻底消失，在AI那边出现了，每天的新东西就看不完，真的看不完正好这几天看到圈里讨论Cerebras的帖子多了起来，昨天还看到不少路演信息，毕竟14号要挂牌交易。之前在Amber做分享的时候也单独讲过这个公司（当时用的那页PPT放在文末），所以简单说下我对Cerebras的判断先说结论：这家公司很有意思，但核心变量不一定是他们造的芯片本身，而是未来AI的workload形态会是成什么样。先简单说下它是干嘛的，防止有老铁还没看Cerebras 它最核心的技术，就是wafer-scale chip（晶圆级芯片），简单理解就是别人还在用“邮票大小”的芯片，它直接把整片晶圆做成一颗超大处理器，再配上超大 SRAM，把大量数据尽量留在本地高速处理，减少传统GPU最头疼的memory bottleneck。现在海力士美光涨上天就是因为HBM这东西太抢手，Cerebras是直接绕开了对HBM的依赖很多人看到 Cerebras最牛逼的benchmark：推理速度比GPU快10-15倍，第一反应就是下一个英伟达？！先别急。这个benchmark最大的问题，是默认AI的核心需求永远是“更快吐token”。如果只是人类盯着ChatGPT聊天，这故事其实没那么性感。你每秒吐 30 个 token，我已经快读不过来了。再翻10倍，边际体验提升几乎为零。真正有意思的是 Agent。 Agent不读字，Agent消费Token。速度直接等于生产力。一个OpenClaw/Hermes agent，如果要读网页、写计划、调 API、跑代码、报错重试、继续执行，一个任务可能要几十次 inference call。每次 2 秒，任务就是分钟级体验。每次 200ms，就是另一个世界。所以 Cerebras更值得关注的地方，是 AI worker 这条线，而不是单纯的chatbot加速。但问题来了 - 它的magic来自 wafer-scale + 超大SRAM，本地访问极快。但SRAM这东西有天然 tradeoff，速度快，容量贵，大模型塞不下就必须拆分。而一旦拆分，chip-to-chip communication 就上来了。 LLM inference里最怕通信的恰恰是 decode 阶段。token 是一个一个往外吐的，每多一次 hop，延迟就是硬加上去，没法隐藏。所以 Cerebras能不能成，关键根本不在“比 GPU 快几倍”，而是未来 AI 的主流计算形态到底是什么。 1. 时间线一 - 未来几年还是前沿超大模型一统天下，动不动几千亿甚至万亿参数，所有请求都让超大模型自己处理，那 Nvidia的distributed infra 依然最舒服，Cerebras的速度优势会被通信损耗吃掉很多。 2. 时间线二 - MoE、蒸馏、量化这些技术如果继续快速进步，未来两年70B左右的模型做到今天700B模型 80%-90% 的效果，我一点都不意外。（这里要强烈感谢Deepseek一大波!) 如果世界往这个方向走，故事就变了。大模型负责 planning / judgement / orchestration。真正执行任务的大量 worker model 落在 30B-70B 这个区间。这些模型足够聪明，又刚好能吃到高速本地推理带来的红利。 Agent 世界里，大部分token根本不需要最聪明的大脑。很多工作本质就是执行层体力活：浏览网页、改代码、调工具、retry、继续跑流程。这个 topology一旦成立，Cerebras就直接进入自己的甜区 3. 时间线三 - 未来推理是端侧为主，用的都是8B，14B的这些小模型，那GPU也能跑的很好，甚至专用的ASIC芯片效率更高，这个场景下Cerebras的优势和护城河也就不高了换句话说，超大模型云端推理或者超小模型的端侧推理这两个平行宇宙，Cerebras的优势都不够明显，只有主流推理落在32B-70B中等模型这个Size，正好“Big enough to stress GPU memory, Small enough to fit locally” 才是Cerebras最能大展身手的世界所以我对Cerebras的判断是，300多亿的市值，短期看订单，财务报表这些数据，长期赌的则是未来Agent时代的计算范式到底落在哪个平行宇宙的时间线上

显示更多

0

11

71

10

转发到社区

Base中文台@basezh

2026.05.13 09:04

近期 @bankrbot 开始持续获得市场关注。市场分析人士认为，在 Base AI 热度持续升温、AI Agent 金融基础设施叙事、Coinbase 生态支持、生态项目活跃度提升以及新产品预期等因素推动下， $BNKR 正逐渐成为 Base 链上备受关注的 AI 概念项目之一。 ▫️1 乘风口：Crypto x AI 热度持续升温近期，Base 生态 AI 项目表现持续强势， $VVV、 $POD 等多个 AI 概念项目短期内均出现明显上涨。市场普遍认为，资金正持续流入 AI Agent 相关赛道，Crypto x AI 已成为当前最受关注的热门叙事之一。 ▫️2 筑底座：Bankr 切入 AI Agent 基础设施 Bankr 正在构建 Base 上 AI Agent 的金融基础设施。用户可直接通过自然语言完成交易、发币与钱包管理，无需传统 DEX 操作，部分社区将其称为 AI Agent 的 Stripe。 ▫️3 强造血：BNKR 已形成收入闭环 Bankr 平台对交易收取 0.8% 手续费，并回流至 BNKR 生态，形成实际收入支撑。同时，越来越多 AI Token 开始通过平台发行。近期，生态内 $GITLAWB 与 $LFI 均出现大幅上涨，进一步提升市场对 Bankr 生态扩张能力与资金关注度的预期。 ▫️4 抱大腿：与 Coinbase 生态深度绑定 Bankr 曾获得 Coinbase Ventures 旗下 Base Ecosystem Fund 支持， $BNKR 已上线 Coinbase，并接入 Base App。此外，其也支持 Coinbase 主导的 x402 协议。 ▫️5 开新局：多项新产品酝酿落地目前，Bankr 已扩展至 AI Launchpad、LLM Gateway、杠杆交易与 Polymarket 集成等方向。未来或推出稳定推理币以及 $BNKR 质押推理折扣机制，市场认为，这可能进一步提升其估值预期。

显示更多

0

1

17

3

转发到社区

Gorden Sun@Gorden_Sun

2026.05.13 08:33

阿里开源Ovis2.6-80B-A3B：视觉多模态MoE模型 Ovis系列模型是阿里国际数字商务团队开源的模型，这个模型的特点是能主动进行视觉推理，在思维链中可以主动调用视觉工具，如裁剪、旋转图像区域。 2.6版本相比上一版，把主干LLM替换成了MoE模型。模型：

显示更多

0

31

2

转发到社区

GitTrend@GitTrend0x

2026.05.13 04:59

Hermes AI Agent 注入超级能力的 Top 13 集成神器！想让你的 Agent 从会聊天直接进化成能干活的超级助手？这些集成直接给它开挂！非技术人员也能一键变身AI赚钱机器，我亲自测过，效果爆棚🚀 1. Firecrawl  专为Agent打造的网页搜索神器！ 比Hermes原生搜索强太多：干净数据、响应超快、token消耗暴减。 我默认永远开着它，强烈推荐！ 2. Browserbase  给 Hermes 真实浏览器访问权限！ 登录、点按钮、填表单、预约任何事，都能干。 Hermes会根据任务自动切换Firecrawl还是Browserbase，插上即用！ 3. Google Workspace  Gmail、日历、Drive、Docs、Sheets全打通！ Agent读不了你的邮箱、看不到日历、写不了文档？那就白瞎了。 第一优先级插这个！ 4. Reddit  想知道真实用户对任何产品、赛道、问题的吐槽？这里是金矿！ 市场调研天花板，全是真人干货。 5. YouTube转录  随便拉任何视频的字幕（长播客、教程、访谈全行）。 几秒变可搜索笔记，研究效率直接起飞！ 可能是最高杠杆却最少人用的隐藏神器！ 6. Discord  我把整个生意都放在Discord上，这个对我来说是刚需。 插不同频道跑专属工作流：比如客服频道每天早上自动扫邮箱支持票据，整理好直接丢进来，效率拉满！ 7. GitHub  代码、Issue、PR全接入。 Hermes直接变你的工程队友！ 写代码的人，必备！ 8. Stripe  支付、客户、失败扣款、退款一目了然。直接问“这个客户为什么流失”就能拿到真实答案。马上要出Agentic支付功能，以后Hermes还能直接用你的卡下单，期待ing！ 9. Bland（或Twilio）  给Hermes配上真实语音，能打电话预约、客服啥的。我超爱听那些通话录音，笑死😂 10. Apify  X、LinkedIn、Instagram、Google Maps等现成爬虫。  不用花5000刀买官方API，就能轻松拿数据，太香了！ 11. Readwise  你以前从书、文章、推文、播客保存的所有高亮，全都能搜索查询。 彻底解决“死知识”问题，知识复用起飞！ 12. Granola（或Fathom）  所有会议录音转录都能搜索。 Hermes秒答：“上个月那个客户对定价说了啥？” 太实用了！ 13. Obsidian  Karpathy式LLM第二大脑狂人必备。 Hermes直接变你的个人知识库管家。 // 如果只能选5个，我直接上：Firecrawl + Browserbase + Google Workspace + GitHub + Obsidian 覆盖80%日常需求，够大多数人起飞了！我全是用 Composio 一键添加的，零技术门槛，5分钟搞定，不用自己折腾代码。

显示更多

0

10

147

37

转发到社区

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 03:27

半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（ a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。

显示更多

0

19

265

56

转发到社区

与「LLM」相关的搜索结果