搜索字节开源相关的推文与用户

2026.06.23 02:21

国内大厂搞了很多前端开源项目，基本都是一言难尽，充满了所谓大厂傲慢。排名不分先后： - 飞冰（这名字真牛逼，让我联想到吸毒） - umi （让我对企业级这三个字 PTSD) - modern.js（字节开源封人之战，究极缝合怪） - amis（旧时代产物，外包最锋利的剑）

显示更多

0

63

104

6

转发到社区

Denzii 🕊️@denziideng

2026.06.19 10:20

简直成精了，AI 能直接操作电脑了，一句指令就能订票订酒店规划路线，没人啥事了……😮 以前AI只能聊天写代码，现在直接能像人一样看屏幕、点鼠标、敲键盘，帮你完成各种电脑操作……这时代真是变了！😱 字节跳动开源了 UI-TARS-desktop（GitHub已 36.9k Star），一个真正的多模态AI电脑操控工具，只需用自然语言下指令，它就能自动截图识别界面，然后精准控制鼠标和键盘执行任务了。👍 你看，如下视频其实就一句指令：我 9 月 1 日到 9 月 6 日在洛杉矶，预算 5000 美元。请帮我在上预订离机场最近的丽思卡尔顿酒店，并为我编制一份交通指南！核心优势： - 支持本地和远程电脑/浏览器/手机控制 - 远程操控无需任何配置，点一下就能用 - 完全本地处理，隐私安全有保障 - 跨平台支持（Windows、macOS、浏览器） - 开源免费使用方法： 1. 下载安装桌面客户端 2. 启动后输入自然语言指令 3. AI自动完成操作并反馈结果一句话：AI 终于从"语言助手"跨越到"行动 Agent"，从陪人聊天走向替人干活，和人操作电脑一毛一样！😄 🔗 GitHub地址：对AI Agent、自动化办公、效率工具感兴趣的同学，这个项目值得重点关注！～ #UITARS# #AI操控电脑# #字节开源# #多模态Agent# #开源工具# #工具分享#

显示更多

0

5

19

4

转发到社区

阑夕@foxshuo

2026.03.05 13:52

看到晚点LatePost也更新了谈千问换帅事件的播客，深度依然是全网无出其右，确实单口播客这种媒介形式也更适合即兴的去跟一些热点选题，比文稿生产的效率要高。总之，光速听完之后，阑心一言咔咔启动： - 简单化的去理解林俊旸的离职，一定会被牵着鼻子走，比如我们看到投放的料五花八门，有把阿里HR挂成万恶之源的，也有对冲说林俊旸在搞独立王国的，这些都是噪音，不是说对错不重要，只是很多时候你很难用对错来评价所有事情，需要接受个人意志和组织生长之间的摩擦必然有概率发展到不相容的地步； - 三个需要厘清的事实是，其一，林俊旸不是被离职的，阿里不可能主动开掉这个级别的Leader，其二，DAU是和千问App的产品团队捆绑，这是吴嘉/智能信息事业群的工作，不太可能牵扯到从属于阿里云的模型团队，其三，今年1月空降的周浩，是接替已经确定要走的后训练负责人喻博文，并不是来管林俊旸的； - 所以林俊旸的离职，更接近于一种「道心破碎」的结果，晚点主播曼琪的用词很微妙——「长期知其不可为而为之的付出」——最后被组织架构调整这根最后的稻草给弄崩了，宣布离职的整个过程，就是没考虑给阿里的管理层留太多反应时间，是铁了心不想干下去了； - 千问的模型团队属于通义实验室，而通义实验室又属于阿里云，最后阿里云再属于集团，这个嵌套关系已经很复杂了，在叠加了千问模型作为阿里全村希望的战略定位，资源匹配问题就很大了，所以才有了连阿里CEO吴泳铭也不知道千问模型团队被卡资源的说法； - 林俊旸这边的人马高度依赖阿里云的Infra支持，但实际上他们觉得阿里云在服务外部团队上甚至好于服务自家千问基模——这也太离谱了——于是去年年底林俊旸绕过阿里云直接找吴泳铭争取了自建Infra的权限，这个越级操作也为后来发生的事情埋下了伏笔； - 还有一个比较难绷的是，去年春节前后，o1带动推理模型开始崛起，千问在后训练方面遇到了瓶颈，然而转用字节开源的强化学习框架veRL来做训练，发现效果有了比较明显的提升，相当于通过控制变量，发现了问题是在Infra上，这才有了林俊旸对Infra一直不满意的根源，要做垂直一体化的建设； - 但阿里云的判断不是这样的，因为混合多模态已经是明显的趋势，把各个模态、预训练和后训练都拆出来搞单元制，是一定要做到事情，但对原千问模型团队来说，这就是在被收窄范围，尤其是时间点卡在Qwen 3.5训练完成后不久，大家都很疲惫，突然又得到了这种不太像是奖励的调整； - 阿里的管理层比较懵逼，或者说被动，也有反思组织变动没有考虑办公室政治的因素，把明明是要扩大对基模投入的事情，干成了让基模团队觉得是要收缩的效果，沟通上没有把控好，现在尽量要去平稳解决矛盾； - 千问在开源社区赢得的名声，到底怎么转化成阿里的资产，这个量尺很难找到，在2B市场，开源意味着很难卖API，在2C市场，开源⋯⋯好像也没啥意义，用户不会因为你开源了就来用你的App，然而林俊旸是一个相当理想主义的Leader，万亿参数的Qwen Max旗舰模型是阿里没有选择开源的，但他也想推动开源； - 千问的模型团队从创建之初就保有着一个相对独立的工作环境，少被拉扯和打断，这种专注力被视为千问模型屡出成果的原因，但是当AI行业进入一场谁也输不起的All In战局后，这种与真实市场保持距离的自驱型团队还能不能存在，既是一个原则问题，也是一个选择问题。

显示更多

0

23

207

20

转发到社区

Bill The Investor@billtheinvestor

2026.06.16 17:10

字节跳动开源 UI-TARS Desktop (3.6k⭐)。核心逻辑：100%本地运行、仅看像素、不调API。对比OpenAI/Anthropic云端模式，解决两大痛点：1. 数据隐私（不出机器）；2. 零成本延迟（免API费）。构建私密自动化工作流的高效开源方案。

显示更多

0

23

93

13

转发到社区

qiyan | Crypto@0xQiYan

2026.06.21 01:16

我们也有属于自己的智能体了，字节跳动刚刚开源了一个AI智能体，能替你完成整个工作。所有人都在把Hermes捧为头号智能体，然后字节跳动发布了DeerFlow。 72000+ GitHub星标，9700+复刻，免费，MIT协议。它不像Hermes那样只是运行工具，而是完成整个任务。你给它一个任务，它会规划步骤，启动一组子智能体，编写代码，测试，修复自己的错误，然后在自己的沙盒中把成品交给你。研究、完整网站、仪表板、幻灯片、报告，全部完成，不是草稿。完整的新手安装：最简便的方式（如果你使用Claude Code、Cursor或Codex）：把这段粘贴给你的智能体，它会自动为你安装所有东西： “克隆deerflow并使用手动方式（大约5分钟）： 1. 安装基础工具：git、docker、node 22+、uv、pnpm（deerflow的“make check”会标记任何缺失项） 2. 克隆仓库： git clone cd deer-flow 3. 运行设置向导： make setup 它会询问你选择哪个模型并保存你的密钥。指向openrouter、groq或nvidia nim可免费运行。 4. 检查是否正常： make doctor 5. 使用docker启动： make docker-init make docker-start 6. 在浏览器中打开并分配你的第一个任务。下面这部分可能会引发争论： Hermes是OpenRouter上最常用的智能体（每天2240亿token），我也一直全力使用它。但Hermes运行你的工具，而DeerFlow从头到尾执行你的整个项目。我实际上很想切换，这出乎我的意料。那么现在哪个更胜一筹？ - Hermes：美国出身，轻量级，存在于你的笔记本电脑上 - DeerFlow：中国出身，字节跳动的实力，能替代整个团队收藏起来，你们平时都在用哪个智能体？

显示更多

0

3

8

2

转发到社区

TGweb3@TGweb3333

2026.06.20 11:50

🚨突发重磅消息！国内全新AI工具火出圈了！字节重磅推出全天候在岗的AI员工DeerFlow，而且全程完全开源、免费可用！它和普通AI完全不是一个赛道。不同于大家常见的聊天机器人，也不是只能辅助操作的AI副驾，DeerFlow是一个拥有独立工作能力的AI工作者，所有操作都可以在你的本地电脑上独立完成。不管是资料调研、手写代码、搭建网站、制作PPT，还是生成视频、落地各类复杂任务，它全都能独立搞定，全程无需人工插手。它的硬核能力，彻底颠覆传统AI体验 1. 自主规划任务，多智能体并行干活接到指令后，它会先梳理完整执行方案，同时启动多个专项AI分身，多线程同步推进工作，效率直接拉满。 2. 代码全流程自主落地从编写代码、运行测试、排查报错到自动修复，全程自主循环操作，不用我们反复修改调试。 3. 从零落地各类成品内容可以独立搭建网站、撰写完整报告、制作数据看板、排版演示文稿，直接交付成品，不是半成品草稿。 4. 越用越懂你，持续进化会主动记住你的使用习惯、工作偏好，随着使用次数变多，工作效果会越来越贴合你的需求。 5. 本地文件通读，直接交付终稿支持读取你电脑本地各类文件素材，整合信息后直接输出完整成品，不用二次加工。 6. 联网检索+工具联动自带全网搜索、终端指令运行、第三方工具调用能力，工作场景完全不受限。它的工作逻辑特别清晰：一句简单指令 → 主AI梳理整体方案 → 多个专项AI分头同步执行工作 → 整合所有工作成果 → 直接交付完整可用的成品。哪怕你人不在电脑前、睡觉休息时，它也能同时开启数十个工作任务，全天候自动运转。 DeerFlow 2.0 全新重构升级最让人惊喜的是，本次上线的DeerFlow 2.0是彻底从零重构的全新版本。官方根据海量用户的实际使用反馈，推翻旧版架构，针对性优化升级，适配更多复杂工作场景。目前这款工具的数据已经相当炸裂： ✅ GitHub标星突破22.7K ✅ 项目分支复刻超2.7K ✅ 登顶GitHub趋势榜热度第一 ✅ 字节跳动官方研发打造 ✅ 全程MIT协议100%开源免费说白了，AI的时代已经彻底变了。以前的AI，只能帮我们答疑解惑、提供思路；现在的DeerFlow，能代替我们实实在在干活、落地完整工作。全自动AI打工的时代，真的来了。

显示更多

0

2

27

5

转发到社区

阑夕@foxshuo

2026.05.26 10:41

前几天在新浪的「赛博对话」录了一期视频播客，话题是大模型厂商怎么就从烧钱走到了赚钱的转折点，主持人是高飞，嘉宾是庄明浩和我。其实最开始是想聊豆包收费这件事情，我和庄明浩还在私下嘀咕，豆包传出付费方案的消息是在月初，早就不是热点了，实在是过了蹭的时机，但如果放大到AI这门生意终于迈过了亏本赚吆喝的那条线，就没问题了，这是一个相当长效的题材。省流版总结如下： - 根据黄仁勋提出的五层蛋糕理论，应用层虽然是直接和终端用户打交道的，但它也是整个产业结构里盈利压力最大的那个，毕竟上面四层都是供给逻辑，有货就不愁卖，唯有应用层是需要竞争流量的，在这个前提下，收费堪比拔鹅毛但又不让鹅叫唤的艺术； - 豆包当初传出收费消息被猛带了一波节奏，很多人以为从此就没法免费使用豆包了，无论是从中国互联网的历史来看，还是ChatGPT作为先例的样板，收费模式必然是增值服务，大家现在怎么用豆包的还是怎么用，然后一些旗舰级的能力就只会放在会员方案里予取予求； - 再就是国内用户对于为产品功能买单这件事情极其抵触的特有生态，之前北京车展，The Information的记者过来跑了一圈新势力，发现它们的出海计划里都会把车机功能当作付费点，但在中国市场完全没有这个想法，负责人的解释也是很直白无奈，「中国人不会为软件付钱」； - 庄明浩和我都觉得豆包在绝对领先的地位上开启收费尝试是很有意义的，这点钱对于字节的CapEx来说无异于杯水车薪，但整个消费观念的转变很重要，甚至我相信千问元宝都会感谢豆包，否则都被卡死在给全国人民做公益这个沼泽里，「你不收，我怎么收？我不收，耿专员怎么收？大伙怎么进步啊？」 - 再就是豆包的定价梯度可能比较意外，或者说整个AI应用的订阅门槛都是偏高的，长视频平台还在10块钱、20块钱一个月的留人时，豆包的最低档会员就是68块钱一个月了，像是Kimi也是49块钱一个月的起价，越过了30块钱一个月这个标准； - 30块钱一个月就是手游里的月卡，再往上才是大月卡，即通行证/战令，这一档的定价通常从68块钱到98块钱一个月不等，至于豆包计划里最贵的500块钱一个月套餐，相当于一单648的8折价，是不是也很容易理解了； - 马化腾在财报会议上也专门讲了中国用户在2C市场的付费转化率不太高这个点，要知道腾讯已经是最能从用户口袋里掏钱的互联网公司了，它都这么为难，叠加年年喊崛起年年也没能支棱起来的SaaS，模型下游的商业循环在国内实在需要一点乐观趋势，要知道智谱、MiniMax、月之暗面本质上是出海赚美金的公司； - 对于收入能够保持同步增长的公司而言，CapEx其实不是问题，从谷歌Q1财报来看，营收1000亿美金出头，利润差不多600亿，毛利率比纯卖广告的Meta还高，所以烧钱有什么问题呢，烧不出回报才是问题，马化腾说以为上船了但发现船是漏的，就是这个意思； - 中国互联网除游戏外的订阅制付费上限，单产品差不多在1.3亿的水平线，爱优腾和QQ音乐在巅峰期都没能超过这个阈值，我个人不太相信AI应用可以创造例外论，但是抛开订阅不谈，被越炒越火的各种Token套餐如果真的普遍化了，搞不好还真能带来变数； - 其实模型厂商也倾向于按量计费的买卖，订阅制的商业模式就像健身房，赚的是那些开了卡但不经常来的客人的钱，如果大家都用满，在这么一个不太存在规模效应——用户越多，越容易摊薄成本——的行业，AI应用很容易成为一个失血点而非造血器，所以庄明浩看到了一个怀旧服的可能性出现； - 也就是各大运营商开始力推的Token包，这跟当年的流量包不能说是一模一样，只能说是完全一样，所以如果运营商能够成为一个分销Token的角色，像大王卡那样，用Token包去覆盖一些模型的用量，再去后端完成分账，这个故事是完全说得通的； - 不过，无论是订阅制还是卖Token，模型能力都是撬动市场的第一要素，就像GPT-Image-2出来之后所有代开会员的第三方价格全数涨价，以及「六小虎」里把编程套餐卖断货的行情，都说明生产力需求是可以无视价格敏感的； - 但我总觉得豆包的收费不会走生产力路线，豆包大模型可以有生产力市场的目标，比如配合Trae去打，豆包App却未必要这么把路走窄，它的人格化和陪伴性其实是可以在情绪价值市场做出更多可能性的，就像我看有数据显示开源模型超过半数以上的Token消耗用在了角色扮演上，这里的经济价值是被低估了的； - 高飞和庄明浩认为模型厂商还有一个创收机会，就是转移支付，借着全民AI这个热潮，去让市政单位、高校学府来买单，比如某个市的行政区，去给市民提供常态化的Token额度，或者大学对标自己和知网签年框的方式，让师生享有最基础的Token套餐，用财政预算去替大家消费AI； - 总的来看，头部的模型厂商基本不再担心会倒闭了，包括已经上市的财务数据都摊开了，一个基本事实是，如果不算预训练，毛利率都能是打正的，同时预训练的成本增加是一个线性的，而收入的增加是指数级的，所以Anthropic、OpenAI这种烧钱大户都预计能在2030年甚至2028年就实现正现金流，这个速度比亚马逊当年都要快得多； - 庄明浩说做上游投资的现在是在焦虑物理极限，什么意思呢，就是会不会说，地球上的铜不够用了⋯⋯包括要去太空建数据中心，也是因为缺算力缺成了连力大砖飞都搞不定的事情，光有钱没用啊，你得有地方花出去，全世界的工业品暴涨，核心原因就是产能跟不上，需求侧在竞价锁单； - 中美大模型的发展差异在于，美国是在追求速胜，一波钱砸下去，掉队的、认输的马上就出来了，集中度很高，「御三家」就是这么高速洗牌洗出来的，中国因为相对慢一些，同时大家对成本更谨慎，所以能有更多的玩家不下牌桌，赚钱的难度也会高一些，这是充分竞争的经济学理论； - 庄明浩举了Seedance 2.0的例子，按理来说这场仗就应该打完了，你不可能怀疑字节在视频模型身上的决心和疯狂，但实际上呢，快手的可灵、阿里的Wan和Happy Horse、MiniMax的海螺都是该怎么继续还是怎么继续，后面还跟着HiDream、Vidu、Pixverse、SkyReels一长串名字，它们甚至都能拿到融资； - 中国互联网的缠斗传统，加上大盘上涨的规律，意味着你可以不是吃到肉的那个人，跟着喝汤一样能够保存希望，而且AI行业的标的天然优于非AI行业，这种「种族优势」，决定了「投AI总比投别的强」的底层逻辑，于是纷纷续命，等对手犯错，等轮到自己，等一切可能性； - 还是用那五层蛋糕的比方来说，美国是标准的纺锤结构，稀缺性最高的英伟达在中间赚得盆满钵满，中国则更偏向于柱状结构，在产业指导的作用下，不会有哪一层特别明显的去吸整条上下游的血，所以这个蛋糕必然不会跟太平洋对面一样甜，一个人走得快，一群人走得远嘛； - 最后还有一个变数是硬件，庄明浩说，美国做硬件的Startup，拿到钱后的第一件事就是飞深圳，跟逛迪士尼乐园似的，什么梦想都能找到供应商，为什么一级市场那么喜欢投大疆、追觅、影石出来的人，就是因为他们有从0到1的经验，可以复用到AI这一波，难道文曲星和背背佳就不算应用了么，对吧； - 高飞说得很有意思，AI用的东西，都在涨价和赚钱，比如能源、光纤、芯片这些，只有人用的东西，是在通缩和亏损，那么AI应用赚钱很难就说得通了，因为这是给人用的，人类不争气啊，碳基世界完蛋了，哈哈哈哈； - 所以，虽然这话可能有政治不正确的嫌疑，但判断AI是否真正产生了价值的标准，就是企业有没有在大规模裁员......是的，AI替代人类很残酷，但这起码说明AI可以产生真实的经济效益，反倒是喊着AI改变一切，却凡事仍要人类亲力亲为，才是真的有问题。

显示更多

0

27

84

13

转发到社区

外汇交易员@fxtrader

2026.05.26 07:54

杰富瑞：中国开源AI模型与美国领先闭源模型差距约为3至6个月。AI价值链中的价值将流向那些拥有专有数据、深度工作流整合能力以及范式突破能力的企业。在其投资者日活动期间，两位AI专家认为，美国仍在前沿模型能力方面保持领先，中国的优势则在于工程化落地能力、丰富的应用场景与数据、开源生态体系，以及充足且低成本的电力供应。专家估计，中国开源模型与美国领先闭源模型之间的差距仅约为3至6个月。字节跳动、腾讯和阿里巴巴等大型互联网平台在消费者流量入口方面具有优势，而独立AI公司则在海外市场和企业垂直领域更具竞争力。一位专家则更看好独立AI公司的创新能力，认为大型互联网企业受到内部竞争以及传统互联网运营模式的制约。总体而言，两位专家目前均未看到明显的“赢家通吃”格局。最终的领先者将是那些能够结合顶级技术人才、强大工程执行能力、专有数据飞轮以及深度场景整合能力的公司。

显示更多

0

24

80

8

转发到社区

karminski-牙医@karminski3

2026.05.18 23:00

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance# #全模态模型#

显示更多