搜索全模态模型相关的推文与用户

2026.05.19 21:47

一图看清 Google I/O 2026 今天的发布！虽然很多内容前几天都 Android Show 预告了，但这次能更系统的看到 Gemini 与 Search、Workspace 还有 XR 硬件生态的融合，以及全模态 Omni 的最新进展，这次主题：从 AI 工具，走向 AI 代理✨ Gemini 模型与代理 - Gemini 3.5 Flash：新快速旗舰模型，已推出（快 4 倍，推理/编码强于 3.1 Pro），作为 Search AI Mode 等默认后端。Gemini 3.5 Pro 预计下月发布； - Gemini Omni：全新多模态模型（视频优先），支持“从任何输入创建任何输出”。可从文本/图片/视频生成或编辑视频，添加特效、角色、改变风格/场景、生成多角度（多代理并行）。已在 Gemini App、Flow 等产品上线。这被 Demis 视为向“创造任何事物”愿景迈进的重要一步！ - Gemini Spark：个人 Agent AI，能在后台主动做事（如规划 Instacart 订单、跨应用自动化）。一个可以在云端 7x24 小时运行的 Agent Harness👀 - Daily Brief（个性化早报）、Gemini for Science（科研辅助：论文追踪、药物发现模拟、天气等）。 Search 大升级 - 全新智能搜索框：更对话式、可扩展，支持创建/管理多个 AI 代理； - Information Agents：后台 24/7 监控网络任务（如股票、房源、球鞋发售），变化时主动通知； - 在搜索结果中集成生成式 UI、小程序/仪表盘等更便捷的用户体验； Workspace 与生产力工具 - Docs Live / Gmail Live / Google Keep：语音自然指令创建/编辑文档、整理收件箱、清理笔记（拉取 Gmail/Drive 等数据）； - Google Pics：全新 AI 图像/设计工具（夏季推出）； - Universal Cart：跨 Search、Gemini、YouTube、Gmail 的代理式购物车，跟踪优惠、价格历史、库存等（夏季推出）。硬件与 Android XR - 智能眼镜（Audio Glasses）：今年秋季推出（与 Samsung 合作，Warby Parker、Gentle Monster 等设计款）。内置摄像头/扬声器，支持 Gemini 私人语音辅助、实时自动化（如通过手机 App 点咖啡、播放音乐），支持 Android 和 iOS； - Project Aura 等更高级 AR 眼镜原型； - Android Halo：管理 AI Agent 的专用界面，将会集成到 Android 系统里！你早晚不需要亲自来使用手机 App，直接问 Gemini 或者通过眼睛这样的穿戴这边就行，估计下个月 WWDC Apple 的 Siri 就是往这个方向改进的🤔

显示更多

0

15

73

20

转发到社区

karminski-牙医@karminski3

2026.05.18 23:00

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance# #全模态模型#

显示更多

0

11

181

18

转发到社区

CryptoMaid加密女仆お嬢様 .edge🦭@maid_crypto

2026.03.19 03:18

小米今天正式发布了MiMo-V2系列旗舰模型，包括 1.MiMo-V2-Pro：总参数超1T（激活42B），专为Agent场景优化，支持1M超长上下文，全球Artificial Analysis排行榜第8、国内第2。 2.MiMo-V2-Omni：全模态基座模型（文本+图像+视频+音频理解），音频理解能力超Gemini 3 Pro。 3.MiMo-V2-TTS：端到端语音合成模型，支持高保真、多语种、自然情感表达。（ai语音说话）相关链接官方API开放平台（接入、定价、文档）：（MiMo-V2-Pro API定价：256K内输入$1/百万tokens、输出$3；1M内输入$2、输出$6。注册后可立即获取Key。）在线体验平台（MiMo Studio，含MiMo Claw Agent演示，直接免费试用MiMo-V2-Pro的Agent能力）：（推荐从这里开始玩，网页端就能体验“养龙虾”式的复杂任务，比如自动生成网站、操控工具等。）初步评测： Artificial Analysis排行榜：MiMo-V2-Pro全球第8（综合智能指数），国内第二（强调性价比最高之一，尤其在< $0.15/百万tokens价位段霸榜。） OpenClaw标准评测（PinchBench & ClawEval）：MiMo-V2-Pro排名全球顶尖（第三，仅次Claude Sonnet 4.6和Opus 4.6）。在无人工干预下，能完成复杂工作流编排、长程规划、精准工具调用。 1M上下文下支撑真实高强度龙虾应用；早期匿名版“Hunter Alpha”在OpenRouter调用量超1T tokens，多日登顶日榜。作如何和OpenClaw结合？ MiMo-V2-Pro就是专为OpenClaw这类Agent框架深度优化的！小米官方已宣布联合OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大框架团队，提供一周限时免费接口支持（全球开发者都能白嫖）。结合方式：直接用MiMo API替换Claude/OpenAI Key（兼容OpenAI SDK格式），在OpenClaw的Scaffold（脚手架）里接入即可。模型针对OpenClaw等框架做了深度SFT + RL强化，工具调用、多步推理、长程规划特别稳。实际表现：在OpenClaw里能一步生成完整网页、自主处理报错/多标签切换、完成选品比价下单、制作短视频等复杂链路，像真人操作浏览器。小米自己的扩展：他们还出了Xiaomi miclaw（手机端类OpenClaw系统级Agent），基于MiMo系列，能直接“动手操作手机”。快速上手建议：去 Claw（内置OpenClaw式演示）；或直接在OpenClaw项目里换API Base为

显示更多

0

3

1

0

转发到社区

阑夕@foxshuo

2026.05.17 06:07

阿里前几天刚发季报，破天荒的第一次披露了模型与应用服务——其实就是MaaS——的经常性年化收入：截至今年3月超过80亿人民币，预计6月达到100亿，年底突破300亿。相当于半年3.75x的增长速度，大概也是基于如此乐观的势头，阿里才会难得的公布这个数字，向资本市场构建叙事。所以你以为我要开始吹阿里了？错了。阿里的AI收入，建立在阿里云这个中国最大的云计算平台上，阿里云拥有现成的客户群体、销售网络和算力资源，用配套升级的方式去叠一层AI服务收入，是很容易的。所以真正要吹的，不是阿里的AI业绩凭什么增长这么快，而是如果连主要靠存量用户增加预算就能做到半年3.75x的增速，那么原生AI公司今年在同样的市场环境下，增速会飙到什么地步？要知道，原生AI公司赚的每一块钱都是从零开始、靠着模型能力兑现而来的，除了更加纯粹的增长之外，因为不必承担其他业务的成本转移，ROI的负担也更小。比如摩根士丹利测算发现MiniMax平均每分钟进账1美金，同时成本低于0.3美金，而行业平均收入只有约0.5美元/分钟，相当于MiniMax仅凭利润就跑赢了大盘。这就是Pure-play的价值，算清楚这笔账，对于理解走向拐点时刻的AI行业，非常重要。在研报里，摩根大通认为中国在2026年的企业端需求，很大概率会复制美国2025年至今的来路，也就是从试点到规模化投入再到AI成为固定支出的三级跳。简而言之，就是Anthropic的那条离谱曲线。 Anthropic创造了AI行业还是商业史上的创收奇迹，300亿美金的经常性年化收入，让它成为了全球瞩目的新王，甚至让OpenAI的股份交易在一级市场失去了吸引力。毫无疑问，Coding是一个回报路径极其明确的赛道，根据The Information的报道，在企业级市场，Anthropic展现了空前强势的定价权，从它用按量计费替换订阅套餐，到上线导致Token费用上涨的分词器，都让企业找不到商量余地，只能拿着超标的账单去找老板加大预算。没办法，品质和稀缺绑在一起，就是硬通货。摩根大通也是这么判断的，在AI行业，拥有强大模型的公司某种程度上可以豁免于成本战争，而且它想进入「下沉市场」的难度，要远低于低价模型打入「高端市场」。但Coding是一个已经实现预期的赛道，下一个大的是什么？目前来看，几天之后的Google I/O大会非常重要，从已经被剧透的Gemini Omni来看，「All In One」的全栈模型要给多模态打翻身仗了。那个教授在黑板上写公式讲课的片段，之所以艳惊四座，是因为它并非简单的视频生成，这个新的Gemini Omni模型同时搞对了三件事：手持粉笔的空间关系、板书撰写的画面关系、推导过程的逻辑关系。更直白的说，这绝对不是三个模型合在一起的结果，而是基座模型已经就在全模态信息上完成了训练，也就是，世界模型的雏形。像是杨立昆、李飞飞这些不属于Transform派别的行业大佬，都对语言模型颇有微词，认为这条路线跑不出真正的世界模型，所以都选择了另辟蹊径，但Google、OpenAI甚至字节跳动都在证明，即使语言模型确实有局限之处，只要坚持Scaling Laws、在同一个基座模型上训练全模态能力，同样能够渐进式的通向世界模型。如果只看Coding的叙事，中国的原生AI公司都在扮演「一个更便宜的Anthropic」，杀成一片红海。但在找出「一个更本土的Google」这件事情上，就会发现阿里、字节和MiniMax都在这么干，只有它们的模型迭代方向与Google完全一致：在一个系统内完成文本理解、图片生成、视频生成和音频输出。王慧文在即刻上说，一家新兴公司的估值，是由相信它的资本定价的，不是不相信它的人定价的，「好吧，这是句废话。」多模态的生成是语言模型理解世界的硬验证信号，且大部分底层能力与核心模型复用，多个模态并不等同于多份研发投入，有限的成本提升，能够极具经济性的帮助AI构建世界，并让每一代模型的更新不断放大效率差，并打开更高的智能上限。我想吹的和期待看到的，其实就是这个。

显示更多

0

8

115

18

转发到社区

Y11@seclink

2026.05.27 03:04

信息差：小米 MiMo（大模型系列）最近确实在大降价，而且是今天（2026年5月27日）正式生效的永久大幅降价！具体情况小米 MiMo 是小米自研的大语言模型系列（MiMo-V2.5 系列等），专注于推理、编程、Agent（智能体）场景，支持多模态。今天官方宣布对 MiMo-V2.5 系列 API 进行永久价格调整，相比之前最高降幅达 99%，同时优化了 Token Plan 订阅套餐。主要变化：按量计费（Pay-as-you-go）：大幅降低单 Token 价格，不再区分输入长度（取消长上下文高倍率），对标 DeepSeek 等低价策略，性价比极高。 Token Plan 订阅套餐：额度大幅增加 5-8 倍（同等价格下用量大增），现有套餐用户额度全量重置（已消耗的也重置），北京时间今天 00:00 生效。其他福利：夜间时段有折扣，TTS（语音）等限时免费，推理优化后效率提升（KV Cache 等技术改进）。

显示更多

0

转发到社区

阑夕@foxshuo

2026.05.22 13:00

前几天跟潘乱和老编辑吃饭，登味超标的开了一下怀旧服，把晚点LatePost在2023年写的「还原字节跳动HR体系」那篇稿子重新讨论了一遍，尤以老编辑的评价甚高——我从来没有见到他这么吹过其他媒体和作者——认为文章的非线性写法非常独特，开创了商业报道的新体裁。我对老编辑说法的理解未必准确，但确实也能察觉到小晚整个团队在文本训练方面的优越性，并不是纯粹的基于材料的写作，有非常坚定的内在逻辑，同时具有工程化的结构和人文化的感性，可以无视时效性。昨天更新的「AI抢人大战，批量制造这个时代的流量明星」也是相当具有代表性的例子，AI研究员如同球星那样被开价和交易早就不是新闻了，市面上的同题作文泛滥成灾，但晚点就是能用信息的再组织写出新意、立意，这很厉害。还是总结一下这篇稿子，对我来说也是一种愉快的练笔： - 在中国，真正能靠个人技能年入过亿的群体，少之又少，以明星艺人为例，在娱乐业最鼎盛的时期，也只有十几个人能够达到这个标准，但在这波大模型热浪里，顶级研究员的身价以史无前例的速度被抬到了以亿为单位的年薪级别，而这批人的总数只有几百人，也就是说，大厂的你争我抢，总盘子其实就这么大，中国最贵的几百号人，就是在这么一个供给严重不足的环境里产生的； - 在ChatGPT发布之后的一年多时间里，因为局势尚不明朗，各家公司投入尚且谨慎，国内AI研究员的收入比较稳定，顶薪也就在百万级人民币，直到2023年底，两家公司打破了「规矩」，一个是DeepSeek开始用高于市场价的扩人，另一个是曾被视为落后半步的字节，通过饱和式投入启动追赶，以2倍薪水涨幅为起价，从月之暗面、阿里、百度、智谱等公司挖人； - 其中标志性的事件是2024年下半年阿里Qwen的核心技术负责人周畅带着竞业协议加入字节，职级从P9跳到4-2（实际上对标P11），千万级人民币的总包，而字节也很快得到了回报，周畅入伙之后，在极短时间内提高了豆包的多模态基模能力，这是抢人大战的关键驱动力，只要找到对的人，就能立竿见影的带来技术进步，事半功倍； - 很重要的是，一个靠谱的Infra专家，最多可以提高50%的算力利用率，考虑到大厂每年几百亿的算力投入，这种效率优化创造的经济收益，要远远胜过那笔薪水开支，一个正确的判断，也能决定模型在几个月内拉开巨大差距，「懂得在哪里划线」的知识价值，变得无比稀缺； - 到了2025年，DeepSeek的爆火让全行业都意识到模型质量的差距本质在于人，于是更多的公司开始加入，推动工资水平继续水涨船高，千万级薪酬包下沉到了普通研究员群体，字节甚至能给应届生开出500万年包，而DeepSeek也把内推奖金提高到了20万，猎头行情更是以月为更新周期，「三月给的价四月就不够用了」； - 但是，当其他大厂都相继启用钞能力后，强如字节也会沦为被掠夺的鱼肉，2025年下半年，腾讯开始盯着字节大模型团队挖人，用的是字节本就很熟悉的方式：工资翻倍，来不来？而且腾讯也兼具策略性，会主攻字节内部面临工资倒挂的老员工，因为位置长期不动，他们没能赶上职级膨胀的春风，于是选择投奔腾讯涨薪的为数不少； - OpenAI的姚顺雨和DeepSeek的郭达雅在前后半年的时间分别拿到过亿年薪加入腾讯和字节——这个数字同时被两家否定了——再次引发行业躁动，两人属于完全不同的样本，姚顺雨是标准的精英路线，从姚班天才到普林斯顿博士，履历辉煌，而郭达雅是完全的本土人才，没有镀金过程，但他们都以极为年轻的年龄，打破了大厂原有的年限体系和汇报关系； - 郭达雅意味着用已有成绩倒推价值也是可以成立的，因为DeepSeek的模型牛逼，所以参与制作这个模型的人同样牛逼，这个逻辑被大厂以实际行动买单了，当郭达雅决定离开DeepSeek时，阿里、腾讯、字节都在第一时间去接触了，包括老板亲自去谈，最后因为字节的投入方向和他的发展预期最吻合，成功签下入职合同； - 骨干的持续流失，给了DeepSeek相当大的压力，梁文锋选择启动融资，给员工手里的期权一个定价机会，对内安抚军心，为了留人，字节设计了豆包虚拟股，以及阳光普照的每人每月最低9万元额外津贴，反倒是已经上市的智谱和MiniMax，因为期权暴涨加上解禁期，不必太操心员工的稳定性； - 横向来看，最近一年里，字节和腾讯的饥渴度是最高的，字节愿意因人设岗，从张一鸣到HR，全都奉行「笼络最聪明的头脑」这一原则，腾讯因为自身的进度原因，被迫成为市场上后出价的那个人，虽然要当冤大头，但对于家大业大的鹅厂储备来说，问题也不大，先去拿字节的offer、再用字节的offer去敲腾讯的门要更多的钱，成了一些研究员的财富密码，有猎头说得很透彻，大厂不怕花钱，是为了把对手能用的人，提前从市面上清掉； - 阿里就比较保守了，Qwen以团队氛围优秀著称，90%的员工都是阿里自己培养的校招生，工作自由度很高，但阿里严格的职级体系，还是对Qwen参与人才争夺制造了障碍，2025年下半年，林俊旸曾让Qwen的研究员主动出去面试，以求得涨薪的机会，避免人才外流，可见有多无奈； - 当给够钱已经不具备稀缺性之后，大厂争取研究员的技巧也开始转向软实力，比如扎克伯格会把Meta想挖的人请到自家别墅吃饭，用「真诚」作为必杀技，张一鸣也会亲自去和自己看上的论文作者见面谈话，Anthropic之所以成为研究员离职率最低的AI公司，是因为它被公认为文化建设独树一帜，老板本身就是一种信仰； - 研究员之间的竞争必然激烈，以前抬高身价的方式是发论文，后来各家公司发现只要发完论文就会让作者接到的猎头电话直线上升，又不太乐意让研究员「抛头露面」了，但是上有政策、下有对策，研究员们也很灵活，不让发论文，那就去上播客、发推特、做小红书，总之就是加强主动「营业」，持续的获取个人流量，确保在需要的时刻能被看见； - 为了对得起高薪待遇，同时防止掉队，这几百个顶级研究员普遍睡眠不足、高压工作，即便没有KPI和OKR，他们也会自己驱动自己，就像从小到大的做题路径，这是天才避免泯然众人的唯一出路，「这个行业最终会变成，前5%的人拿着从前10倍的工资，干着100个人的活。」

显示更多

0

14

72

13

转发到社区

宝玉@dotey

2026.04.17 02:53

Seedance 2.0 API 正式发布了，企业和个人用户现在都能从火山引擎调用。海外市场 BytePlus 同步上线，海外用户终于也可以使用了。定价 46 元每百万 token，纯视频生成大概 1 元 1 秒，按量付费，注册账号就能调用。海外 BytePlus 的具体定价以官网公布为准。 API 真正的价值在于能融入自己的工作流，大幅提升创作效率。过去做一支 AI 视频得串起好几个模型：图生图、图生动画、对口型，每个环节都要抽卡。Seedance 2.0 支持文字、图片、音频、视频四种模态输入，配合火山方舟上一键完成的人脸验证、肖像授权和 1 万多个预置虚拟人像，整条流程可以用代码或者 Agent Skills 自动化串起来，大幅提升创作效率。官方公告中提到了一些实际数据。技术服务商巨日禄接入后，精品 AI 剧综合制作效率提升近 10 倍；九州文化、麦芽传媒这批内容制作方从剧本到剪辑全流程提效 80%-90%，对比传统工艺降本 70%-90%。在广告营销侧，筷子科技用它给头部品牌做多版本营销素材，与光同尘给 OPPO K15 Pro 做的宣发视频 60 小时内播放量破 2000 万。有一点让我意外的是视频生成现在开始应用在具身智能和自动驾驶的数据生成。数十家机器人企业正在用 Seedance 2.0 生成符合物理规律的交互数据，用于机器人作业、室内行走等场景的跨环境泛化训练。自动驾驶公司则用它生成暴雨、大雾、降雪这类极限工况，以及复杂碰撞风险的 corner case 数据，补充实拍难以采集的训练集。宇树科技王兴兴此前在亚布力论坛上表达过类似思路：如果视频生成质量足够好，让模型生成一段机器人在家干活的视频，某种意义上把这个视频对齐到真实机器人上，机器人就能照着干。视频生成模型正在被当作“世界模型”的雏形来用。 Seedance 2.0 API 全面开放，对个人开发者和创业团队来说也是机会，可以借助 API 高效创作 AI 视频，也可以基于 API 开发配套工具，这块未来市场很大，机会还蛮多。 API 调用官方文档可以在火山引擎方舟平台上获取。完整可以看：《Seedance 2.0全面开放API服务》 BytePlus：火山引擎方舟平台：

显示更多

0

29

192

32

转发到社区

阑夕@foxshuo

2026.02.08 07:27

之前有张「中国AI vs 美国AI」的图（图1）很火，就在OpenAI和Anthropic齐发新模型的同时，元宝和千问正在开打红包大战，对比起来讽刺性拉满了。但这个笑话的保质期很短，也不怎么好笑了，因为很快赶上了字节和快手同样先后的发了新一代视频模型，在外网刷屏的程度再次引起洋人对于中国AI实力深不可测的「刻板印象」。所以说钱钟书老爷子写「围城」是有道理的，寰宇就是一个围城，里头的人眼馋外边，外边的人羡慕里头。字节的Seedance 2.0很牛逼，可以说是完全改写了视频生成的方法，而且因为字节这家公司自带的外围声量一直很大，所以虽然发布更晚，评价增长却更快，但快手的Kling 3.0也非常强，我已经烧掉三个号了，保证绝对不是在强行塑造「双星闪耀」的概念。这也和两个模型的路线差异有关，综合能力肯定都要对标视频大模型的Sota、也就是谷歌的Veo模型，但Seedance 2.0更侧重于Sora 2的那套运镜、理解、模仿、转场等效果，极大的利好短视频创作者生态，而Kling 3.0则更偏向于Runway代表的影视化、真实化和工业化的能力，是冲着专业导演和工作室去的。所以博主和用户天然会对Seedance 2.0更有感觉，这没毛病，但我对Kling 3.0的上限期待很高，它真的是在抹平真实和虚拟之间的界限，不过从长期来看，路线差异必然是暂时的，最后大家都会殊途同归，解决抽卡问题的同时，全方位无死角的替代掉现有视频生产管线的一半以上，甚至更多。相比「闷声发大财」的AI Coding，多模态才是AI接近普通人的破圈手段，去年ChatGPT和Gemini的两次「翻倍级」增长（图2），一个是因为GPt-4o的「吉卜力风潮」，一个是基于Nano Banana的降维打击，都是多模态在立功。到了今年，战场开始继续前移，除了Seedance 2.0和Kling 3.0，同样是在这个月，马斯克发布了Grok专有的视频模型Imagine 1.0，谷歌也发布了打掉游戏引擎市值的Genie 3，发现共同点了吗？全，是，视，频。人是视觉动物，所见即所得的信息量，是远超文本和语言的，视频模型以前主要吃亏在能力不足，训练难度居高不下，生成质量良莠不齐，无法形成类似「一键P图」的稳定性玩法，但是到了2026年，这个瓶颈期目测已经快要跨过去了。还记得威尔·史密斯吃意大利面吗？那也不过是两三年前的事情，时间过得很快，也很扁平，技术的进化效率太可怕了。多说几句开头那个对比吧，如果说中国AI公司眼馋Claude Opus 4.6和GPT-5.3-Codex，倒也确实没毛病，但这也不只是纯粹的技术代差，中美的商业环境决定了AI渗透的发力点不一样。表面上看，美国的AI巨头都在发力AI Coding，容易货币化是一回事，再往深了想，Coding自由的终点是什么？是工具、软件甚至系统的零成本化，需要什么让AI去写代码就好了，所以美股里的SaaS赛道突然就崩了。 SaaS是一个积累了快30年的万亿级规模市场，非常适合拿来当作回应「AI投入太大、回报不足」的靶子，想象空间太大了，而大厦将倾的此情此景，实在是有种见证时代的残酷美学。王慧文在即刻上发了一条非常精辟的动态（图3）：「我们曾经以为，中国SaaS会像美国SaaS那么值钱，现在看，美国SaaS会像中国SaaS这么不值钱。」大佬就是大佬，几句话就说到点上了，中国的AI公司在产业化方面有苦难言，尤其是面对美国同行的高歌猛进，原因就在于：你不可能去替代一个不存在的市场，拿走一份不存在的产值，讲述一篇不存在的故事⋯⋯ 但在多模态尤其是视频模型方面，就不是这样了，中国互联网的短视频、直播和创作者生态，是全球领先的，这是真的存在巨大的市场、产值和故事可以被AI接上的，所以字节和快手为视频模型的投入动力，是完全不虚美国大厂的。快手Kling有先发优势，ARR涨得很快，在海外一直处于第一梯队，字节属于后来居上，多模态能力对豆包的留存拉动明显，更不用说GPU储备量是国内大厂里Top级的，真想做成事情，很难不做成。昨晚很多字节的朋友都在转梁汝波和张楠用AI合拍的视频（图4），用来宣传搭载了Seedance 2.0的即梦，张楠的性格搞这个不意外，意外的是梁汝波也配合了，你们很少会看到他给字节的其他产品这么站台。晚点LatePost的稿子里提过，字节内部是期待AI这波能有「下一个抖音」跑出来的，而且是完全用字节的方法去做选择——数据决定地位——也就是说，赛马机制已经启动了，目前至少有三拨势力在争这个「太子」： - 即梦，负责人张楠是把抖音做起来的第一人，她先去剪映，再到即梦，一直是被安放在从0到1的最前线，代表了字节在创业场景下最强的战斗力； - 豆包，所属的Flow团队负责人朱骏是 - 抖音自己，是的，抖音部门也希望「下一个抖音」能由自己孵化出来，而不是假手于人，比如抖音搜索团队做了一个名字就叫AI抖音的App，用户量不大，但占位置的意图很明显；还是那句话，字节这家公司的活力之高和欲望之强，在大厂里真的很少见，丝毫看不到老化的痕迹。最后我还想说，大的在后面，中国AI公司在这个月的重量级发布还没结束，我知道一些但是暂时不能说，等着吧，用心感受这神仙打架的一个月。

显示更多

0

16

220

35

转发到社区

宝玉@dotey

2026.01.21 05:03

Demis Hassabis 达沃斯访谈：比工业革命大 100 倍的变革视频地址： 2026 年 1 月，达沃斯世界经济论坛期间，Bloomberg 主持人 Emily Chang 采访了 Google DeepMind CEO Demis Hassabis。这位诺贝尔奖得主用“每周 100 小时、每年 50 周”描述自己过去几年的工作状态，并给出了一个惊人的判断：AI 带来的变革将是工业革命的 10 倍规模、10 倍速度。这场访谈覆盖了 AI 领域几乎所有热门议题：AGI 时间线、中国竞争、机器人突破、就业冲击、是否应该暂停，以及后稀缺世界的哲学困境。以下是访谈的完整整理。 --- 【1】Google 的势头回归 Emily Chang 开门见山：Gemini 3 发布了，据说 OpenAI 内部宣布了“code red”——Google 是不是找回了状态？【编者注】Gemini 3 Pro 于 2025 年 11 月 18 日发布，是 Google 迄今最强的 AI 模型，在推理、多模态理解和编程能力上均有显著提升。12 月 17 日，Google 又推出了更快更便宜的 Gemini 3 Flash，直接替换 Gemini app 的默认模型。这一系列发布引发了 OpenAI 内部的紧张反应——三年前 ChatGPT 发布时，Google 内部也曾宣布过类似的“code red”。 Hassabis 回应说，过去一年确实是“非常艰苦的一年”，团队付出了巨大努力让模型重新回到最前沿。他特别提到 Gemini 3 和图像生成模型 Imagen 的表现让他们“非常满意”。 “我们也适应了这个新世界——快速发布，把创业公司的能量带到我们所做的事情中。” 当被问到外界是否低估了 Google 时，Hassabis 说他不确定，但 Google 一直具备所有必要的条件。“过去十年，Google 和 DeepMind 加在一起，发明了现代 AI 行业所依赖的大约 90% 的突破性技术。”他列举了 Transformer、AlphaGo、深度强化学习等例子。 “我们有这些不可思议的产品触达数十亿用户——从搜索到邮箱到 Chrome——它们天然适合 AI。只是需要把这一切组织到一起。我们在过去几年做到了，虽然还有很多工作要做，但已经开始看到成果了。” --- 【2】全栈优势能维持多久？ Emily Chang 追问：如果你认为自己有优势，这个优势有多大？能维持多久？ Hassabis 的回答很直接：一切从研究开始。模型的前沿水平是最重要的，这是 Google 和 DeepMind 合并后首先聚焦的方向。 “我认为我们是唯一拥有完整技术栈的组织——从 TPU 和硬件、数据中心、云业务、前沿实验室，到所有这些天然适合 AI 的产品。从第一性原理来看，我们理应做得非常好。而且我认为未来还有很大的提升空间。” --- 【3】AI CEO 的日常：凌晨 1 点到 4 点的深度思考 Emily Chang 说她读到 Hassabis 大部分深度思考都发生在凌晨 1 点到 4 点之间。他确认了这一点。 “你有没有感到舒服过？”她问。 “从来没有。”Hassabis 说，“过去三四年一直是难以置信的高强度。每周 100 小时，每年 50 周，这就是常态。” 他认为这是处于“科技史上可能最激烈的竞争”前沿所必需的。“商业上、科学上，再加上所有关于 AGI 的兴奋……用 AI 加速科学发现一直是我的热情所在。这是我毕生的梦想，我为此工作了一辈子。很难入睡，因为有太多工作要做，同时又有太多激动人心的事情要探索和推进。” --- 【4】机器人：突破时刻还需要 18-24 个月 Emily Chang 提到 Gemini 已经被集成到人形机器人中，问物理世界的“AlphaFold 时刻”是否已经到来。【编者注】2026 年 1 月 5 日，在 CES 展会上，Boston Dynamics、Google DeepMind 和 Hyundai 宣布了一项重大合作。Boston Dynamics 将把 DeepMind 的 Gemini Robotics 基础模型整合到其 Atlas 人形机器人中，首先应用于 Hyundai 的汽车制造工厂。这是 Google 2013 年收购又于 2017 年出售 Boston Dynamics 之后，双方的首次重要合作。 Hassabis 说他过去一年花了大量时间仔细研究机器人领域。“我确实认为我们正处于物理智能突破的临界点。但我仍然认为还需要大约 18 个月到 2 年的时间，需要做更多研究。” 他解释说，Gemini 从一开始就被设计成多模态的，能够理解物理世界，原因之一是可以构建一个存在于眼镜或手机上的通用助手，理解你周围的世界；另一个用途就是机器人。 “那么物理世界的突破时刻会是什么样子？我认为是机器人能够可靠地在现实世界中完成有用的任务。” 他列举了几个阻碍因素。首先是算法还不够稳健，需要比 LLM 更少的数据就能工作。其次，也是让 Hassabis 感触最深的，是硬件问题——特别是机械手。 “当你仔细研究机器人时，你会对人类的手产生一种全新的敬畏。进化设计得太精妙了。要匹配人手的可靠性、力量和灵巧性是非常困难的。” 他提到了与 Boston Dynamics 和 Hyundai 的合作，将在汽车制造领域进行原型测试。“一两年后，我们可能会有一些真正令人印象深刻的展示，然后可以规模化部署。” --- 【5】中国与 DeepSeek：西方反应过度了 Emily Chang 说，一年前 DeepSeek 的出现对西方来说似乎是灾难性的，但现在中国似乎安静了下来。Hassabis 对中国竞争的看法有变化吗？ Hassabis 的回答很坦率：“没有。我一开始就不认为那是灾难性的。我认为西方的反应是大规模过度反应（massive overreaction）。” 他承认 DeepSeek 展示了中国公司的能力，但认为一些说法被夸大了。“关于他们使用的计算量非常少之类的说法被过度夸大了，因为他们依赖了一些西方模型，也在一些领先西方模型的输出上做了微调。所以这不是从零开始的。” 他认为字节跳动可能是中国最有能力的 AI 公司，“可能只落后 6 个月，而不是一两年。” 但 Hassabis 提出了一个关键问题：“到目前为止，中国公司能否超越前沿进行创新，这还有待观察。他们非常擅长追赶前沿，越来越有能力，但我认为他们还没有展示出能够超越前沿进行创新的能力。” --- 【6】AGI 时间线：2030 年 50% 概率，但标准比别人高 Emily Chang 说 Hassabis 帮助定义了 AGI，并且曾表示 2030 年之前有 50% 的概率实现。这个时间线还成立吗？ “是的。”他说。 “AGI 对你来说还是一个有用的目标吗？” Hassabis 说是的，虽然他的时间线比一些同行更长，但那是因为他的标准更高。“我说的是一个系统能够展现人类拥有的所有认知能力。我认为我们距离那还很远。” 他举了科学创造力的例子：“不只是解决一个猜想或科学问题，而是能够首先提出假设或问题。任何科学家都知道，找到正确的问题往往比找到答案困难得多。” 他明确表示当前系统“肯定还不具备这种能力”，未来会有，但不清楚还需要什么。他还提到了“持续学习”（continual learning）——系统需要能够在线学习，超越它们被训练的内容，在现实世界中即时学习。“在我看来，还有相当多的关键能力是缺失的。” --- 【7】AI 对就业的影响：比 Dario Amodei 乐观，但承认冲击终将到来 Emily Chang 提到 Anthropic CEO Dario Amodei 当天早些时候在达沃斯说 AI 可能在 5 年内消灭 50% 的入门级白领工作。Hassabis 同意吗？【编者注】Dario Amodei 在 2025 年 5 月接受 Axios 采访时首次提出这一预测，随后在 60 Minutes 等多个场合重申。他表示 AI 可能导致失业率飙升至 10-20%，并呼吁政府和 AI 公司停止“粉饰”这一风险。 Hassabis 的回答明显更保守：“我的时间线会长得多。” 他承认今年可能会开始看到一些迹象，比如入门级工作或实习的变化，但要实现真正的任务 Agent，需要解决当前 AI 的不一致性问题。 “我称之为‘参差不齐的智能’（jagged intelligence）。当前系统在某些事情上非常好，在其他事情上非常差。如果你想把整个任务委托给一个 agent，而不是像今天这样只是辅助程序，你需要全面的一致性。” 他给出了一个精辟的比喻：“如果它只在 95% 的任务上表现好是不够的。你需要它在整个任务上都表现好，才能真正做到‘发射后不管’。” 但他也承认，这种颠覆终将到来。“在极限情况下，有了 AGI，我认为那会改变整个经济，远远超出就业问题。” 他描绘了一个后稀缺世界的愿景：如果我们正确地构建它，我们将处于一个解决了一些世界根本问题的世界——比如能源。“如果我们用 AI 的帮助解决了聚变之类的问题，新材料……我认为在 AGI 之后 5 到 10 年，我们将处于一个极度富足的世界。那时经济和社会会是什么样子？” --- 【8】转型期的焦虑：10 倍规模、10 倍速度 Emily Chang 说，在到达后稀缺世界之前——如果能到达的话——人们对中间发生的事情有很多焦虑。她提到自己是一位母亲，知道 Hassabis 也有孩子。“你最担心他们什么？你和他们谈些什么？” Hassabis 承认这将是一个颠覆的时代，“就像工业革命一样。也许是 10 倍于工业革命，而且快 10 倍。” Emily Chang 迅速接话：“100 倍。” “是的，100 倍。”Hassabis 说，“但我也是人类创造力的坚定信仰者。我们极其适应性强，因为我们的心智是如此通用。你看看我们周围的现代世界——我们狩猎采集者的心智成功建造了现代文明。” 他认为人类会再次适应，但这次的独特之处在于速度。“通常这样的转变需要一到两代人，但这次的速度和变革的规模都是前所未有的。” 对于年轻人，他的建议是：“我会鼓励他们精通这些新工具，成为这些工具的原生用户。这几乎相当于给他们超能力。” 他以创意艺术为例：“你可能能够做到过去需要 10 个人才能完成的工作。如果你有创业精神，在游戏设计、电影、项目方面有创意，你可能比过去更容易进入这些行业。” --- 【9】是否应该暂停？理想与现实 Emily Chang 问：一些人主张暂停，给监管时间赶上，给社会时间适应。在一个完美的世界里，如果所有公司和国家都暂停，Hassabis 会支持吗？ “我想是的。”他说。他提到这一直是他的梦想。“当我 15 年前创立 DeepMind、25 年前开始从事 AI 工作时，我的路线图是：当我们接近 AGI 这个门槛时刻时，我们可能会以科学的方式合作。” 他描述了一个“AI 版 CERN”的愿景：世界上最优秀的人才聚集在一起，以非常严谨的科学方式完成最后的步骤。“不只是技术专家，还包括哲学家、社会科学家、经济学家，共同思考我们想从这项技术中得到什么，如何以造福全人类的方式利用它。” 【编者注】CERN（欧洲核子研究中心）是全球最大的粒子物理学实验室，由 23 个成员国共同运营，是国际科学合作的典范。但他话锋一转：“不幸的是，这需要国际合作。即使一家公司、一个国家，甚至整个西方决定这样做，除非全世界至少在一些最低标准上达成一致，否则没有用。而现在国际合作有点棘手。” Emily Chang 追问：如果 AGI 在 2030 年到来，而监管还没有到位，我们是否注定会遇到困难？ Hassabis 说他仍然乐观，希望足够多的领先参与者能够沟通并合作，至少在安全和安保协议上。“我们已经与 Anthropic 等公司在这些方面进行了相当密切的合作。” 当被问到是否愿意与 Sam Altman 合作时，Hassabis 说：“可能吧。我和几乎所有领先实验室的领导者关系都相当好。如果风险足够高——我认为每个人在未来 2 到 3 年会更清楚地认识到风险和代价。” --- 【10】Transformer 是死胡同吗？Hassabis 不同意 Emily Chang 提到 Yann LeCun 说他不认为 Transformer 和 LLM 单独能让我们达到 AGI。【编者注】Yann LeCun 是图灵奖得主、Meta 前首席 AI 科学家。他在 2025 年 11 月离开 Meta，创立了一家专注于“世界模型”的新公司。他多次公开称 LLM 是通向人类级智能的“死胡同”，认为它们缺乏对物理世界的理解、缺乏常识和因果关系。 Hassabis 明确表示不同意：“我不同意它们是死胡同，我认为那显然是错的——它们已经如此有用了。” 但他也承认这是一个经验性问题。“我认为有 50% 的概率，仅仅扩展现有方法加上一些调整就足够了。可能足够。” 他认为无论如何都值得这样做，因为即使需要其他东西，“这些 LLM 也将是最终 AGI 系统的一个极其重要的组件。唯一的问题是：它是唯一的组件吗？” 他估计可能还需要一到五个突破，“可能是世界模型——这是 Yann 谈到的，我们也在研究这个，事实上我们拥有目前最好的世界模型 Genie，我直接参与了那个项目，我认为它非常重要。” 【编者注】Genie 是 DeepMind 开发的“世界模型”系列。2025 年 8 月发布的 Genie 3 可以根据文本提示生成可交互的 3D 环境，被 DeepMind 视为通向 AGI 的重要阶梯，并被 TIME 杂志评为 2025 年最佳发明之一。他还提到了持续学习、系统一致性、更好的推理和长期规划等仍然缺失的能力。“从 Google DeepMind 的角度来看，我们在两个方向上都在全力推进——既发明新事物，也扩展现有事物。” --- 【11】“我们从未离开研究时代” Emily Chang 提到 Ilya Sutskever 说“通过扩展和做更大模型来获得改进的时代几乎结束了”。【编者注】Ilya Sutskever 是 OpenAI 联合创始人，于 2024 年离开后创立了 Safe Superintelligence Inc. (SSI)。2025 年 11 月在 Dwarkesh Patel 的播客中，他表示 2012-2020 年是“研究时代”，2020-2025 年是“扩展时代”，现在“又回到了研究时代”。 Hassabis 的回应很有意思：“不，我不同意。他的原话是‘我们又回到了研究时代’。我爱 Ilya，我们是很好的朋友，在很多事情上看法一致，但我的观点是——我们从未离开研究时代。” 他强调 DeepMind 一直在投资研究，拥有“最深厚、最广泛的研究储备”。“如果你看过去十年，Google 和 DeepMind 加在一起发明了大约 90% 的突破性技术——当然最著名的是 Transformer，还有深度强化学习、AlphaGo 等。如果未来需要新的突破，我会押注我们，就像过去一样，会是做出那些突破的人。” --- 【12】奇点来了吗？“太早了” Emily Chang 最后一个“同意还是不同意”的问题：Elon Musk 说我们已经进入了奇点。【编者注】2025 年底至 2026 年初，Elon Musk 在 X 平台上多次发帖称“我们已经进入了奇点”和“2026 年是奇点之年”，引发广泛讨论。他回应的是 Midjourney 创始人 David Holz 关于 AI 工具让他在圣诞假期完成了比过去十年更多编程项目的帖子。 “不，我不同意。我认为那非常过早。”Hassabis 说，“奇点是完全 AGI 到来的另一种说法，我之前解释了为什么我认为我们离那还很远。” 他承认即使 5 年也不算长，但“我认为在我们拥有任何看起来像奇点的东西之前，还有很多工作要做。” --- 【13】Google 的文化与创始人的参与 Emily Chang 问到 Google 内部现在的文化，以及 Larry Page 和 Sergey Brin 的参与程度。 Hassabis 说两位创始人都非常投入。“Larry 更多在战略层面，你会在董事会议上见到他。Sergey 更亲力亲为，参与 Gemini 团队的编码，更多涉及算法细节。” 他说这是一个“对计算机科学来说绝对不可思议的时刻”，科学上、人类历史上都是如此。“当然每个人都想亲身参与其中。” 他描述了自己试图结合多种优势：创业公司快速发布和冒险的能量，大公司的资源，以及长期和探索性研究的空间。“我认为过去一年进展顺利，我们还能做得更好，今年会做得更好。我认为我们的进步轨迹是业内最陡峭的。” --- 【14】为什么应该信任 Google？ Emily Chang 说所有这些公司都在要求我们信任他们，特别是如果监管跟不上技术的话。她直接问：为什么我们应该信任你们？为什么 Google 是最值得信任的地方？ Hassabis 说需要通过行动来判断这些公司，也要看领导者的动机。 “我选择 Google 作为 DeepMind 的归宿有几个原因。主要原因是 Google 的创始人和他们建立 Google 的方式——作为一家科学公司。很多人忘了 Google 本身是 Larry 和 Sergey 的 PhD 项目。所以我对他们感到一种直接的亲近感。” 他还提到了 Google 董事会的构成。“主席 John Hennessy 是图灵奖得主，Frances Arnold 是另一位诺贝尔奖得主。这些在企业董事会中是非常罕见的人物。” 【编者注】John Hennessy 是斯坦福大学前校长，因 RISC 架构获得 2017 年图灵奖。Frances Arnold 因定向进化研究获得 2018 年诺贝尔化学奖。他说这种科学和研究主导的文化意味着“在最高水平做科学意味着真正严谨、深思熟虑，并在任何可能的地方应用科学方法。不只是对技术，也是对你作为一个组织的运营方式。” 最后他提到 Google 的使命。“‘组织世界的信息’——我认为这是一个非常崇高的目标。它与 DeepMind 的使命‘解决智能，然后用它解决一切其他问题’非常契合。这两个使命天然配合——AI 和组织世界的信息天然相关。” --- 【15】后稀缺世界：比经济更担心的是“意义” Emily Chang 问：后稀缺世界，人们不再有工作。Hassabis 在实现所有技术目标后打算做什么？ “我想用它来探索物理学的极限。这是我在学校时最喜欢的科目——那些大问题。现实的本质是什么？意识的本质是什么？费米悖论的答案？时间是什么？引力是什么？” 他说了一句令人印象深刻的话：“我惊讶于更多人不去思考这些巨大的问题。我们只是日复一日地生活，而这些深刻的谜题几乎在向我尖叫——答案是什么？” 他希望用 AI 探索所有这些问题，“也许还有星际旅行，借助新能源和 AI 解锁的材料。” Emily Chang 问：如果我们没有工作，我们还会有意义和目的吗？ Hassabis 回答道：“老实说，这是我比经济问题更担心的事情。我认为经济几乎是一个政治问题——当我们获得所有这些额外的收益和生产力时，我们能否确保它为每个人的利益而分享？我相信这是可以做到的。” “但比这更大的问题是：我们很多人从工作和科学事业中获得的目的和意义，在新世界中我们将如何找到？” 他说我们需要“一些新的伟大哲学家”来帮助思考这个问题。“也许我们会在艺术和探索上变得更加精致，还有极限运动之类的。今天我们做很多不只是为了经济利益的事情，也许未来我们会有这些事情的非常高深的版本。” --- 【16】给年轻人和企业家的建议 Emily Chang 最后问：房间里的每个人都在想他们应该做什么。10 年后，人们关于 AI 最大的错误会是什么？ Hassabis 给出了两条建议。第一条是给年轻一代的：“我们唯一确定的是会有大量的变化。所以在学习技能方面，要准备好‘学会学习’——这是最重要的事情。你能多快适应新情况，用我们拥有的工具吸收新信息。” 第二条是给商业领袖的：“现在有很多领先模型和服务提供商，还会有更多。选择那些你认为正在以正确方式行事的合作伙伴。与那些正在推动变革、以你希望看到的方式对待这项技术的人合作。” 他总结说：“我认为我们可以一起构建那个未来——随着 AI 的到来，一个我们都想要的未来。” --- 【写在最后】这场访谈中，Hassabis 展现了一种独特的气质：既是最前沿竞争的参与者，又试图保持长线思考的清醒。他与几位同行的分歧值得注意：比 Dario Amodei 更保守地估计就业冲击，比 Elon Musk 更审慎地看待奇点，比 Ilya Sutskever 更相信 scaling 仍有价值，比 Yann LeCun 更认可 Transformer 的未来。但他们有一个共识：无论 AGI 是 2030 年还是更早到来，我们可能都没有准备好。Hassabis 想要的“AI 版 CERN”需要国际合作，而他自己也承认“现在国际合作有点棘手”。最后一个细节让我印象深刻。当被问到后稀缺世界的愿景时，这位每周工作 100 小时的 CEO 说他最想做的事情是思考“时间是什么？引力是什么？”——那些“几乎在向我尖叫”的宇宙深层谜题。也许这就是为什么他能在“科技史上最激烈的竞争”中保持某种平静：对他来说，AGI 不是终点，而是探索更大问题的起点。

显示更多

0

14

208

71

转发到社区

杰克船长宏观策略@macrotradecn

2026.01.15 02:37

《能帮你办成400多件事的AI来了，阿里开启了新纪元》1月15日，千问App深度接入支付宝政务服务与“AI付”功能，实现签证、户口等50项民生服务的“一句话办理”，还完成了跨App的服务调度与支付闭环——这不仅是中国第一款真正打通多个App的AI智能体，更印证了唯有阿里具备突破行业壁垒的生态硬实力，腾讯、字节短期内难以复制。 AI智能体的核心价值，在于打破“应用孤岛”实现自主执行，而这需要底层技术、生态资源与商业闭环的三重支撑，恰恰是阿里的独家优势。千问此次并非简单跳转链接，而是Agent级别的深度调用：用户一句“周末去杭州订高性价比行程”，即可触发飞猪查机酒、淘宝选用品、闪购备补给、支付宝完成支付的全流程协同，后台无需用户手动切换任何App，真正实现“一个智能体管理所有服务”。这种能力的背后，是阿里沉淀几十年的生态协同基因——从电商、支付到本地生活，阿里旗下各业务早已实现数据互通与接口标准化，而千问作为“超级大脑”，正是激活这一生态的关键钥匙，目前能够帮用户办理400多件事情。反观腾讯与字节，其布局基因决定了难以突破跨App协同的核心瓶颈。腾讯的AI布局聚焦社交生态，混元大模型虽接入近700个业务，但核心围绕微信、游戏等自有场景，对外生态的开放性不足，且缺乏统一的支付与服务闭环，难以实现跨平台的无缝调度。字节跳动则主打数据驱动与多模态技术，豆包等产品虽覆盖广泛场景，但企业服务生态不完善，缺乏电商、支付等核心执行环节的支撑，更难以撬动外部政务服务资源，只能停留在“问答助手”阶段，无法落地“自主办事”的智能体能力。二者的短板本质上是生态布局的结构性缺失，短期内难以弥补。千问的突破性，更在于攻克了智能体时代的“三道墙”：设备墙、应用墙与接口墙。通过阿里统一的技术中台与数据标准，千问实现了不同App间的协议转换与数据同步；依托支付宝的政务服务资源，打通了政府部门与商业平台的信息壁垒；凭借标准化的API网关，将各业务功能拆解为可自由调用的“乐高积木”。这种从底层基建到上层应用的全栈布局，正是阿里独有的优势——腾讯依赖外部底层技术，字节缺乏完整的服务生态，均无法构建如此全面的协同体系。作为中国首款真正意义上的跨App AI智能体，千问的落地标志着阿里在AI竞赛中实现了维度领先。当其他巨头还在聚焦模型参数与单一场景优化时，阿里已通过生态协同，让AI从“会说话”进化为“能办事”。这不仅是技术创新的胜利，更是生态布局的必然结果——唯有阿里，能将分散的服务资源拧成一股绳，通过千问智能体交付给用户。未来，随着更多场景接入这一生态，千问将持续拓宽智能体的能力边界。而腾讯与字节若想跟上步伐，不仅需要技术迭代，更需重构生态布局与开放理念。但至少目前，阿里千问已凭借独家生态优势，成为中国AI智能体时代的绝对领跑者，其开创的跨App协同模式，将定义未来数字服务的新范式。

显示更多

0

1

24

8

转发到社区

与「全模态模型」相关的搜索结果