Gorden Sun (@Gorden_Sun) “简评Google I/O 2026 Gemini Omni：容易被低估的模型。如果你只看现在已发布的Gemini”

2026.05.20 07:36

简评Google I/O 2026 Gemini Omni：容易被低估的模型。如果你只看现在已发布的Gemini Omni Flash模型，会觉得这个视频模型很垃圾，完全比不上Seedance 2.0，我一开始也是这么觉得的。实际这个模型就不是视频模型，而是any2any的世界模型。 Gemini Omni未来的形态是：支持文本、图片、视频、语音输入，支持输出文本、图片、视频、语音。只是目前发布的版本是输出视频。你可能会说豆包现在不就支持吗？豆包是有个Agent来调用不同的LLM模型、语音模型、图片模型、视频模型来分别生成对应形式的回复，各个模型是割裂的。世界模型能同时理解和输出所有形态的内容，实现难度要大的多的多。 Gemini 3.5 Flash：Gemini 3.1 Pro的能力，超快的生成速度，比GPT 5.5快4倍。但总体我觉得不行，快不是快，好才是快。Gemini 3.5 Flash就是傻快傻快的。 Antigravity 2.0：跟Codex一模一样了，里面的Gemini 3.5 Flash还要更快，比GPT 5.5快12倍。不过无所谓了，我用Antigravity也只是为了用里面的Opus。 Gemini Spark：实时在线的云端Agent。谷歌给你启用一台云端虚拟机，有Harness环境，在云上可以全天执行任务。你可以认为是给了你一个云端运行的龙虾。 Search in the agentic era：AI时代的搜索，由Gemini 3.5 Flash驱动，支持多模态信息输入来搜索，支持Agent持续监控要搜索的信息，支持生成交互式UI和信息图。人工手动搜索可以变成AI持续监控并推送新消息给你，这个比较有用。交互式UI和信息图如果能做成Claude里的水平，也会改变搜索模式，会影响后面展示的网页的点击人数。 Ask YouTube：搜索YouTube视频，并且能根据你的问题直接跳到视频中相关的时刻，省去了手动拖进度条。有用，自家产品集成AI，其他AI做不到。 Voice-powered Docs Live：语音编辑文档。鸡肋，跟我语音输入法让AI写文档差别不大。第8代TPU：针对训练和推理场景，分别设计了架构，训练芯片叫TPU 8t，推理芯片叫TPU 8i。顶流芯片，英伟达真正的竞品。 SynthID：AI生成内容的隐水印。AI生成的图片和视频越来越难分别出来，有这个隐水印，把视频和图片发给AI，AI就能告诉这个图片是不是AI生成的。亟需推广，目前OpenAI、Kakao 和 Eleven Labs也开始采用谷歌的SynthID。

显示更多