简评Google I/O 2026
Gemini Omni:容易被低估的模型。如果你只看现在已发布的Gemini Omni Flash模型,会觉得这个视频模型很垃圾,完全比不上Seedance 2.0,我一开始也是这么觉得的。实际这个模型就不是视频模型,而是any2any的世界模型。
Gemini Omni未来的形态是:支持文本、图片、视频、语音输入,支持输出文本、图片、视频、语音。只是目前发布的版本是输出视频。
你可能会说豆包现在不就支持吗?豆包是有个Agent来调用不同的LLM模型、语音模型、图片模型、视频模型来分别生成对应形式的回复,各个模型是割裂的。世界模型能同时理解和输出所有形态的内容,实现难度要大的多的多。
Gemini 3.5 Flash:Gemini 3.1 Pro的能力,超快的生成速度,比GPT 5.5快4倍。但总体我觉得不行,快不是快,好才是快。Gemini 3.5 Flash就是傻快傻快的。
Antigravity 2.0:跟Codex一模一样了,里面的Gemini 3.5 Flash还要更快,比GPT 5.5快12倍。不过无所谓了,我用Antigravity也只是为了用里面的Opus。
Gemini Spark:实时在线的云端Agent。谷歌给你启用一台云端虚拟机,有Harness环境,在云上可以全天执行任务。你可以认为是给了你一个云端运行的龙虾。
Search in the agentic era:AI时代的搜索,由Gemini 3.5 Flash驱动,支持多模态信息输入来搜索,支持Agent持续监控要搜索的信息,支持生成交互式UI和信息图。人工手动搜索可以变成AI持续监控并推送新消息给你,这个比较有用。交互式UI和信息图如果能做成Claude里的水平,也会改变搜索模式,会影响后面展示的网页的点击人数。
Ask YouTube:搜索YouTube视频,并且能根据你的问题直接跳到视频中相关的时刻,省去了手动拖进度条。有用,自家产品集成AI,其他AI做不到。
Voice-powered Docs Live:语音编辑文档。鸡肋,跟我语音输入法让AI写文档差别不大。
第8代TPU:针对训练和推理场景,分别设计了架构,训练芯片叫TPU 8t,推理芯片叫TPU 8i。顶流芯片,英伟达真正的竞品。
SynthID:AI生成内容的隐水印。AI生成的图片和视频越来越难分别出来,有这个隐水印,把视频和图片发给AI,AI就能告诉这个图片是不是AI生成的。亟需推广,目前OpenAI、Kakao 和 Eleven Labs也开始采用谷歌的SynthID。
显示更多