Gorden Sun (@Gorden_Sun) “错怪Gemini Omni了如果你只看现在已发布的Gemini Omni Flash模型，会觉得这个视频模”

2026.05.20 06:42

错怪Gemini Omni了如果你只看现在已发布的Gemini Omni Flash模型，会觉得这个视频模型很垃圾，完全比不上Seedance 2.0，我一开始也是这么觉得的。实际这个模型就不是视频模型，而是any2any的世界模型。 Gemini Omni未来的形态是：支持文本、图片、视频、语音输入，支持输出文本、图片、视频、语音。只是目前发布的版本是输出视频。你可能会说豆包现在不就支持吗？豆包是有个Agent来调用不同的LLM模型、语音模型、图片模型、视频模型来分别生成对应形式的回复，各个模型是割裂的。世界模型能同时理解和输出所有形态的内容，实现难度要大的多的多。

显示更多