错怪Gemini Omni了
如果你只看现在已发布的Gemini Omni Flash模型,会觉得这个视频模型很垃圾,完全比不上Seedance 2.0,我一开始也是这么觉得的。实际这个模型就不是视频模型,而是any2any的世界模型。
Gemini Omni未来的形态是:支持文本、图片、视频、语音输入,支持输出文本、图片、视频、语音。只是目前发布的版本是输出视频。
你可能会说豆包现在不就支持吗?豆包是有个Agent来调用不同的LLM模型、语音模型、图片模型、视频模型来分别生成对应形式的回复,各个模型是割裂的。世界模型能同时理解和输出所有形态的内容,实现难度要大的多的多。
显示更多