注册并分享邀请链接,可获得视频播放与邀请奖励。

Gorden Sun (@Gorden_Sun) “WanStreamer:阿里通义发布端到端实时交互基础模型,听、看、说、动在一个Transformer” — TopicDigg

Gorden Sun 的个人资料封面
Gorden Sun 的头像
Gorden Sun
@Gorden_Sun
只发AI相关信息,个人维护的AI资讯日报(已连续日更3年)👇
加入 August 2013
1.7K 正在关注    58.8K 粉丝
WanStreamer:阿里通义发布端到端实时交互基础模型,听、看、说、动在一个Transformer里 · 单一Transformer同时建模语言、音频、视频的输入与输出,靠block-causal attention实现增量式流式生成 · 模型侧响应延迟约200ms,叠加350ms网络延迟后总交互延迟约550ms,可支持亚秒级全双工音视频对话 · 当前版本分辨率仅192p,属于验证端到端设计的概念验证,后续可扩展到更高分辨率。未开源。 项目介绍:
显示更多