🚨阿里巴巴发布实时视频语音模型:Wan Streamer
这不是普通数字人。
它更像是让你和 AI 打一通“实时视频电话”:
你说话,它看着你听。
你打断,它能接住。
你表情变了,它也能反应。
半秒内接话,几乎没有冷场。
真正的重点是:
以前虚拟人是拼流水线:
语音识别 → 转文字 → 大模型思考 → 语音合成 → 表情驱动 → 视频生成
每一步都要排队,所以延迟高、互动僵硬。
Wan Streamer 直接把听、看、想、说、表情生成,塞进一个端到端大模型里。
一个 Transformer 直接处理实时音视频交互。
模型端响应约 0.2 秒,整体延迟约 0.55 秒。
这意味着 AI 不再只是“回复你”,而是开始像一个能实时交流的视频对象。
显示更多