2026.06.26 12:55

🚨阿里巴巴发布实时视频语音模型：Wan Streamer 这不是普通数字人。它更像是让你和 AI 打一通“实时视频电话”：你说话，它看着你听。你打断，它能接住。你表情变了，它也能反应。半秒内接话，几乎没有冷场。真正的重点是：以前虚拟人是拼流水线：语音识别 → 转文字 → 大模型思考 → 语音合成 → 表情驱动 → 视频生成每一步都要排队，所以延迟高、互动僵硬。 Wan Streamer 直接把听、看、想、说、表情生成，塞进一个端到端大模型里。一个 Transformer 直接处理实时音视频交互。模型端响应约 0.2 秒，整体延迟约 0.55 秒。这意味着 AI 不再只是“回复你”，而是开始像一个能实时交流的视频对象。

显示更多