注册并分享邀请链接,可获得视频播放与邀请奖励。

Vincent | 信号>噪音 (@VincentLogic) “🚨阿里巴巴发布实时视频语音模型:Wan Streamer 这不是普通数字人。 它更像是让你和 A” — TopicDigg

Vincent | 信号>噪音 的个人资料封面
Vincent | 信号>噪音 的头像
Vincent | 信号>噪音
@VincentLogic
信号>噪音 📡 Vincent Logic 每天挖真正好用的GitHub开源项目 专注AI工具 & 开发者效率 高密度干货,Zero fluff
加入 November 2024
380 正在关注    54.8K 粉丝
🚨阿里巴巴发布实时视频语音模型:Wan Streamer 这不是普通数字人。 它更像是让你和 AI 打一通“实时视频电话”: 你说话,它看着你听。 你打断,它能接住。 你表情变了,它也能反应。 半秒内接话,几乎没有冷场。 真正的重点是: 以前虚拟人是拼流水线: 语音识别 → 转文字 → 大模型思考 → 语音合成 → 表情驱动 → 视频生成 每一步都要排队,所以延迟高、互动僵硬。 Wan Streamer 直接把听、看、想、说、表情生成,塞进一个端到端大模型里。 一个 Transformer 直接处理实时音视频交互。 模型端响应约 0.2 秒,整体延迟约 0.55 秒。 这意味着 AI 不再只是“回复你”,而是开始像一个能实时交流的视频对象。
显示更多