一张图生成一个实时回应你的对话视频角色
Runway 推出 Runway Characters
你给它一张参考图,它就能生成一个可以和用户实时说话的视频角色。
• 角色能实时对话,官方称支持 HD、24fps
• 它能看摄像头,也能看屏幕共享
• 声音、性格、开场白可以配置,也能生成或克隆自定义声音
• 可以接文本或 Markdown 知识库,让角色按资料回答
• 可以调用工具,比如高亮网页按钮、滚动页面、打开弹窗,或去后端查订单和库存
• 可以通过 API、React SDK、网页 Widget 接进自己的产品。
你可能觉得,这不就是“数字人”吗。上传一张脸,让它眨眼、张嘴、读稿,过去几年大家已经看过很多。
但 Runway Characters 不是在重复这件事。
它想把视频生成从“等模型出片”,往前推到“现场接话”。
用户不是等一段生成好的视频,而是在和屏幕里的角色说话。这个角色要能听懂你、看见你正在看的东西、按资料回答,还能在产品里做一点动作。
显示更多
兄弟们,今年是CLI 工具爆发之年!!
Google 发布了他们的官方的命令行工具(CLI),可以直接在终端里操作 Drive、Gmail、日历、Sheets、Docs 等等。
- 用 Rust 写的
- 一条命令直接安装安装
- 可以作为 Claude Code 的 Skill 直接接入使用
现在你可以让 AI 帮你直接操作 Google 全家桶...
能接到 Claude Code里,你可以让Claude "帮我查下明天的日程"、"把这个文件传到 Google Drive",它能帮你搞定了。
显示更多
Anthropic 宣布收购西雅图 AI 创业公司 Vercept
Vercept 的产品叫 Vy,一个桌面 AI 助手。它能跟着你学会如何操作电脑...
具体怎么用呢?比如你每天要做一个重复工作:打开浏览器查数据 → 复制到 Excel → 整理格式 → 发邮件给同事。你自己操作一遍,Vy 在旁边"看着",学会了。
这里面最牛的是 Vercept 自研的 VyUI 模型:专门用来"看懂"电脑屏幕上的界面元素(按钮在哪、输入框在哪、菜单怎么打开),然后把你的自然语言指令转化成具体的屏幕操作。
在 UI 理解能力的标准测试中,VyUI 的表现甚至超过了 OpenAI、Google 和 Anthropic 自己的模型。
此次收购Anthropic称:以推进 Claude 的计算机使用能力,估计是为Cowork 大升级做准备。
Vercept 不是什么默默无闻的小团队。
这家公司 2024 年才成立,孵化自大名鼎鼎的 Allen Institute for AI(就是微软联合创始人保罗·艾伦创办的 AI 研究所)。
三位联合创始人 Kiana Ehsani、Luca Weihs 和 Ross Girshick 都是 AI 研究员出身。
显示更多