注册并分享邀请链接,可获得视频播放与邀请奖励。

与「VLM」相关的搜索结果

VLM 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 VLM 的内容
QVAC SDK 0.14.0 is live. This release makes the on-device stack faster on mobile, ships the developer-agent path, and takes local text-to-speech to 31 languages. Main highlights: - OpenCode and OpenClaw. The first official OpenCode plugin, plus a maintained OpenClaw compatibility path, both built on managed mode and qvac serve. Point a coding agent at a local model with far less setup and far fewer surprises. - Brain-computer interface transcription, on the SDK. Take recorded neural signal data and decode it into text, fully on-device, no cloud. Stream it in chunks through a simple API. In 0.14 it runs GPU-accelerated on iOS. - Text to Speech in 31 languages with our Supertonic3 upgrade. VOICE AND SPEECH - Supertonic3 multilingual TTS, 5 languages to 31. - Chatterbox and Supertonic now run on the Android GPU, with lower memory use (especially on iOS), quantized s3gen Chatterbox support, and a fix for Chatterbox occasionally emitting random speech. - Whisper transcription now runs on the iOS GPU. Parakeet runs on the Android GPU, with steadier real-time streaming. VISION AND OCR - VLM multi-tile batching: high-resolution Pan and Scan images are encoded in one pass instead of tile by tile, for faster vision throughput. - OCR on ggml (EasyOCR and DocTR) reaches full speed parity with the onnx path, across Metal, OpenCL, and Vulkan. PLATFORM AND RELIABILITY - Dynamic compute backends on Linux: one build picks the right backend at runtime, and opens the door to ROCm and CUDA support without per-backend builds. - Thinking tokens are kept out of the model context, so reasoning no longer fills the KV cache. SDK 0.14.0 is now leaner and faster to start. Let’s build.
显示更多
I always love them when they're this bouncy
0
496
16.7K
306
转发到社区
Introducing ZeroDex: Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning VLMs know what to do. ZeroDex grounds that reasoning in multi-view 3D, enabling robots to perform dexterous actions. No task-specific demos. No policy fine-tuning.
显示更多
从散乱 learning artifacts 到个人 harness 知识库 火山引擎发布了最新2.1系列模型,Doubao-Seed-2.1-Pro 在 Coding 和 Agent 能力上有明显提升,VLM能力保持领先。 拿到内测机会的我,用它处理了一个很早就想做的场景:在学习 harness 时留下了大量 learning artifacts,包括手写笔记,写好的 x 文章,与 agent 的对话,架构记录,文件很多,结构并不清晰。 于是,用 TRAE Work + Doubao-Seed-2.1-Pro 做了一次完整整理:自动读取材料,归纳主题,按 harness 架构从简单到复杂重新组织,生成一个可持续更新的个人知识库。 这个任务考验 Agent 自动化,长上下文理解,Coding,前端实现和 GUI 验证。整体完成度非常不错,最后的知识库可以按主题联想,查找,继续补充。
显示更多
字节发布了新的豆包大模型 Doubao-Seed-2.1-Pro,我拿它写了几轮代码,帮大家看看实际是什么水平。 一段 prompt,让它做一个完整的产品落地页,hero、桌面 app mockup、价格表、FAQ 全在,一把就跑起来了。 入口很简单:下载 TRAE Work CN(免费),模型选 Doubao-Seed-2.1-Pro。 下面几个案例一个一个说:内容系统产品落地页制作、VLM 界面还原、failing test 自定位自修、3D 小游戏自测自修。
显示更多
0
38
38
2
转发到社区
我用 TRAE Work 测了 豆包 2.1 Pro:视觉还原和前端设计、交互能力,真的超出我的预期了! 字节跳动最新发布的 豆包2.1 系列模型,官方介绍整体在 Coding 和 Agent 能力上有显著提升,VLM 能力保持领先,能力介于 Claude Opus 4.6 和 4.8 之间,这在项目中就很有想象空间了。 在进入正式项目中使用体验之前,先找一个前端设计图还原实现的题目,结合它的 Coding 和 Agent 能力,特别是 VLM 对设计图的布局、设计要素、细节、场景的理解。 我把操作过程录屏,可以看到我让 豆包2.1 参考的设计图,和一句简单的要求,它在执行前,会先思考整个规划和实现过程,然后读取我的设计图、理解它的使用场景和设计细节等,再调用对应最合理的 Skill 来规划整体网页实现逻辑。分步骤实现网页编写后,使用本地预览和视觉验证等来验证实现符合规划预期。 整体实现完成后,输出在视觉还原、交互和技术实现方面的实现细节,可以看出,非常细节,包括设计图中的设计感、布局,甚至不同标题和字体选择,都很贴切,自适应布局也是默认就有且很丝滑。 最让我意外的是,它居然还给每个部分真的配了有实际意义的图,而不只是占位!
显示更多
0
24
17
4
转发到社区
「ローカルAIに向き合う展示会 vol.2」 には、このE資格所持者とイキってる雑魚にバカにされたGoogle公式ブログで紹介されたGemma 4使用のローカルVLMアプリを展示します! よろしくね❤️
显示更多
0
3
236
29
转发到社区
京东最新开源的实时视频视觉语言交互模型:JoyAI-VL-Interaction,让大模型从“一问一答”走向“边看边说” 也就是说它会像人一样“在场”,持续观察视频流,自主判断什么时候说话、什么时候沉默,并实时响应关键事件 在58个真人盲评的实时流式场景中,对豆包胜率77.6%、对Gemini胜率 87.9%,监控预警场景对两个基线均100%胜率 可以用来搭建需要持续观察、自主判断、即时响应的实景AI,比如说安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜等等 核心特点是主动判断非被动回答,它会持续观察视频流,来自主做判断,不是等用户发起问题才开始处理当前画面 比如说,当设置"裁判出示红牌时提醒我",模型就会持续值守画面,在事件发生时自动预警 第二个,它会面向正在发生的视频流即时响应,画面变化时即能响应 前台+后台的分工协作设计,前台模型实时观察视频流,后台大模型/Agent接复杂推理、代码生成、工具调用的重活 后台结果返回后前台自然接回对话,形成前台实时助手+后台智能大脑的协作系统,端侧用小模型持续值守,复杂任务才调用大模型,使得成本和延迟更可控 模型+数据+训练方案+可部署系统全栈开源,各模块可替换,拿去即能用 #JoyAIVLInteraction# #VLM#
显示更多
0
33
50
8
转发到社区