搜索 VLM 相关的推文与用户

2026.06.29 12:22

QVAC SDK 0.14.0 is live. This release makes the on-device stack faster on mobile, ships the developer-agent path, and takes local text-to-speech to 31 languages. Main highlights: - OpenCode and OpenClaw. The first official OpenCode plugin, plus a maintained OpenClaw compatibility path, both built on managed mode and qvac serve. Point a coding agent at a local model with far less setup and far fewer surprises. - Brain-computer interface transcription, on the SDK. Take recorded neural signal data and decode it into text, fully on-device, no cloud. Stream it in chunks through a simple API. In 0.14 it runs GPU-accelerated on iOS. - Text to Speech in 31 languages with our Supertonic3 upgrade. VOICE AND SPEECH - Supertonic3 multilingual TTS, 5 languages to 31. - Chatterbox and Supertonic now run on the Android GPU, with lower memory use (especially on iOS), quantized s3gen Chatterbox support, and a fix for Chatterbox occasionally emitting random speech. - Whisper transcription now runs on the iOS GPU. Parakeet runs on the Android GPU, with steadier real-time streaming. VISION AND OCR - VLM multi-tile batching: high-resolution Pan and Scan images are encoded in one pass instead of tile by tile, for faster vision throughput. - OCR on ggml (EasyOCR and DocTR) reaches full speed parity with the onnx path, across Metal, OpenCL, and Vulkan. PLATFORM AND RELIABILITY - Dynamic compute backends on Linux: one build picks the right backend at runtime, and opens the door to ROCm and CUDA support without per-backend builds. - Thinking tokens are kept out of the model context, so reasoning no longer fills the KV cache. SDK 0.14.0 is now leaner and faster to start. Let’s build.

显示更多

0

1

15

1

转发到社区

Arnos🩸@arnosw77

2026.06.27 20:27

I always love them when they're this bouncy

0

496

16.7K

306

转发到社区

Jisoo Kim@jisooslog

2026.06.25 14:33

Introducing ZeroDex: Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning VLMs know what to do. ZeroDex grounds that reasoning in multi-view 3D, enabling robots to perform dexterous actions. No task-specific demos. No policy fine-tuning.

显示更多

0

1

22

4

转发到社区

马东锡 NLP@dongxi_nlp

2026.06.25 04:27

从散乱 learning artifacts 到个人 harness 知识库火山引擎发布了最新2.1系列模型，Doubao-Seed-2.1-Pro 在 Coding 和 Agent 能力上有明显提升，VLM能力保持领先。拿到内测机会的我，用它处理了一个很早就想做的场景：在学习 harness 时留下了大量 learning artifacts，包括手写笔记，写好的 x 文章，与 agent 的对话，架构记录，文件很多，结构并不清晰。于是，用 TRAE Work + Doubao-Seed-2.1-Pro 做了一次完整整理：自动读取材料，归纳主题，按 harness 架构从简单到复杂重新组织，生成一个可持续更新的个人知识库。这个任务考验 Agent 自动化，长上下文理解，Coding，前端实现和 GUI 验证。整体完成度非常不错，最后的知识库可以按主题联想，查找，继续补充。

显示更多

0

4

14

1

转发到社区

Kevin Ma@kevinma_dev_zh

2026.06.24 15:10

字节发布了新的豆包大模型 Doubao-Seed-2.1-Pro，我拿它写了几轮代码，帮大家看看实际是什么水平。一段 prompt，让它做一个完整的产品落地页，hero、桌面 app mockup、价格表、FAQ 全在，一把就跑起来了。入口很简单：下载 TRAE Work CN（免费），模型选 Doubao-Seed-2.1-Pro。下面几个案例一个一个说：内容系统产品落地页制作、VLM 界面还原、failing test 自定位自修、3D 小游戏自测自修。

显示更多

0

38

2

转发到社区

meng shao@shao__meng

2026.06.24 07:53

我用 TRAE Work 测了豆包 2.1 Pro：视觉还原和前端设计、交互能力，真的超出我的预期了！字节跳动最新发布的豆包2.1 系列模型，官方介绍整体在 Coding 和 Agent 能力上有显著提升，VLM 能力保持领先，能力介于 Claude Opus 4.6 和 4.8 之间，这在项目中就很有想象空间了。在进入正式项目中使用体验之前，先找一个前端设计图还原实现的题目，结合它的 Coding 和 Agent 能力，特别是 VLM 对设计图的布局、设计要素、细节、场景的理解。我把操作过程录屏，可以看到我让豆包2.1 参考的设计图，和一句简单的要求，它在执行前，会先思考整个规划和实现过程，然后读取我的设计图、理解它的使用场景和设计细节等，再调用对应最合理的 Skill 来规划整体网页实现逻辑。分步骤实现网页编写后，使用本地预览和视觉验证等来验证实现符合规划预期。整体实现完成后，输出在视觉还原、交互和技术实现方面的实现细节，可以看出，非常细节，包括设计图中的设计感、布局，甚至不同标题和字体选择，都很贴切，自适应布局也是默认就有且很丝滑。最让我意外的是，它居然还给每个部分真的配了有实际意义的图，而不只是占位！

显示更多

0

24

17

4

转发到社区

ナルC@GOROman

2026.06.23 18:50

「ローカルAIに向き合う展示会 vol.2」には、このE資格所持者とイキってる雑魚にバカにされたGoogle公式ブログで紹介されたGemma 4使用のローカルVLMアプリを展示します！よろしくね❤️

显示更多

0

3

236

29

转发到社区

AIGCLINK@aigclink

2026.06.23 03:11

京东最新开源的实时视频视觉语言交互模型：JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说” 也就是说它会像人一样“在场”，持续观察视频流，自主判断什么时候说话、什么时候沉默，并实时响应关键事件在58个真人盲评的实时流式场景中，对豆包胜率77.6%、对Gemini胜率 87.9%，监控预警场景对两个基线均100%胜率可以用来搭建需要持续观察、自主判断、即时响应的实景AI，比如说安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜等等核心特点是主动判断非被动回答，它会持续观察视频流，来自主做判断，不是等用户发起问题才开始处理当前画面比如说，当设置"裁判出示红牌时提醒我"，模型就会持续值守画面，在事件发生时自动预警第二个，它会面向正在发生的视频流即时响应，画面变化时即能响应前台+后台的分工协作设计，前台模型实时观察视频流，后台大模型/Agent接复杂推理、代码生成、工具调用的重活后台结果返回后前台自然接回对话，形成前台实时助手+后台智能大脑的协作系统，端侧用小模型持续值守，复杂任务才调用大模型，使得成本和延迟更可控模型+数据+训练方案+可部署系统全栈开源，各模块可替换，拿去即能用 #JoyAIVLInteraction# #VLM#

显示更多

0

33

50

8

转发到社区

Liz@blinkx666

2026.06.16 22:05

0

35

2.3K

39

转发到社区

Satya Nadella@satyanadella

2026.06.14 15:33

0

2.7K

38K

7.5K

转发到社区

与「VLM」相关的搜索结果