搜索多模态Agent 相关的推文与用户

2026.06.19 10:20

简直成精了，AI 能直接操作电脑了，一句指令就能订票订酒店规划路线，没人啥事了……😮 以前AI只能聊天写代码，现在直接能像人一样看屏幕、点鼠标、敲键盘，帮你完成各种电脑操作……这时代真是变了！😱 字节跳动开源了 UI-TARS-desktop（GitHub已 36.9k Star），一个真正的多模态AI电脑操控工具，只需用自然语言下指令，它就能自动截图识别界面，然后精准控制鼠标和键盘执行任务了。👍 你看，如下视频其实就一句指令：我 9 月 1 日到 9 月 6 日在洛杉矶，预算 5000 美元。请帮我在上预订离机场最近的丽思卡尔顿酒店，并为我编制一份交通指南！核心优势： - 支持本地和远程电脑/浏览器/手机控制 - 远程操控无需任何配置，点一下就能用 - 完全本地处理，隐私安全有保障 - 跨平台支持（Windows、macOS、浏览器） - 开源免费使用方法： 1. 下载安装桌面客户端 2. 启动后输入自然语言指令 3. AI自动完成操作并反馈结果一句话：AI 终于从"语言助手"跨越到"行动 Agent"，从陪人聊天走向替人干活，和人操作电脑一毛一样！😄 🔗 GitHub地址：对AI Agent、自动化办公、效率工具感兴趣的同学，这个项目值得重点关注！～ #UITARS# #AI操控电脑# #字节开源# #多模态Agent# #开源工具# #工具分享#

显示更多

0

5

19

4

转发到社区

Y11@seclink

2026.06.03 08:42

冷知识：目前多模态大模型创业的具体落地方向通常有如下方向，如果都不是你感兴趣的话，还是别赶时髦，乖乖回去学AI coding吧： 1. 游戏 AI NPC / 智能体中间件（如端云协同的 OmniNPC，赋能 3D 角色交互与情感叙事） 2. 企业级多模态 Agent（如面向复杂文档、视觉流分析、跨系统 RPA 的智能体） 3. 多模态内容生成与创意工具（如 AI 视频、短剧生成、电商营销图视频设计） 4. 具身智能与机器人控制（如基于多模态物理感知与动作生成的端到端控制系统） 5. 视觉/多模态代码与设计助手（如 UI 截图一键生成高质量代码、交互式产品设计）

显示更多

0

1

转发到社区

karminski-牙医@karminski3

2026.05.18 23:00

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance# #全模态模型#

显示更多

0

11

181

18

转发到社区

Barret李靖@Barret_China

2026.05.18 02:24

现在的 Coding LLM，很擅长处理代码、日志、文档、终端输出，但它们理解的是被描述的世界，而不是真实运行后的世界。开发时就会遇到一种情况，代码逻辑完全正确，然后页面问题一堆，例如字体发虚、间距不协调、响应式布局失效，或者小程序、WebView、浏览器之间表现不一致。这些问题，人一眼就能察觉，但纯语言模型就是不行。这也是当前做软件开发最让人头疼的地方，调细节调到手软，🐶 很多 Agent 会接入 Playwright/Puppeteer/截图分析/OCR/DOM Tree 等能力，相当于在给 LLM 增加了视觉输入，但就算是拿到了截图，它也很难还原真实画面，因为它依然是通过本文的方式来理解这个世界的。产品体验里有大量东西，包括视觉认知、空间感知、交互节奏、动态反馈等，都存在于人的直觉里，滚动、动画、拖拽、手势、页面切换、焦点变化、微交互，这些都不是单张截图能够理解的。最近也看到了一些变化的趋势，多模态 Coding Agent 已经在路上了。下一代 Agent 会越来越像一个真正的软件工程师，它会自己运行页面，观察界面变化，理解视觉问题，修改代码，再重新运行，再继续观察。当前主要还在靠 Harnees 工程手段来弥补这一块。

显示更多

0

30

64

8

转发到社区

DeFi狙击手 | Ai🕊️@bi_9527zx

2026.06.28 12:02

聊最强模型这事本身就挺搞笑的。现在这赛道卷到什么程度？你今天排完名，明天就有人发新版本把你脸打肿。但不排吧，老有人问。行，那就按2026年6月底的情况，综合Arena人类偏好、Intelligence Index、编码、Agent表现这些维度，聊聊我心目中的全球前十。 - （以下排名纯个人看法，别杠，杠就是你对。） 1：Claude Fable 5（Anthropic） Anthropic 6月9号放的Mythos级公开模型。目前Arena人类偏好榜稳坐第一，长时程Agent和复杂推理是真的猛。你要搞那种专家级任务，几小时的深度研究、多步骤自主Agent，这台目前是最靠谱的选择。有一说一，贵是真贵。 - 2：Claude Opus 4.8（Anthropic）觉得Fable 5太激进、不稳定？Opus 4.8就是那个"稳如老狗"的选项。编码、长上下文、复杂Agent工作流，表现极其可靠。很多专业开发者现在的主力机就是这台。怎么说呢，它可能不是每一项都拿第一，但综合可靠性和能力，依然是旗舰中的旗舰。 - 3：GPT-5.5（OpenAI） OpenAI目前最成熟的日常模型。通用能力均衡得一批，工具调用和生态就不用说了，ChatGPT那套东西太完整了。多模态体验也优秀，适合不想折腾、拿来就用的多数人。呃，但实话实说，硬核推理上已经被Anthropic拉开了。 - 4：Gemini 3.1 Pro（Google） Google目前的最强前沿模型。数学推理和多模态（图像、视频）这块是真的硬，研究分析类工作用它很舒服。但Agent能力嘛，还在追。适合需要高准确性的场景，不适合拿来搞花活。 - 5：Qwen3.7 Max（阿里）这是目前中国模型里综合最强的，全球前五没毛病。能力均衡、什么都能干，编程、长任务、日常使用都表现不错。最关键的是性价比杀疯了，价格只有前面那几个美系模型的几分之一。日常主力选它，钱包不疼。 - 6：Kimi K2.6（月之暗面） Moonshot的旗舰。超长上下文是它的杀手锏，多Agent协作也玩得转。你如果经常搞长文档总结、深度研究、复杂工作流，这台绝对是利器。短板？通用场景不如Qwen均衡。 - 7：GLM-5.2（智谱AI）智谱最新一代，编码和Agentic任务是真的有点东西。开源权重版本性能也强，适合自己折腾、做二次开发的玩家。 coding场景下甚至能跟Claude掰掰手腕，不开玩笑。 - 8：DeepSeek V4 Pro（深度求索）极致性价比的代名词。推理和编码能力接近前沿水平，但价格低到离谱。说白了就是"差不多够用，但便宜得要命"。社区里目前最受欢迎的高性能低成本选择，懂的都懂。 - 9：MiniMax M3（MiniMax）效率取向的选手，特定场景下性价比优秀。适合对速度和成本极度敏感的生产环境。不是最强，但该干的活都能干。 - 我的几点观察：美系闭源还是霸着前四，Anthropic和OpenAI目前确实在领先位置。但注意，差距在缩小，不是错觉。中国模型从第五名开始强势插入，Qwen3.7 Max是最均衡的代表。而且在性价比维度上，中国模型（Qwen、DeepSeek、Kimi、GLM）已经可以说是碾压了。很多实际场景能跑到前沿模型80-95%的效果，成本只要几分之一甚至几十分之一。这不叫卷属于降维打击。开源权重这块更不用说，中国模型目前明显领先。 - 如果你问我怎么选：追求极致、预算无限的话：Claude Fable 5 或者 Opus 4.8 。日常主力、讲究性价比：Qwen3.7 Max，闭眼入。重度编程/Agent开发：GLM-5.2 或 DeepSeek V4 Pro 。长文档和分析研究：Kimi K2.6。这个排行保质期时间很短。AI这行现在就是这个节奏，你今天看完明天可能就过时了。实际用起来别死磕一个模型，根据不同任务组合使用才是正道。你目前主力用的是哪个？评论区聊聊。

显示更多

0

41

36

1

转发到社区

DeFi狙击手 | Ai🕊️@bi_9527zx

2026.06.26 12:48

当我们将目光聚焦于昂贵的 Codex 和 Claude Code 时，不妨把视线转回到豆包，其进化成果同样令人瞩目，尤其是全免费的 Seed 2.1 Turbo 大模型。豆包的 Seed 2.1 Turbo 大模型，是字节跳动面向规模化生产场景打造的低成本、低时延版本。它功能齐备，效果比肩 Seed 2.1 Pro，在 Coding 工程交付、Agent 长链路任务执行和多模态理解等方面能力出色。具备较强的自主规划与动态修复能力，可胜任真实研发与高价值生产任务，能满足企业级部署场景中对成本、吞吐与批量调用的需求。用户无需支付额外费用，就能使用这些强大功能，对于广大开发者和企业来说，无疑是极具性价比的选择。我问了我的桌面豆包是否免费，它的回答是付费主要是买更多的月度额度和高峰期优先使用权，生成效果和是否付费无关，和你选择的模型有关。豆包目前已经可以跑电脑本地文件了，而且免费免费。怪不得中国人都称豆包为国民Ai。

显示更多

0

26

23

1

转发到社区

卫斯理@imwsl90

2026.06.25 07:19

架构规划 & 自动化代码编写架构规划：能将一句话需求自动拆解为以下完整步骤：产品设计 → 技术架构 → 技术选型 → 代码编写 → 自动上线对不懂代码的小白非常友好，从零 Vibe 出一个产品并完成上线，全程不需要手动干预。自动化编码： - 整体过程无卡顿、无报错、无反复重试 - 自然语言理解精度高，复杂前端任务也能稳定完成整个项目花了 1 个多小时的时间，在完成这个小项目后我也发现了一些缺点，如下： - 项目的执行速度上比 opus 4.7要慢一点，个人体感上是 10-15% 左右 - 在做 React 项目非常不错，在我的测试任务里面超过了 Opus4.7，不过我在用它优化我的原生 html 项目时，感觉不如 Opus 4.7 如果你在找一款好用、不卡顿的国产 Vibe Coding 模型，尤其是写 React 相关项目，我觉得Doubao-Seed-2.1-Pro 值得一试，我也向我的 AI 学习社群小伙伴们推荐了这个产品。后续我也会在豆包 App 里面体验其通用 Agent 能力和多模态能力，届时再和大家分享。

显示更多

0

转发到社区

卫斯理@imwsl90

2026.06.25 07:19

字节跳动 Seed 于 2026年6月23日正式发布 Doubao-Seed-2.1-Pro 🔗 三大核心亮点： ① Coding 能力大幅提升根据开发者众包盲测对比后，Doubao-Seed-2.1-Pro 以 59.1% 的胜率超过 Claude Opus 4.6，能理解完整代码仓库结构、多文件协同修改，直接交付可运行代码。 ② 通用 Agent 更可靠可稳定完成项目规划、文件处理、工具调用等复杂多步骤任务，手机端操作基准拿下最高分，完成任务平均步数减少 16%。 ③ 多模态持续领先图表、长文档、长视频理解多项基准取得 SOTA，支持小时级长视频分析。在模型正式上线后我第一时间体验了它的 Coding 能力，官方宣称媲美 Claude Opus 4.6、达到生产级标准，想亲眼看看是否名副其实。我用的是字节推出的 Trae Work IDE + Doubao-Seed-2.1-Pro，从前端效果、架构规划、自动化代码编写三个方面进行了体验，结论如下👇

显示更多

0

6

3

2

转发到社区

karminski-牙医@karminski3

2026.06.23 12:53

刚刚 Doubao-Seed-2.1-pro 发布啦! 给大家分享一个自我迭代 Agent 的构建技巧啊, 也是我在今天字节 seed-2.1 模型发布 demo 中用到的技巧. 这个技巧的核心就是, 干一件复杂的事情, 用两个Agent比用一个Agent要好. 简单来讲打工Agent干完活之后, 还要增加一个评审Agent, 这个Agent要给打工Agent的产出评分, 然后说明评分理由, 哪里做得好, 哪里做的不好. 然后, 一定要输出结构化的评分结果(JSON就行), 这样, 打工Agent接到评分后, 进行修改, 修改完毕再次交给评审Agent, 评审Agent再次打分, 这时候就可以跟上次的打分进行对比. 只有得分大于上次的得分, 你的框架才合并这次的修改. 这就是 Agentic 自我迭代了. 基于 AI 反馈的强化学习的雏形基本就是这样的了, 以及吴恩达提出的 Agentic Workflow 核心原则之一就是 Reflection（反思），框架让模型像人类程序员提交 PR一样：打工 Agent 提交 PR，裁判 Agent 跑测试、打分。只有 Review 通过才能 Merge 到主分支。这就是真正的“工程化迭代”了. 甚至我框架内其实就是采用的Git模式, 多个Agent进行并行评估模拟多个分支, 只有打分高的才会合并到主分支. 最终得益于 Seed-2.1 本身的自我迭代和多模态能力也很强, 在它的驱动下, 成功实现了这个【只需要上传一个城市的相册, 就能建模一整个城市】的demo. 相信在现场的同学已经看到这个 demo 了哈哈. 下一期告诉你当这个办法也失效了, 该怎么办☆. #AIAgent# #seed21# #AI自我迭代#

显示更多

0

6

19

0

转发到社区

DeFi狙击手 | Ai🕊️@bi_9527zx

2026.06.23 07:41

大家又爱又恨的豆包又进化了🤣 火山引擎FORCE大会落地：豆包大模型2.1 Pro正式发布，综合性能对标GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro，跻身全球第一梯队。 / 三大核心能力跨过生产级质变点： ①编程：代码评测追平Claude，仓库级生成反超GPT-5.5，可承接芯片RTL设计18小时全流程工程交付 ②Agent：ALE评测超越Claude Opus 4.7，移动端操作能力全球SOTA，支持500个智能体协同作业 ③多模态：视频时序理解大幅领先Gemini，2小时长视频可一站式完成全流程产出定价输入6元/输出30元/百万Token，综合使用成本比海外旗舰低80%，性能追平，价格直接打两折。同期公布Seedance 2.5视频模型、音频大模型1.0即将上线，多模态全家桶就位。 #豆包大模型2#.1 #AI大模型#

显示更多

0

49

56

3

转发到社区

与「多模态Agent」相关的搜索结果