注册并分享邀请链接,可获得视频播放与邀请奖励。

PA13L0 (@Fluyeporlaweb) “ByteDance acaba de abrir el código del agente que controla tu ordenador completo” — TopicDigg

PA13L0 的个人资料封面
PA13L0 的头像
PA13L0
@Fluyeporlaweb
Dev y SEO • Creando activos digitales con IA
加入 June 2018
1.9K 正在关注    23.3K 粉丝
ByteDance acaba de abrir el código del agente que controla tu ordenador completo. 100% local. Solo ve píxeles. Sin APIs externas. Sin que nada salga de tu máquina. Se llama UI-TARS Desktop. 36.4k estrellas. Apache-2.0. Lo que hace que sea diferente a Computer Use de Anthropic o Operator de OpenAI: No inspecciona el DOM. No usa APIs de accesibilidad. No necesita que el software esté preparado para ser automatizado. Hace capturas de pantalla. Entiende lo que ve. Mueve el ratón y escribe. Exactamente como lo haría un humano. Le dices en lenguaje natural lo que quieres hacer y el modelo razona antes de actuar. Reserva el vuelo más barato de Madrid a Lisboa el 15 de julio. Extrae todos los datos de esta hoja de cálculo a CSV. Rellena este formulario con la información del cliente. Lo hace solo. En cualquier app. Sin que esa app tenga ninguna API. ✅ Supera a Claude 3.7 y GPT-4o en benchmarks de control de GUI ✅ Modelo de 7B parámetros que corre en local - sin suscripción, sin servidor ✅ Compatible con Windows, macOS y Linux ✅ CLI + interfaz web incluidas en el mismo paquete ✅ Núcleo construido sobre MCP - conecta herramientas del mundo real sin pegamento extra ✅ Alterna entre segmentación visual y análisis de DOM según la tarea ✅ 38 releases. 1.109 commits. 3.7k forks. La parte que más me ha flipado: No tiene lector de pantalla. No tiene ganchos de accesibilidad. Ve lo que tú ves. Nada más. Y aun así supera a los modelos de las dos empresas de IA más avanzadas del mundo en automatizar interfaces. el enlace 👇
显示更多
0
14
403
71
转发到社区