ByteDance acaba de abrir el código del agente que controla tu ordenador completo.
100% local. Solo ve píxeles. Sin APIs externas. Sin que nada salga de tu máquina.
Se llama UI-TARS Desktop. 36.4k estrellas. Apache-2.0.
Lo que hace que sea diferente a Computer Use de Anthropic o Operator de OpenAI:
No inspecciona el DOM. No usa APIs de accesibilidad. No necesita que el software esté preparado para ser automatizado.
Hace capturas de pantalla. Entiende lo que ve. Mueve el ratón y escribe.
Exactamente como lo haría un humano.
Le dices en lenguaje natural lo que quieres hacer y el modelo razona antes de actuar.
Reserva el vuelo más barato de Madrid a Lisboa el 15 de julio.
Extrae todos los datos de esta hoja de cálculo a CSV.
Rellena este formulario con la información del cliente.
Lo hace solo. En cualquier app. Sin que esa app tenga ninguna API.
✅ Supera a Claude 3.7 y GPT-4o en benchmarks de control de GUI
✅ Modelo de 7B parámetros que corre en local - sin suscripción, sin servidor
✅ Compatible con Windows, macOS y Linux
✅ CLI + interfaz web incluidas en el mismo paquete
✅ Núcleo construido sobre MCP - conecta herramientas del mundo real sin pegamento extra
✅ Alterna entre segmentación visual y análisis de DOM según la tarea
✅ 38 releases. 1.109 commits. 3.7k forks.
La parte que más me ha flipado:
No tiene lector de pantalla. No tiene ganchos de accesibilidad.
Ve lo que tú ves. Nada más.
Y aun así supera a los modelos de las dos empresas de IA más avanzadas del mundo en automatizar interfaces.
el enlace 👇
显示更多