El modelo de IA de ‘uso informático’ Gemini 2.5 puede navegar por sitios web de forma autónoma

Google está lanzando una nueva y ambiciosa modelo de IA diseñado para interactuar con Internet de una manera sorprendentemente humana. Llamado Géminis 2.5 Uso de la computadora, esta IA especializada puede navegar por navegadores web, hacer clic en botones, completar formularios e incluso desplazarse por las páginas, todo ello basándose en un simple mensaje de texto. Es un paso importante hacia la creación de agentes de IA que puedan realizar tareas digitales complejas de forma autónoma. El modelo puede ir más allá de simples respuestas de chatbot para interactuar activamente con las interfaces de usuario.

Basado en las capacidades de Gemini 2.5 Pro, este modelo de IA se diferencia por operar dentro de un entorno de navegador virtual. A diferencia de algunos agentes de IA rivales que pueden acceder a un sistema operativo de escritorio completo, el modelo de Google se centra específicamente en interfaces web y móviles. Este enfoque le permite abordar tareas digitales cotidianas que antes requerían intervención humana o integraciones API complejas. Piense en una IA que completa un formulario en línea detallado, navega por un sitio web desordenado o agrega artículos a un carrito de compras según una lista, todo con un mínimo de complicaciones.

El modelo de computadora Gemini 2.5 es el nuevo agente de inteligencia artificial de Google

El núcleo de la computadora Gemini 2.5 El uso se encuentra en un ciclo de retroalimentación iterativo. Cuando un usuario le asigna una tarea a la IA, el modelo primero recibe la solicitud, una captura de pantalla de la pantalla actual y un historial de sus acciones anteriores. Luego procesa esta información y propone una acción de interfaz de usuario específica, como hacer clic en un enlace, escribir texto en un campo o desplazarse hacia abajo. El código del lado del cliente ejecuta la acción, la pantalla se actualiza y se envía una nueva captura de pantalla a la IA. Este ciclo continúa hasta que se completa la tarea original.

Google tiene optimizado este modelo principalmente para navegadores web. Sin embargo, también es prometedor para el control de aplicaciones móviles. Las pruebas internas de Google ya utilizan versiones de este modelo para tareas como pruebas de interfaz de usuario, lo que acelera el desarrollo de software.

Rendimiento y seguridad en el punto de mira

Google afirma que el modelo Gemini 2.5 Computer Use «supera a las principales alternativas en múltiples pruebas web y móviles» con menor latencia. Las demostraciones muestran a la IA manejando de manera competente tareas como jugar al juego 2048 o navegar por sitios web. Curiosamente, pruebas breves incluso muestran que resuelve los CAPTCHA de la Búsqueda de Google, un obstáculo importante para los usuarios no humanos.

Sin embargo, Google es destacando también la seguridad. La empresa es consciente de los riesgos únicos asociados con los agentes de IA que controlan las computadoras. Los malos actores podrían incurrir en un posible uso indebido o incluso podría ocurrir un comportamiento inesperado por parte de la IA. Teniendo esto en cuenta, la empresa ha integrado funciones de seguridad directamente en el modelo. Los desarrolladores también reciben herramientas para evitar que la IA realice acciones de alto riesgo, como comprometer la seguridad del sistema o eludir CAPTCHA sin el permiso explícito del usuario.

Actualmente, Gemini 2.5 Computer Use está disponible para desarrolladores a través de la API Gemini en Google AI Studio y Vertex AI. Todavía no es directamente accesible para los consumidores. Dicho esto, esta tecnología allana el camino para un futuro en el que la IA maneje más de nuestras interacciones digitales rutinarias.

Fuente: Android Headlines

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *