Gemini 3.5 Flash ahora puede ver y controlar su pantalla, y Google quiere que las empresas confíen en él

TL; DR
Computer Usage es ahora una herramienta integrada en Gemini 3.5 Flash, que reemplaza el modelo independiente Gemini 2.5 Computer Usage con Enterprise Security.
Google utilizó la computadora como una herramienta integrada dentro de Gemini 3.5 Flash, el modelo que presentó en I/O 2026 como su modelo de IA agente más rápido. La capacidad, que permite a los agentes de IA ver, hacer clic, escribir y desplazarse por las pantallas a través de navegadores, dispositivos móviles y computadoras de escritorio, anteriormente requería un modelo independiente y ahora está disponible como una herramienta nativa a través de Gemini API y Gemini Enterprise Agent Platform, la versión recientemente renombrada de Vertex AI.
La actualización significa que los desarrolladores ya no necesitan llamar a modelos de uso de computadoras dedicados para crear agentes que interactúen con interfaces gráficas. En cambio, pueden permitir la ejecución de código, la búsqueda y la llamada de funciones, así como el uso de la computadora como una de varias herramientas dentro de Flash. El gerente de producto Mateo Quirós describe esta integración como darle a Flash la capacidad de ver, razonar y actuar en la pantalla.
Google lanzó por primera vez un modelo de uso de computadora Gemini independiente en octubre de 2025, diseñado específicamente para flujos de trabajo de agentes basados en navegador. El modelo logró aproximadamente un 70 por ciento de precisión en el punto de referencia Online-Mind2Web y se construyó alrededor de un bucle de acción de captura de pantalla donde los desarrolladores le proporcionaron una captura de pantalla, recibieron un comando estructurado, lo ejecutaron y enviaron la vista actualizada. Las capacidades de plegado en Flash integran un flujo de trabajo de dos modelos.
El discurso empresarial se centra en la automatización que va más allá de los chatbots. Google dice que la herramienta permite pruebas continuas de software, donde los agentes navegan por las aplicaciones y verifican la funcionalidad sin evaluadores humanos en cada pantalla. Los trabajadores del conocimiento pueden utilizar agentes para completar tareas de navegador de varios pasos, completar formularios, extraer datos de paneles o navegar por herramientas internas.
La arquitectura de seguridad es donde Google traza la línea más marcada. La compañía dijo que aplicó entrenamiento de adversario dirigido específicamente para inyección rápida, ataques en los que instrucciones maliciosas incrustadas en una página web o documento incitan a un agente de IA a realizar acciones no deseadas. La amenaza no es teórica, ya que los investigadores han demostrado repetidamente que los agentes de IA pueden ser manipulados por el contenido que encuentran mientras realizan tareas.
Google ofrece dos protecciones empresariales opcionales además del modelo base. El primero requiere la confirmación explícita del usuario antes de que el agente realice una acción marcada como confidencial o inmutable, como enviar un formulario, realizar una compra o eliminar datos. El segundo detiene automáticamente al agente si detecta un intento de inyección indirecta, deteniendo la ejecución en lugar de arriesgarse a una acción comprometida.
Ambas protecciones son voluntarias, no predeterminadas. Google recomienda un "Defensa en profundidad"Enfoque donde los desarrolladores superponen múltiples protecciones sin depender de un solo mecanismo. La documentación de la compañía reconoce que ninguna protección individual es suficiente por sí sola, un marco contundente que contrasta con un lenguaje de marketing más seguro en torno a otras capacidades de IA.
El panorama competitivo ha cambiado considerablemente desde que Anthropic fue pionero en la categoría. El uso de la computación en la nube por parte de Anthropic funciona en todos los sistemas operativos y puede interactuar con sistemas de archivos, no solo con navegadores, lo que lo hace más versátil para los flujos de trabajo de escritorio. Chrome Enterprise de Google ya agregó funciones de navegación agente a principios de este año, incluida la navegación automática para tareas autónomas de varios pasos.
La nueva integración de Flash extiende esa vista a la pantalla que cualquier agente puede ver fuera de Chrome. OpenAI también ha entrado en el espacio, y ahora tres empresas compiten en diferentes ejes. Para los compradores empresariales, la cuestión no es tanto qué modelo puede hacer clic en un botón sino más bien cuál puede hacerlo de forma segura en un entorno controlado.
A diferencia de los modelos independientes anteriores, Google Update no publicó puntuaciones de referencia para el uso de computadoras con la herramienta Flash incorporada. La compañía no reveló cuántas organizaciones están utilizando las capacidades ni proporcionó estudios de casos con clientes nombrados. Las afirmaciones sobre el entrenamiento aversivo dirigido para inyecciones rápidas se describen en la publicación del blog, pero no están respaldadas por investigaciones publicadas ni por los hallazgos del equipo rojo.
La plataforma Gemini Enterprise Agent, donde está disponible la herramienta, utiliza precios de pago por uso. Flash es uno de los modelos más baratos de la línea de Google, lo que puede hacer que el uso de la computadora sea más accesible para la automatización a gran escala que ejecutar un modelo más pesado. Los beneficios de costos dependen de cuántas acciones requiere el flujo de trabajo típico de un agente y de la frecuencia con la que las barreras de seguridad interrumpen la ejecución para solicitar confirmación.
El uso de computadoras en la IA está todavía en sus inicios. Los modelos pueden navegar por interfaces familiares, pero tienen problemas con ventanas emergentes inesperadas, captchas, contenido cargado dinámicamente y diseños que no han visto antes. La decisión de Google de convertirla en una herramienta integrada en lugar de un modelo independiente indica confianza en que la capacidad está lo suficientemente madura para su disponibilidad general, pero los guardias de seguridad que la han aceptado indican una conciencia igualmente clara de que aún no está lo suficientemente madura como para funcionar sin supervisión.




