Especiales

Operator de OpenAI: el inicio de una nueva era en la automatización digital

Operator es uno de los primeros agentes desarrollados por OpenAI y está diseñado para realizar una amplia gama de tareas repetitivas dentro del navegador. Aprendé cómo usarlo, para qué sirve, cuáles son sus limitaciones y sus próximos pasos.

Actualizado el 12 de feb de 2025

Pierluigi Sandonnini

Operator de OpenAI es un agente capaz de realizar tareas en la web de manera autónoma. Con su navegador integrado, puede ver páginas, interactuar con ellas al escribir, hacer clic y desplazarse. Actualmente, se encuentra en una fase de vista previa de búsqueda, lo que significa que tiene algunas limitaciones y evolucionará con el tiempo según los comentarios de los usuarios.

Por ahora, Operator está disponible solo en Estados Unidos para clientes Pro, con un costo de 200 euros mensuales. Esta versión preliminar le permite aprender de la interacción con los usuarios y del ecosistema digital en general, lo que refina sus capacidades con el uso. OpenAI planea expandir el servicio a suscriptores de los planes Plus, Team y Enterprise e integrarlo en ChatGPT en el futuro.

La llegada de Operator de OpenAI marca un punto clave en la evolución de la inteligencia artificial, permitiendo a las empresas y usuarios optimizar tareas digitales con mayor autonomía. Su capacidad de operar interfaces gráficas de forma intuitiva lo acerca a los avances en machine learning y sus aplicaciones, donde la IA aprende y mejora a partir de la experiencia. Asimismo, este agente se alinea con la creciente tendencia de IA generativa y ciberseguridad, un campo que busca equilibrar la innovación con la protección de datos en entornos digitales. La combinación de estas tecnologías está transformando la manera en que interactuamos con la web y redefiniendo el futuro de la automatización inteligente.

Índice de temas

¿Qué es Operator de OpenAI?

Operator es uno de los primeros agentes desarrollados por OpenAI y está diseñado para realizar una amplia gama de tareas repetitivas dentro del navegador. Puede completar formularios, hacer pedidos de comida e incluso crear memes. Su capacidad de utilizar las mismas interfaces con las que interactúan los seres humanos a diario amplía las posibilidades de la inteligencia artificial, lo que permite ahorrar tiempo en actividades cotidianas y brinda nuevas oportunidades a las empresas.

¿Cómo funciona Operator de OpenAI?

Operator de OpenAI se basa en un nuevo modelo llamado Computer-Using Agent (CUA), que combina las habilidades visuales de GPT-4o con razonamiento avanzado basado en aprendizaje reforzado. Esto le permite interactuar con interfaces gráficas (GUI), es decir, los botones, menús y campos de texto que se ven en la pantalla.

El agente puede “ver” la web a través de capturas de pantalla y “actuar” al utilizar el mouse y el teclado. A diferencia de otros sistemas que dependen de integraciones API personalizadas, Operator navega la web como lo haría una persona.

Si encuentra dificultades o comete errores, usa sus habilidades de razonamiento para corregirse. Cuando se atasca en una tarea, devuelve el control al usuario para garantizar una experiencia fluida y colaborativa.

Aunque CUA aún está en una etapa inicial y tiene limitaciones, logró resultados innovadores en WebArena y WebVoyager, dos pruebas de referencia en el uso de navegadores. OpenAI sostiene que Operator supera a herramientas similares de la competencia, como Computer Use de Anthropic (parte del modelo Claude 3.5) y Mariner de DeepMind (Google), basado en Gemini 2.0.

Al igual que estos sistemas, Operator analiza la pantalla, realiza una acción, vuelve a examinar la interfaz y ejecuta otra acción. Este enfoque secuencial le permite operar en la mayoría de los sitios web que una persona común usaría. Además, divide las tareas en pasos más pequeños, y retrocede cuando es necesario para resolver problemas. OpenAI afirma que su entrenamiento es similar al de sus modelos avanzados de razonamiento, como o1 y o3.

El hecho de que OpenAI, Anthropic y Google desarrollen agentes con una visión similar sugiere que la competencia en el ámbito de la inteligencia artificial tiene un nuevo campo de batalla: las pantallas de nuestras computadoras.

“Tradicionalmente, los modelos de IA usaban software a través de API especializadas“, explica Reiichiro Nakano, científico de OpenAI. “Pero eso dejaba fuera a muchas aplicaciones y sitios web. Ahora, con un modelo capaz de interactuar con la misma interfaz que usan los humanos, se abre una nueva gama de posibilidades“.

¿Cómo usar Operator de OpenAI?

Para empezar a usar Operator de OpenAI, simplemente se debe describir la tarea que se quiere realizar y el agente se encargará del resto. En cualquier momento, se puede tomar el control del navegador remoto si se necesita. Además, Operator pedirá que se tome el mando en situaciones que requieran ingresar datos sensibles, como información de pago o resolución de captchas.

Los usuarios pueden personalizar sus flujos de trabajo al agregar instrucciones específicas para ciertos sitios web. Por ejemplo, se pueden configurar preferencias en Booking.com o guardar accesos rápidos para tareas repetitivas en Instacart.

Además, Operator permite realizar varias tareas en simultáneo, como pedir una taza esmaltada en Etsy mientras se reserva un camping en Hipcamp, tal como lo ejemplifica OpenAI.

¿Para qué sirve Operator de OpenAI?

Operator de OpenAI transforma la IA en un participante activo del ecosistema digital, al automatizar tareas y mejorar la eficiencia. Esto no solo beneficia a los usuarios individuales, sino también a las empresas que buscan ofrecer experiencias innovadoras y mejorar sus tasas de conversión.

OpenAI ya colabora con compañías como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack y Uber para garantizar que Operator responda a necesidades reales del mercado sin comprometer estándares de seguridad.

Más allá del ámbito comercial, la IA de OpenAI también tiene potencial para mejorar la accesibilidad y optimizar procesos en el sector público. Por ejemplo, la ciudad de Stockton explora el uso de Operator para facilitar la contratación de servicios municipales.

“A medida que avancemos en esta fase de prueba, podremos identificar formas en que la IA facilite aún más la participación cívica”, señala Jamil Niazi, director de tecnología de la información de Stockton.

En esta primera etapa, Operator fue lanzado a un público limitado con el objetivo de aprender rápidamente y perfeccionar sus habilidades. OpenAI busca lograr un equilibrio entre innovación, confianza y seguridad, y asegurar que su herramienta sea útil tanto para usuarios individuales como para empresas y organismos públicos.

Cómo probó OpenAI a Operator

OpenAI puso a prueba el modelo CUA al compararlo con distintos puntos de referencia de la industria, diseñados para evaluar la capacidad de un agente para realizar tareas en una computadora.

Por ejemplo, en OSWorld—una prueba que mide la capacidad de un agente para combinar archivos PDF o manipular imágenes—el CUA obtuvo una puntuación del 38,1%, frente al 22% del modelo Computer Use. Según el índice WebVoyager, que evalúa la capacidad de navegación en internet, el CUA logró un 87%, Mariner un 83,5% y Computer Use un 56%. Sin embargo, hay que aclarar que Mariner solo puede operar dentro de un navegador, por lo que no participa en OSWorld.

Por ahora, incluso Operator solo puede ejecutar tareas en un navegador. OpenAI planea ampliar las capacidades del CUA en el futuro, y ofrecerá una API para que los desarrolladores puedan crear sus propias aplicaciones. De manera similar, Anthropic lanzó Computer Use en diciembre.

Seguridad y privacidad en Operator de OpenAI

Para garantizar un uso seguro de Operator, OpenAI implementó tres niveles de protección que evitan abusos y aseguran el control del usuario:

Métodos de adquisición: cuando se necesita ingresar información confidencial, como credenciales de inicio de sesión o datos de pago, Operator exige que el usuario tome el control manualmente. En este modo, el sistema no almacena ni filtra la información.
Confirmaciones del usuario: antes de completar acciones clave, como enviar un correo electrónico o procesar un pedido, Operator solicita la aprobación del usuario.
Restricciones de actividad: Operator está programado para rechazar ciertas tareas sensibles, como transacciones bancarias o decisiones críticas, como evaluar solicitudes de empleo.

Además, en sitios especialmente sensibles—como correos electrónicos o plataformas financieras—Operator requiere una supervisión más estricta, lo que permite al usuario revisar sus acciones en detalle.

Protección de la privacidad

La gestión de datos en Operator de OpenAI fue simplificada para mejorar la privacidad del usuario:

Formación de exclusión voluntaria: si se desactiva la opción “Mejorar el modelo para todos” en la configuración de ChatGPT, los datos de Operator no serán utilizados para entrenar modelos.
Gestión de datos transparente: los usuarios pueden eliminar su historial de navegación y cerrar sesión en todos los sitios con un solo clic en la configuración de privacidad. Incluso las conversaciones previas pueden eliminarse fácilmente.

Para evitar engaños o ataques de sitios malintencionados, OpenAI diseñó Operator con defensas avanzadas:

Navegación prudente: el sistema detecta e ignora intentos de inyección de mensajes maliciosos.
Monitoreo constante: un modelo especializado supervisa actividades sospechosas y puede detenerlas si detecta riesgos.
Proceso de detección: los equipos de revisión de OpenAI identifican nuevas amenazas y actualizan las medidas de protección de forma continua.

Si bien Operator está diseñado para rechazar solicitudes malintencionadas y bloquear contenido prohibido, OpenAI también estableció mecanismos de moderación. En caso de infracciones reiteradas, el acceso puede ser revocado, y integraron revisiones adicionales para detectar abusos.

Limitaciones y próximos pasos

Actualmente, Operator sigue en una etapa experimental. Aunque ya puede ejecutar una amplia variedad de tareas, aún enfrenta desafíos con interfaces más complejas, como la creación de presentaciones de diapositivas o la gestión de calendarios. La retroalimentación de los usuarios será clave para mejorar su precisión, confiabilidad y seguridad.

El siguiente paso de OpenAI será exponer el modelo CUA en la API para que los desarrolladores puedan crear sus propios agentes de automatización. A su vez, la compañía continuará la perfección de Operator para gestionar flujos de trabajo más extensos y sofisticados.

Fuente: Ai4business.it, Network Digital360

Prohibida su reproducción total o parcial.