OpenAI presentó el O3-mini, pocos días después de la llegada del modelo chino Deepseek-R1 y sus variantes “destiladas”. Se trata del modelo más reciente y accesible de la serie de razonamiento, disponible tanto en ChatGPT como en las API.
Lanzado en diciembre de 2024, amplía los límites de lo que pueden lograr los modelos de menor tamaño, destacándose por su solidez en áreas STEM (ciencia, tecnología, ingeniería y matemáticas), con un desempeño sobresaliente en razonamiento lógico, resolución de problemas matemáticos y codificación. Además, mantiene un bajo costo y baja latencia, características clave que lo posicionan como una alternativa eficiente dentro de la familia de modelos OpenAI O1-mini.
OpenAI o3-mini: tres niveles de «esfuerzo de razonamiento»
Es el primer modelo de razonamiento compacto de OpenAI que incorpora funciones ampliamente demandadas por los desarrolladores, tales como salidas estructuradas y funciones avanzadas de llamadas a mensajes de desarrolladores, lo que lo hace apto para entornos de producción desde su lanzamiento.
Siguiendo la línea de los modelos anteriores, como el O1-mini y el O1-preview, el O3-mini admite transmisión de respuestas (streaming). Sin embargo, introduce una novedad clave: la posibilidad de seleccionar entre tres niveles de «esfuerzo de razonamiento» (bajo, medio y alto), lo que permite a los desarrolladores optimizar el rendimiento según las necesidades específicas de cada caso de uso.
Esta flexibilidad le permite «pensar más» en problemas complejos, priorizando el análisis profundo cuando la situación lo requiere, o favorecer la velocidad cuando la latencia es un factor crítico.
Limitaciones y disponibilidad
Cabe destacar que no admite funcionalidades de visión, por lo que aquellas tareas que requieran razonamiento visual seguirán dependiendo del OpenAI O1.
El modelo estará disponible en las API de finalización de chats, API de asistentes y API por lotes. No obstante, su acceso inicial estará restringido a un grupo selecto de desarrolladores dentro de los niveles de uso de API 3-5.
Por primera vez, un modelo de razonamiento disponible gratuitamente para los usuarios de ChatGPT
Los usuarios de ChatGPT Plus, Team y Pro ya pueden acceder a OpenAI o3-mini, mientras que el acceso empresarial se implementará en febrero.
El modelo o3-mini reemplazará al OpenAI o1-mini en el selector de modelos, ya que ofrece mayores límites de velocidad y menor latencia, lo que lo convierte en una opción ideal para tareas de codificación, STEM y resolución de problemas lógicos.
Como parte de esta actualización, OpenAI triplicará el límite de velocidad para los usuarios de los planes Plus y Team, pasando de 50 mensajes diarios con o1-mini a 150 mensajes por día con o3-mini.
Además, incorpora la capacidad de realizar búsquedas en la web para proporcionar respuestas actualizadas con enlaces a fuentes relevantes. Se trata de un primer prototipo en este sentido.
Los usuarios del plan gratuito pueden probar OpenAI o3-mini seleccionando la opción «Motivo» al redactar un mensaje o regenerando una respuesta. Es la primera vez que un modelo de razonamiento se pone a disposición de los usuarios gratuitos de ChatGPT.
Los usuarios de pago pueden optar por o3-mini-high
Si bien OpenAI o1 sigue siendo el modelo de razonamiento con el conocimiento general más amplio, OpenAI o3-mini ofrece una alternativa especializada para dominios técnicos que requieren mayor precisión y velocidad.
En ChatGPT, o3-mini opera con un esfuerzo de razonamiento medio, lo que equilibra rapidez y exactitud en las respuestas. Todos los usuarios de pago también tendrán la opción de seleccionar o3-mini-high en el selector de modelos. Esta versión, con un nivel de inteligencia superior, requiere un poco más de tiempo para generar respuestas, pero ofrece un desempeño más avanzado.
Los usuarios del plan profesional tendrán acceso ilimitado tanto a o3-mini como a o3-mini-high.
OpenAI o3-mini, optimizado para razonamiento STEM
Al igual que su predecesor, OpenAI o1, el nuevo OpenAI o3-mini fue diseñado para potenciar el razonamiento en disciplinas STEM. Con un esfuerzo de razonamiento medio, iguala el rendimiento de o1 en matemáticas, codificación y ciencias, pero con tiempos de respuesta más ágiles.
Evaluaciones realizadas por expertos demostraron que o3-mini genera respuestas más precisas y claras, con una mayor capacidad de razonamiento en comparación con OpenAI o1-mini. De hecho, los evaluadores prefirieron las respuestas de o3-mini en el 56% de los casos y observaron una reducción del 39% en errores importantes en preguntas complejas del mundo real.
Con un esfuerzo de razonamiento medio, o3-mini alcanza el rendimiento de o1 en algunas de las pruebas más exigentes de razonamiento e inteligencia, tales como:
AIME 2024: Concurso de matemáticas.
GPQA Diamond: Preguntas científicas de nivel doctoral.
FrontierMath: Evaluaciones avanzadas de matemáticas.
Codeforces: Competencias de programación
SWE-Bench: Evaluación de ingeniería de software.
LiveBench: Evaluación de codificación en entornos reales.
Conocimientos generales
Evaluación de preferencias humanas.
Velocidad y rendimiento del modelo
Con un nivel de inteligencia comparable al de OpenAI o1, el modelo OpenAI o3-mini ofrece un rendimiento más rápido y una mayor eficiencia. Además de sus destacadas evaluaciones en STEM, el o3-mini demostraron resultados superiores en otras pruebas matemáticas y de objetividad, incluso en tareas que requieren un nivel medio de razonamiento.
En pruebas A/B, el o3-mini brindó respuestas un 24% más rápidas que el o1-mini, con un tiempo de respuesta promedio de 7,7 segundos, frente a los 10,16 segundos del o1-mini.
Comparación de latencia entre o1-mini y o3-mini (promedio)
Seguridad
Una de las principales técnicas utilizadas para garantizar que el OpenAI o3-mini responda de manera segura es la alineación deliberativa, un método de entrenamiento que permite al modelo considerar las especificaciones de seguridad diseñadas por humanos antes de atender las solicitudes de los usuarios.
Al igual que el OpenAI o1, se comprobó que el o3-mini supera significativamente al GPT-4o en términos de seguridad y resistencia a intentos de “jailbreak“. Antes de su despliegue, el modelo fue sometido a rigurosas evaluaciones de seguridad, utilizando el mismo enfoque de preparación, coordinación externa y protocolos de evaluación que el o1.
Los detalles completos de estas evaluaciones, junto con un análisis exhaustivo de los riesgos potenciales y la efectividad de las medidas de mitigación, están disponibles en la placa de sistema o3-mini.
No se permiten las valoraciones de contenido
Calificaciones de Jailbreak
La respuesta de OpenAI a los modelos de razonamiento «económico» chinos
El lanzamiento de OpenAI o3-mini marca un nuevo avance en la estrategia de la compañía para expandir los límites de la inteligencia artificial de bajo costo. Este modelo continúa la tendencia de reducir el costo del acceso a la IA, con una disminución del 95% en el precio por token desde la introducción de GPT-4, sin comprometer su capacidad de razonamiento a un nivel avanzado.
Con o3-mini, OpenAI busca demostrar que no está en desventaja frente a los gigantes tecnológicos chinos, como DeepSeek y Alibaba, en el desarrollo de modelos de razonamiento compactos y de alto rendimiento. La competencia entre Estados Unidos y China en el ámbito de la inteligencia artificial y los modelos de lenguaje se intensifica cada vez más, reflejando una batalla por el liderazgo tecnológico en este sector clave.