Así funciona Gaia, el modelo cuya finalidad es evaluar los chatbots de IA Generativa

Fue desarrollada por investigadores de Meta, Hugging Face, AutoGPT y GenAI. Un modelo que lo resuelva al cien por cien podría considerarse inteligencia artificial general (AGI)

Gaia es el nombre de un nuevo punto de referencia de inteligencia artificial que pretende evaluar si los chatbots como ChatGPT pueden demostrar un razonamiento y una competencia similares a los humanos en las tareas cotidianas.

Creado por investigadores de Meta, Hugging Face, AutoGPT y GenAI, el punto de referencia “propone preguntas del mundo real que requieren una serie de habilidades fundamentales como el razonamiento, la gestión multimodal, la navegación web y la competencia general en el uso de herramientas”, escriben los investigadores en un artículo publicado en arXiv.

Índice de temas

Gaia se centra en habilidades similares a las humanas

Según los investigadores, las preguntas de Gaia son “conceptualmente sencillas para los humanos, pero un reto para las IA más avanzadas”. Probaron el punto de referencia con encuestados humanos y GPT-4, y descubrieron que los humanos obtuvieron una puntuación del 92 por ciento, mientras que GPT-4 con plugins solo alcanzó el 15 por ciento.

“Esta notable disparidad en el rendimiento contrasta con la reciente tendencia de los LLM a superar a los humanos en tareas que requieren habilidades profesionales, como derecho o química”, afirma el documento.

En lugar de centrarse en tareas difíciles para los humanos, los investigadores sugieren que los puntos de referencia se centren en tareas que demuestren que un sistema de IA tiene una robustez similar a la del humano medio.

Gaia, 466 preguntas del mundo real con respuestas inequívocas

La metodología Gaia llevó a los investigadores a idear 466 preguntas del mundo real con respuestas únicas. Trescientas respuestas se mantienen en privado para alimentar una clasificación pública de Gaia, mientras que 166 preguntas y respuestas se han dado a conocer como conjuntos de desarrollo.

“Resolver Gaia representaría un hito en la investigación de la IA”, afirmó el autor principal, Grégoire Mialon, de Meta AI.

Immagine che contiene testo, schermata, CarattereDescrizione generata automaticamente

La brecha de rendimiento entre los humanos y la IA

Hasta ahora, la mejor puntuación de Gaia pertenece a GPT-4 con complementos seleccionados manualmente, con un 30 por ciento de precisión. Los creadores del punto de referencia afirman que un sistema que resuelva Gaia podría considerarse una inteligencia artificial general en un plazo de tiempo razonable.

“Las tareas que son difíciles para los humanos no son necesariamente difíciles para los sistemas recientes”, se lee en el documento, que critica la práctica común de poner a prueba las IA en exámenes complejos de matemáticas, ciencias y derecho.

En su lugar, Gaia se centra en preguntas como “¿Qué ciudad acogió el Festival de Eurovisión de 2022 según la página web oficial?” y “¿Cuántas imágenes hay en el último artículo de Lego de Wikipedia sobre 2022?”.

“Creemos que el advenimiento de la Inteligencia Artificial General (IAG) depende de la capacidad de un sistema para mostrar una robustez similar a la del ser humano medio en este tipo de preguntas”, escribieron los investigadores.

Gaia podría influir en el futuro de la IA

El lanzamiento de Gaia representa una nueva y emocionante dirección para la investigación de la IA que podría tener amplias implicaciones. Al centrarse en la pericia similar a la humana en tareas cotidianas, en lugar de en habilidades especializadas, Gaia empuja el campo más allá de los puntos de referencia más estrechos de la IA.

Si los sistemas futuros son capaces de demostrar un sentido común, una adaptabilidad y un razonamiento de nivel humano, tal y como los mide Gaia, podría decirse que han alcanzado la inteligencia artificial general (IAG) en un sentido práctico. Esto podría acelerar la difusión de asistentes, servicios y productos de inteligencia artificial.

Para los investigadores, el camino hacia la AGI aún es largo

Sin embargo, los autores advierten de que los chatbots actuales aún tienen un largo camino por recorrer para resolver Gaia. Su rendimiento muestra las limitaciones actuales en el razonamiento, el uso de herramientas y el manejo de diversas situaciones del mundo real.

A medida que los investigadores aborden el reto Gaia, sus resultados revelarán los progresos realizados para que los sistemas de IA sean más capaces, generales y fiables. Pero los puntos de referencia como Gaia también llevan a pensar en cómo dar forma a la IA en beneficio de la humanidad.

Además de impulsar los avances técnicos, Gaia podría ayudar a guiar la IA en una dirección que haga hincapié en valores humanos compartidos como la empatía, la creatividad y el juicio ético.

Puede consultar las clasificaciones de referencia de GAIA aquí para ver qué LLM de nueva generación obtiene actualmente los mejores resultados en esta evaluación