Análisis

Modelo de Lenguaje Grande: el futuro entre el crecimiento ilimitado y los obstáculos

Los modelos lingüísticos de inteligencia artificial son cada vez más grandes y mejores. A la espera del lanzamiento del GPT 5, algunos ven un futuro de crecimiento exponencial, mientras que otros predicen un camino obstaculizado por desafíos importantes.

Publicado el 07 Jun 2024

GPT 5

Hace tan solo 18 meses, el lanzamiento de ChatGPT causó sensación. Hoy en día, sus habilidades se convirtieron en la norma. Desde entonces, muchas empresas, como Anthropic, Google y Meta, presentaron versiones de sus modelos (Claude, Gemini y Llama) que mejoran ChatGPT de varias maneras. Ahora se espera la llegada del GPT 5. Esta sed de novedad no hizo más que acelerarse.

En marzo, Anthropic lanzó Claude 3, que superó a los anteriores modelos de Openai y Google en varias listas. El 9 de abril, Openai recuperó la corona (en algunos parámetros) al modificar su modelo. El 18 de abril, Meta lanzó Llama 3, cuyos primeros resultados sugieren que es el modelo abierto más capaz producido hasta la fecha. Sin embargo, el GPT 5 podría superarlo.

La espera por Chat GPT 5

Es probable que OpenAI cause sensación este año con el lanzamiento del GPT 5, que podría tener capacidades superiores a las de cualquier otro Modelo de Lenguaje Grande (LLM) actual. Según los rumores, la próxima generación de modelos será aún más extraordinaria: podrán realizar tareas de varios pasos. Por ejemplo, en lugar de limitarse a responder solicitudes o analizar preguntas complejas, podrán evaluar con mayor detenimiento en lugar de ofrecer la primera respuesta disponible mediante algoritmos.

Para aquellos que piensan que esto es la habitual exageración tecnológica, consideren lo siguiente: los inversores se toman en serio la idea de apoyar la próxima generación de modelos. Se espera que el entrenamiento de GPT-5 y otros modelos de próxima generación cueste miles de millones de dólares.

GPT 5

La hipótesis de la escalabilidad

También parece que OpenAI está trabajando con Microsoft para construir un nuevo centro de datos de 100 mil millones de dólares. Basándose únicamente en estos números, se podría pensar que el futuro tendrá un crecimiento exponencial ilimitado. Esto está en línea con una visión compartida por muchos investigadores de la IA, conocida como la hipótesis de la escalabilidad, que sugiere que la arquitectura de los LLM actuales está en camino de lograr un progreso fenomenal. Según esta hipótesis, todo lo que se necesita para superar las capacidades humanas son más datos y chips de computadora más potentes.

El cuello de botella de los datos

Sin embargo, si analizamos más de cerca el aspecto técnico, surgen algunos obstáculos. Los datos podrían representar el cuello de botella más inmediato. Epoch AI, un grupo de investigación, estima que el pozo de datos textuales de alta calidad en la Internet pública se agotará en 2026. Esto llevó a los investigadores a buscar nuevas ideas. Algunos laboratorios están recurriendo a la web privada, comprando datos de corredores y sitios de noticias. Otros están explorando las enormes cantidades de datos audiovisuales disponibles en Internet, que podrían utilizarse para entrenar modelos cada vez más grandes durante décadas.

El vídeo puede resultar particularmente útil para enseñar a los modelos de IA la física del mundo que los rodea. Si un modelo puede observar una bola volando por el aire, podría deducir más fácilmente la ecuación matemática que describe su movimiento. Los principales modelos, como el GPT 4 y el Gemini, son ahora “multimodales” y son capaces de gestionar varios tipos de datos. Cuando los datos ya no se pueden encontrar, se pueden crear.

Empresas como Scale.ai y Surge.ai han creado grandes redes de personas para generar y anotar datos, incluidos investigadores doctorales que resuelven problemas de matemáticas o biología. Un ejecutivo de una empresa emergente líder en IA estima que esto cuesta a los laboratorios de IA cientos de millones de dólares al año.

La solución de datos sintéticos

Un enfoque más económico consiste en generar datos sintéticos, en los que un LLM produce miles de millones de páginas de texto para entrenar un segundo modelo. Sin embargo, este método puede tener problemas: los modelos entrenados de esta manera pueden perder conocimientos anteriores y generar respuestas poco creativas. Una forma más fructífera de entrenar modelos de IA con datos sintéticos es hacer que aprendan mediante la colaboración o la competencia. Los investigadores llaman a esto “juego por cuenta propia”.

En 2017, Google DeepMind desarrolló un modelo llamado AlphaGo que, tras entrenarse contra sí mismo, venció al campeón mundial humano en el juego Go. Google y otras empresas utilizan ahora técnicas similares en sus últimos LLM. Ampliar ideas como el autojuego a nuevos dominios es un tema de investigación muy debatido.

Pero la mayoría de los problemas reales, desde dirigir un negocio hasta ser un buen médico, son más complejos que un juego, ya que no hay jugadas ganadoras claras. Por eso, en dominios tan complejos, se siguen necesitando datos para formar modelos a partir de personas que puedan distinguir entre respuestas de buena y mala calidad. Esto, a su vez, ralentiza las cosas.

La solución de hardware

Otro camino hacia modelos más potentes es el del hardware. Las Unidades de Procesamiento Gráfico (GPU), diseñadas originalmente para videojuegos, se han convertido en el chip preferido de la mayoría de los programadores de IA gracias a su capacidad para realizar cálculos intensivos en paralelo. Una forma de desbloquear nuevas capacidades podría consistir en utilizar chips diseñados específicamente para los modelos de IA.

En marzo, Cerebras lanzó un producto que contenía 50 veces más transistores que la GPU más grande. La creación de modelos suele verse obstaculizada por el hecho de que las GPU deben cargar y descargar datos de forma continua mientras se entrena el modelo. El gigantesco chip Cerebras, por el contrario, tiene memoria incorporada.

GPT 5

Los nuevos modelos que puedan aprovechar estos avances serán más confiables y manejarán mejor las solicitudes difíciles de los usuarios. Una forma de hacerlo es mediante ventanas de contexto más amplias, es decir, la cantidad de texto, imagen o vídeo que un usuario puede insertar en una plantilla al realizar solicitudes. Ampliar las ventanas contextuales para permitir a los usuarios subir más información relevante también parece ser una forma eficaz de frenar las alucinaciones, es decir, la tendencia de los modelos de IA a responder con seguridad a las preguntas con información inventada.

Sin embargo, si bien algunos creadores de modelos se apresuran a obtener más recursos, otros ven indicios de que la hipótesis de la escalabilidad está teniendo problemas. Las limitaciones físicas (memoria insuficiente, por ejemplo, o el aumento de los costos de energía) imponen limitaciones prácticas a los diseños de modelos más grandes. Y lo que es aún más preocupante, no está claro si ampliar las ventanas de contexto será suficiente para seguir progresando.

Yann LeCun es uno de los muchos que creen que las limitaciones de los modelos de IA actuales no se pueden resolver. Por lo tanto, algunos científicos están recurriendo a una fuente de inspiración de larga data en el campo de la IA: el cerebro humano. El adulto medio puede pensar y planificar mucho mejor que los mejores LLM, a pesar de consumir menos energía y muchos menos datos.

La IA necesita mejores algoritmos de aprendizaje, y sabemos que son posibles porque el cerebro los tiene“, afirma Pedro Domingos, científico informático de la Universidad de Washington. Según él, uno de los problemas es el algoritmo con el que aprenden los LLM, llamado retropropagación. Todos los LLM son redes neuronales organizadas en capas, que reciben entradas y las transforman para predecir las salidas. Cuando el LLM se encuentra en su fase de aprendizaje, compara sus predicciones con la versión de la realidad disponible en sus datos de entrenamiento. Si estas divergen, el algoritmo realiza pequeños cambios en cada capa de la red para mejorar las previsiones futuras. Esto hace que sea computacionalmente intensivo e incremental. Las redes neuronales de las LLM actuales también están estructuradas de manera ineficiente.

Redes de transformadores

Desde 2017, la mayoría de los modelos de IA utilizan un tipo de arquitectura de redes neuronales conocida como Transformador (la T en GPT), que les ha permitido establecer relaciones entre bits de datos que se encuentran muy lejos dentro de un conjunto de datos.

Los enfoques anteriores tuvieron dificultades para establecer conexiones de tan largo alcance. Si se le pidiera a un modelo basado en un Transformador que escribiera la letra de una canción, por ejemplo, podría hacer referencia en su código a líneas de muchas estrofas anteriores, mientras que un modelo más primitivo habría olvidado todo el principio al final de la canción. Los Transformers también pueden funcionar en varios procesadores a la vez, lo que reduce considerablemente el tiempo necesario para entrenarlos.

Arquitectura Mamba

Sin embargo, Albert Gu, científico informático de la Universidad Carnegie Mellon, cree que la época de los transformadores podría terminar pronto. Escalar sus ventanas de contexto es altamente ineficiente desde el punto de vista computacional: cuando la entrada se duplica, la cantidad de cómputo necesaria para procesarla se cuadruplica.

Junto con Tri Dao de la Universidad de Princeton, Gu propuso una arquitectura alternativa llamada Mamba. Si, por analogía, un transformador lee todas las páginas de un libro al mismo tiempo, Mamba las lee de forma secuencial, actualizando su visión del mundo a medida que avanza. Esto no solo es más eficiente, sino que también se acerca al funcionamiento de la comprensión humana.

Los LLM también necesitan ayuda para mejorar su razonamiento y planificación. Andrej Karpathy, un antiguo investigador de OpenAI, explicó en un discurso reciente que los LLM actuales solo son capaces de “pensar en el sistema 1”. En los seres humanos, esta es la forma automática de pensar que interviene en las decisiones inmediatas. Por el contrario, el “pensamiento del sistema 2” es más lento, más consciente e implica una iteración.

En el caso de los sistemas de IA, esto podría requerir algoritmos capaces de realizar lo que se denomina investigación, es decir, la capacidad de esbozar y examinar muchas líneas de acción diferentes antes de seleccionar la mejor. En esencia, esto sería similar a la forma en que los modelos de IA que juegan a videojuegos pueden elegir los mejores movimientos tras explorar diferentes opciones. La planificación avanzada mediante la investigación está en el centro de muchos de los esfuerzos actuales.

Arquitectura Predictiva Integrada Conjunta (JEPA)

LeCun de Meta, por ejemplo, intenta programar la capacidad de razonar y hacer predicciones directamente en un sistema de inteligencia artificial.

En 2022, propuso un marco denominado Joint Embedding Predictive Architecture (JEPA), que está diseñado para predecir fragmentos de texto o imágenes más grandes en un solo paso en comparación con los modelos actuales de IA generativa. Esto le permite centrarse en las características globales de un conjunto de datos.

Al analizar imágenes de animales, por ejemplo, un modelo basado en JEPA puede centrarse más rápidamente en el tamaño, la forma y el color que en piezas individuales de pelaje. La esperanza es que, al abstraer las cosas, JEPA aprenda de manera más eficiente que los modelos generativos, que se distraen con detalles irrelevantes. Los experimentos con enfoques como Mamba o JEPA siguen siendo la excepción.

Hasta que los datos y la potencia de cómputo se conviertan en obstáculos insuperables, los modelos basados en transformadores seguirán en boga. Sin embargo, a medida que los ingenieros los introduzcan en aplicaciones cada vez más complejas, la experiencia humana seguirá siendo fundamental a la hora de etiquetar los datos. Esto podría significar un progreso más lento que en el pasado.

Es posible que se requiera un avance fundamental para una nueva generación de modelos de IA que asombran al mundo, como lo hizo ChatGPT en 2022.

Fuente: aI4business

¿Qué te ha parecido este artículo?

¡Su opinión es importante para nosotros!

I
Redacción InnovaciónDigital360

Artículos relacionados

Artículo 1 de 5