En los últimos años, se han construido sistemas de inteligencia artificial capaces de aprender de miles o millones de ejemplos para ayudarnos a comprender mejor el mundo o encontrar nuevas soluciones a problemas difíciles. Estos modelos a gran escala han dado lugar a sistemas capaces de entender cuando hablamos o escribimos, como los programas de procesamiento y comprensión del lenguaje natural que utilizamos a diario, desde los asistentes digitales hasta los programas de conversión de voz a texto.
Otros sistemas, entrenados en cosas como toda la obra de artistas famosos o todos los textos de química existentes, nos han permitido construir modelos generativos capaces de crear nuevas obras de arte basadas en esos estilos o nuevas ideas de compuestos basadas en la historia de la investigación química.
La próxima oleada de IA pretende sustituir a los modelos para tareas específicas que han dominado el panorama de la IA hasta la fecha. El futuro está en los modelos entrenados en un gran conjunto de datos sin etiquetar que pueden utilizarse para diferentes tareas con un ajuste mínimo.
Índice de temas
Modelos fundacionales
Los modelos fundacionales, un término popularizado por el Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford. Hemos visto los primeros destellos del potencial de los modelos fundacionales en el mundo de las imágenes y el lenguaje. Los primeros ejemplos de modelos, como GPT-3, BERT o DALL-E 2, han demostrado lo que es posible.
Al introducir una breve petición (prompt), el sistema genera todo un ensayo o una imagen compleja basándose en los parámetros, aunque no haya sido entrenado específicamente para ejecutar ese argumento exacto o generar una imagen de esa manera.
Modelos fundacionales, una base para los modelos de IA
Lo que hace diferentes a los modelos fundacionales es que, como su nombre indica, pueden ser la base de muchas aplicaciones de modelos de IA. Mediante el aprendizaje autosupervisado y el aprendizaje por transferencia, el modelo puede aplicar la información aprendida sobre una situación a otra.
Aunque la cantidad de datos es considerablemente mayor que la necesaria para que una persona media transfiera la comprensión de una tarea a otra, el resultado final es relativamente similar: uno aprende a conducir un coche, por ejemplo, y sin mucho esfuerzo puede conducir la mayoría de los demás coches, o incluso un camión o un bus..
Hemos visto lo que parece ser casi una creatividad inherente en algunos de los primeros modelos fundacionales, con IA capaces de elaborar argumentos coherentes o crear obras de arte completamente originales. Pero el valor de los modelos fundacionales puede extenderse teóricamente a cualquier campo. IBM Research lleva años estudiando cómo hacer que la aplicabilidad de la IA sea más amplia y flexible, y desde el primer artículo de Stanford en 2021, hemos intentado llevarla al mundo de la industria.
Ejemplo en el mundo del procesamiento del lenguaje natural
Pongamos un ejemplo en el mundo del procesamiento del lenguaje natural, una de las áreas en las que los modelos fundacionales ya están bastante bien establecidos. Con la generación anterior de técnicas de IA, si se quería construir un modelo capaz de resumir cuerpos de texto, se necesitaban decenas de miles de ejemplos etiquetados solo para el caso de uso de la síntesis.
Con un modelo fundacional preentrenado, podemos reducir drásticamente las necesidades de datos etiquetados. En primer lugar, podemos configurar un corpus sin etiquetar específico del dominio para crear un modelo base específico del dominio. Después, utilizando una cantidad mucho menor de datos etiquetados, potencialmente solo mil ejemplos etiquetados, podemos entrenar un modelo de síntesis. El modelo fundacional específico del dominio puede utilizarse para muchas tareas, a diferencia de las tecnologías anteriores que requerían crear modelos desde cero para cada caso de uso.
Aunque muchos nuevos sistemas de inteligencia artificial están ayudando a resolver todo tipo de problemas del mundo real, la creación e implementación de cada nuevo sistema suele requerir una cantidad considerable de tiempo y recursos. Para cada nueva aplicación, es necesario asegurarse de que existe un conjunto de datos amplio y bien etiquetado para la tarea específica en cuestión.
Si el conjunto de datos no existiera, las personas tendrían que dedicar cientos o miles de horas a encontrar y etiquetar las imágenes, textos o gráficos adecuados. Después, el modelo de inteligencia artificial tiene que aprender a reconocer todo lo que hay en el conjunto de datos y puede aplicarse entonces al caso de uso deseado, desde el reconocimiento del lenguaje hasta la generación de nuevas moléculas para el descubrimiento de fármacos. Entrenar un gran modelo de procesamiento del lenguaje natural, por ejemplo, tiene una huella de carbono equivalente a la de hacer funcionar cinco coches durante toda su vida útil.
Qué está haciendo IBM en el campo de los modelos fundacionales
CodeNet
IBM está investigando cómo CodeNet, su enorme conjunto de datos de muchos de los lenguajes de codificación más populares del pasado y del presente, puede aprovecharse en un modelo que sería fundamental para automatizar y modernizar innumerables procesos empresariales. Imagine sistemas heredados capaces de utilizar las mejores partes de la web moderna, o programas capaces de codificarse y actualizarse a sí mismos, sin necesidad de supervisión humana.
CodeFlare
Del mismo modo, a finales de 2022 se lanzó una versión de la herramienta de código abierto CodeFlare que reduce drásticamente el tiempo necesario para configurar, ejecutar y escalar cargas de trabajo de aprendizaje automático para futuros modelos de cimentación. Este es el tipo de trabajo que hay que realizar para garantizar que los socios dispongan de procesos que les permitan trabajar con IBM, o por su cuenta, para crear modelos de cimentación que resuelvan diversos problemas. Por ejemplo, una empresa de servicios financieros podría personalizar un modelo base que tiene para lenguajes sólo para el análisis de sentimientos.
Watson NLP
IBM también se ha dado cuenta del valor de los modelos fundacionales. Ya ha implantado estos modelos en su cartera Watson y ha observado que su precisión supera con creces la de la generación anterior de modelos, sin dejar de ser rentables. Con los modelos fundacionales preentrenados, Watson NLP puede entrenar el análisis de sentimientos en un idioma nuevo utilizando sólo unos miles de frases, con 100 veces menos anotaciones que los modelos anteriores. En sus primeros siete años, Watson cubría 12 idiomas. Utilizando modelos fundacionales, ha crecido hasta cubrir 25 idiomas en aproximadamente un año.
IBM cree que los modelos fundacionales acelerarán enormemente la adopción de la IA en las empresas. La reducción de los requisitos de etiquetado hará que sea mucho más fácil para las empresas lanzarse, y la automatización altamente precisa y eficiente impulsada por la IA que permiten significará que muchas más empresas podrán aplicar la IA en una gama más amplia de situaciones de misión crítica. El objetivo es llevar el poder de los modelos de base a todas las empresas en un entorno híbrido-nube sin fricciones
Prohibida su reproducción total o parcial.