Meta presentó I-JEPA, una arquitectura de IA que aprende del mundo de forma similar a la humana, reduciendo el tiempo y los recursos computacionales necesarios para el entrenamiento mediante autosupervisión. Con I-JEPA, bastan unos pocos ejemplos etiquetados para que un sistema de visión por ordenador reconozca un objeto. Veamos en detalle cómo funciona y qué permite.
Un nuevo enfoque del aprendizaje automático
Los laboratorios de investigación de Meta han dado a conocer un nuevo y eficaz enfoque de la visión por ordenador, introduciendo una innovadora arquitectura neuronal denominada I-JEPA, capaz de emular el aprendizaje contextual humano. El ser humano adquiere una gran cantidad de conocimientos fundamentales sobre el mundo a través de la observación pasiva. El objetivo de I-JEPA es reproducir este proceso de aprendizaje captando el conocimiento del sentido común sobre el mundo y codificándolo en la red neuronal.
La gran innovación de los sistemas de visión por ordenador es que generan representaciones del mundo exterior de forma autosupervisada, utilizando datos no anotados, como imágenes y sonidos, a diferencia de los conjuntos de datos tradicionales etiquetados.
Visión humana y visión por ordenador
El proceso por el que observamos y comprendemos la realidad es complejo. Mediante procesos físicos, percibimos fotones que se proyectan y reflejan en el mundo, transmitiendo señales eléctricas a nuestro sistema nervioso central. Posteriormente, el cerebro, mediante procesos cognitivos, interpreta esta información permitiéndonos asociarla a conceptos complejos. De este modo, somos capaces de reconocer objetos, colores, formas y movimientos.
La visión por ordenador es una disciplina de la inteligencia artificial que pretende dotar a las máquinas de la capacidad de “ver” y procesar la información visual de forma similar a los humanos. Esto se consigue mediante el uso de cámaras y algoritmos de procesamiento de imágenes que analizan los píxeles de cada foto. El objetivo de la visión por ordenador es reconocer objetos en imágenes, identificar sus contornos, clasificarlos según patrones y formas y seguir sus movimientos a lo largo del tiempo.
En cuanto al procesamiento de la información visual, en los humanos el nervio óptico cumple la función de transmitir señales eléctricas de la retina al lóbulo occipital del cerebro, donde se interpretan las señales visuales. En el caso de la visión por ordenador, las imágenes captadas por la cámara se procesan mediante algoritmos de procesamiento de imágenes y técnicas de aprendizaje automático o profundo.
Los seres humanos pueden reconocer instantánea y automáticamente objetos, rostros y otras características visuales gracias al aprendizaje y la experiencia acumulados a lo largo de la vida. En cambio, la visión por ordenador utiliza algoritmos de reconocimiento de formas, clasificación y agrupación para identificar objetos en las imágenes.
Una vez reconocidos los objetos, el cerebro humano puede procesar una respuesta adecuada a la situación, como una decisión o una acción. Los sistemas de visión por ordenador también son capaces de realizar acciones basadas en la información visual adquirida, como conducir un vehículo autónomo o controlar un brazo robótico.
Cómo funciona I-JEPA
I-JEPA es un modelo de IA para visión por ordenador desarrollado por Yann LeCun, Científico Jefe de IA en Meta, con el objetivo de crear sistemas de visión por ordenador que emulen la visión humana. A diferencia de los enfoques tradicionales, I-JEPA aprende generando un modelo interno del mundo exterior y comparando representaciones abstractas de imágenes, en lugar de píxeles individuales.
El entrenamiento de I-JEPA se lleva a cabo mediante un método autosupervisado, que emplea únicamente datos no etiquetados, como imágenes, para adquirir representaciones abstractas del mundo. Utiliza dos redes neuronales: un codificador de contexto y un codificador de objetivo. El codificador de contexto recibe como entrada una porción de la imagen y genera una representación relacionada con el contexto. Del mismo modo, el codificador del objetivo procesa otra sección de la imagen y produce una representación del objetivo. El modelo pretende predecir la representación del objetivo basándose en la representación del contexto.
I-JEPA mejora la visión por ordenador al predecir los datos que faltan de forma similar al cerebro humano, centrándose en la información esencial en lugar de en los detalles a nivel de píxel. Al hacerlo, tiene en cuenta el contexto y es capaz de predecir información relevante sobre zonas ocultas de la imagen.
Meta informó de que I-JEPA obtuvo excelentes resultados durante una serie de pruebas en diferentes tareas de visión por ordenador, demostrando una notable eficiencia computacional en comparación con otros modelos de uso común. Además, las representaciones adquiridas por I-JEPA pueden utilizarse en diversas aplicaciones sin necesidad de un entrenamiento específico.
Los investigadores de Meta afirman haber entrenado un modelo de transformada visual con 632 millones de parámetros utilizando 16 GPU A100 en menos de 72 horas, logrando una precisión de clasificación récord con sólo 12 ejemplos etiquetados por clase. Los métodos alternativos suelen requerir entre 2 y 10 veces más horas de GPU para el entrenamiento y registran una precisión inferior con la misma cantidad de datos etiquetados.
Meta cree que I-JEPA pone de manifiesto el gran potencial de las arquitecturas capaces de aprender sin necesidad de conocimientos adicionales codificados a través de transformaciones de imágenes procesadas manualmente. Los investigadores de la empresa pondrán a disposición de los usuarios el código de entrenamiento de I-JEPA y los puntos de control del modelo. En el futuro, el objetivo será ampliar este enfoque a otros ámbitos, como el texto y el vídeo asociados a imágenes.
I-Jepa, posibles escenarios de aplicación en el futuro
I-JEPA ha mostrado resultados prometedores en otros ámbitos, además de la visión por ordenador. El mismo concepto puede utilizarse para simplificar el entrenamiento de redes neuronales en diversos ámbitos, como la sanidad, las finanzas y el procesamiento del lenguaje natural. La arquitectura de I-JEPA también puede utilizarse para generar bocetos de objetos a partir de sus representaciones abstractas. Además, I-JEPA puede integrarse con otros modelos de aprendizaje automático existentes para mejorar sus capacidades de razonamiento y planificación.
Conclusión
En el futuro, los modelos de aprendizaje automático evolucionarán para aumentar el nivel de abstracción en la representación del contexto. Será fascinante observar las aplicaciones prácticas de modelos capaces de aprender patrones y estructuras del mundo real, capaces de hacer predicciones espaciales y temporales a largo plazo sobre acontecimientos futuros, basándose únicamente en una cantidad limitada de información inicial. I-JEPA representa un paso importante hacia la aplicación y escalabilidad de métodos autosupervisados en el aprendizaje de un modelo general del mundo.