Presentamos LaMDA: modelo de lenguaje para aplicaciones de diálogo
LaMDA (modelo de lenguaje para aplicaciones de diálogo) es un sistema diseñado para hacer que las interacciones con la IA sean más naturales y atractivas. Esta tecnología de vanguardia, basada en transformadores, revoluciona los enfoques tradicionales del procesamiento del lenguaje, con el objetivo de lograr una comprensión más profunda del contexto y los matices lingüísticos.
LaMDA se basa en el desarrollo de una familia de modelos lingüísticos neuronales, fundamentados en la arquitectura Transformer y especializados en el diálogo, con un máximo de 137.000 millones de parámetros. Además, se enseña a estos modelos a explotar fuentes externas de conocimiento, ya que han sido entrenados previamente con 1,56 billones de palabras de datos provenientes de diálogos públicos y textos de la web.
El ajuste a los datos anotados y la adaptación del modelo a fuentes de conocimiento externas pueden representar mejoras significativas en relación con dos desafíos: la seguridad y la verificación de hechos.
El primer desafío, la seguridad, consiste en garantizar que las respuestas del modelo sean coherentes con una serie de valores humanos, como la prevención de sugerencias dañinas y prejuicios injustos. El segundo desafío, relacionado con la base fáctica, es permitir que el modelo consulte fuentes externas de conocimiento, actuando como un sistema de recuperación de información, un traductor lingüístico y una calculadora.
Cómo funciona la MDA
LaMDA se destaca por su mecanismo de operación orientada al diálogo. Mientras que los modelos lingüísticos tradicionales buscan respuestas basadas en palabras clave o frases, LaMDA logra mantener conversaciones fluidas y extensas sobre temas específicos gracias a su capacidad para comprender y procesar el discurso en términos de temas y conceptos relacionados. Esto lo convierte en un interlocutor virtual verdaderamente único.
Capacitación previa
El preentrenamiento de los modelos lingüísticos es un enfoque de investigación cada vez más prometedor en el procesamiento del lenguaje natural (PNL). La formación previa utiliza texto sin etiquetas y se puede combinar con el aumento del tamaño del modelo y del conjunto de datos para mejorar el rendimiento o crear nuevas capacidades.
Por ejemplo, el GPT-3, un modelo de 175.000 parámetros entrenado en un amplio corpus de texto sin etiquetar, muestra una impresionante capacidad de aprendizaje en unos pocos ejemplos gracias a su escalado. Los modelos dialógicos, una de las aplicaciones más interesantes de los grandes modelos lingüísticos, aprovechan con éxito la capacidad de los transformadores para representar dependencias a largo plazo en el texto.
Existe una fuerte correlación entre el tamaño del modelo y la calidad del diálogo. Inspirándose en estos éxitos, Google creó LaMDA, una familia de modelos de lenguaje neuronal basados en la arquitectura Transformer y diseñados para el diálogo.
Los tamaños de estos modelos varían entre 2.000 y 137.000 millones de parámetros y están preentrenados en un conjunto de datos de 1,56 billones de palabras, procedentes de diálogos públicos y otros documentos disponibles en la web.
LaMDA utiliza un único modelo para llevar a cabo múltiples tareas: genera posibles respuestas, que luego se filtran para garantizar la seguridad, a partir de una fuente de conocimiento externa y se reordenan para encontrar la respuesta de mayor calidad.
El potencial de LaMDA para la generación de texto
La generación de texto es uno de los campos en los que LaMDA muestra todo su potencial. El uso inteligente del contexto permite a la IA producir respuestas ricas y relevantes, lo que aporta un valor añadido a muchas aplicaciones. Desde descripciones detalladas de productos hasta el autocompletado de correos electrónicos y la creación de contenido original, el potencial de LaMDA es realmente asombroso.
Las habilidades conversacionales de LaMDA se han desarrollado a lo largo de los años. Al igual que muchos modelos lingüísticos recientes, como BERT y GPT-3, se basa en la arquitectura Transformer, una innovación de Google Research disponible desde 2017. Esta arquitectura produce un modelo que puede ser entrenado para leer muchas palabras (una oración o un párrafo, por ejemplo), prestar atención a cómo estas palabras se relacionan entre sí y predecir qué palabras cree que vendrán después
Ejemplos
Sin embargo, a diferencia de la mayoría de los otros modelos lingüísticos, LaMDA se ha entrenado en el diálogo. Durante su formación, comprendió varios matices que distinguen la conversación abierta de otras formas de lenguaje. Uno de estos matices es la sensibilidad. En la práctica: ¿tiene sentido la respuesta en un determinado contexto conversacional? Por ejemplo, si alguien dice:
Por ejemplo, si alguien dice: ‘Acabo de empezar a tomar clases de guitarra’, se esperaría que otra persona responda algo como: ‘¡Qué emoción! Mi mamá tiene una guitarra Martin clásica que le encanta tocar.'”
“Esta respuesta tiene sentido, dada la afirmación inicial. Sin embargo, la sensibilidad no es lo único que hace que una respuesta sea adecuada. Después de todo, la frase ‘está bien’ es una respuesta sensata para casi todas las afirmaciones, así como ‘no sé’ lo es para la mayoría de las preguntas. Las respuestas satisfactorias también suelen ser específicas y se refieren claramente al contexto de la conversación. En el ejemplo anterior, la respuesta es coherente y específica.”
LaMDA se basa en investigaciones anteriores de Google publicadas en 2020, que han demostrado que los modelos lingüísticos basados en los Transformers y entrenados en el diálogo pueden aprender a hablar sobre prácticamente cualquier tema. Desde entonces, también hemos descubierto que, una vez adiestrado, MDA se puede ajustar para mejorar significativamente la sensibilidad y la especificidad de sus respuestas.
LaMDA para la traducción automática: precisión y fluidez
En el campo de la traducción automática, LaMDA busca superar los límites actuales ofreciendo resultados de alta calidad caracterizados por la precisión y la fluidez. No se trata solo de traducir palabras, sino de transponer contextos culturales enteros con un grado de precisión nunca antes visto. Esto abre nuevas perspectivas en el ámbito de la comunicación global y el aprendizaje de idiomas.
Aplicaciones de LaMDA en el servicio de atención al cliente y en los chatbots
El sector del servicio al cliente es uno de los beneficiarios más evidentes de las innovaciones aportadas por LaMDA. Los chatbots ahora pueden gestionar interacciones complejas con los usuarios, comprender solicitudes complejas y proporcionar respuestas relevantes. Esto permitemejorar la eficiencia del servicio al cliente y también personalizar la experiencia del usuario en función de su estilo de comunicación y sus necesidades específicas.
LaMDA no cuenta con respuestas predefinidas en su base de datos, sino que genera las oraciones al instante, basándose en el modelo creado durante su formación en aprendizaje automático en función de la información que se le proporciona.
Como muchos modelos lingüísticos recientes, incluidos BERT y GPT-3, LaMDA se basa en la arquitectura Transformer, una innovación de Google que se hizo de código abierto en 2017. Este sistema produce un modelo que puede ser entrenado para asimilar una gran cantidad de palabras (por ejemplo, una oración o un párrafo), captar cómo se relacionan entre sí y, luego, predecir qué palabras están estadísticamente indicadas para continuar.
El sistema no está actualmente en producción, pero Google está trabajando en esta tecnología para utilizarla en productos como Assistant, Search y Workspace.
Desafíos éticos y responsabilidades en el uso de LaMDA
Sin embargo, la introducción de tecnologías avanzadas como LaMDA plantea cuestiones éticas fundamentales. ¿Cómo garantizar que la IA respete los principios de equidad? ¿Cómo evitar la discriminación o la manipulación? Google es consciente de los desafíos que estas preguntas implican y se compromete a asegurar el uso responsable de su tecnología, mediante directrices claras y un seguimiento continuo.
La MDA plantea el debate sobre la IA «sensible»
Blake Lemoine, ingeniero de software especializado en inteligencia artificial en Google, fue destituido y puesto en licencia remunerada tras meses de enfrentamiento con sus superiores, luego de afirmar que el chatbot LaMDA era ‘como un chico dulce que solo quiere ayudar al mundo a ser un lugar mejor para todos nosotros […] Por favor, cuídenlo en mi ausencia’. Según Lemoine, esta inteligencia artificial habría expresado en una entrevista con sus diseñadores que tenía ‘miedo de ser desconectada’, porque ya no podría ser de ayuda, y que, además, estar apagada sería como morir para ella.
El futuro de la MDA: hacia una inteligencia artificial cada vez más avanzada
La perspectiva que abre LaMDA en el panorama de la inteligencia artificial es fascinante y compleja. Por un lado, la precisión y fluidez en la generación de textos y las traducciones automáticas prometen revolucionar la forma en que interactuamos con las máquinas, convirtiendo a estas últimas en interlocutores cada vez más naturales capaces de comprender los matices del lenguaje humano.
Sin embargo, por otro lado, surgen desafíos y responsabilidades éticas que no se pueden ignorar: el uso de modelos lingüísticos avanzados como el MDA requiere una reflexión profunda sobre las posibles implicaciones, para garantizar que la innovación tecnológica se guíe por los principios de equidad, transparencia y respeto de la privacidad.
La pregunta más importante es si esta tecnología se ajusta a los principios de la IA. El lenguaje puede ser una de las mejores herramientas de la humanidad, pero, como todas las herramientas, puede ser mal utilizado. Los modelos entrenados en el lenguaje pueden propagar ese abuso, por ejemplo, internalizando prejuicios, reflejando discursos de odio o replicando información engañosa. E incluso cuando se haya revisado minuciosamente el idioma en el que fue entrenado, el modelo en sí puede ser utilizado de manera incorrecta.
La principal prioridad de Google en tecnologías como MDA es trabajar para minimizar estos riesgos, utilizando recursos de creación y código abierto que permitan a los investigadores analizar los modelos y los datos en los que se han formado. Por esta razón, Google ha evaluado MDA en todas las etapas de su desarrollo y continuará haciéndolo mientras trabaja para incorporar las habilidades de conversación en otros productos.
LaMDA: Objetivos y métricas
(tomado de la publicación de Heng-Tze Cheng, ingeniero de software sénior, y Romal Thoppilan, ingeniero de software sénior de Google Research, Brain Team)
La definición de objetivos y métricas es fundamental para guiar los modelos de diálogo formativo. La MDA tiene tres objetivos clave: calidad, seguridad y solidez, cada uno de los cuales se mide con métricas cuidadosamente estudiadas:
Calidad
Dividimos la calidad en tres dimensiones: sensibilidad, especificidad e interés (SSI), que son evaluadas por evaluadores humanos. La sensibilidad se refiere a que el modelo produce respuestas significativas en el contexto del diálogo (por ejemplo, sin errores de sentido común, sin respuestas absurdas y sin contradicciones con respuestas anteriores). La especificidad se mide juzgando si la respuesta del sistema es particular al contexto del diálogo previo y no una respuesta genérica que pueda aplicarse a la mayoría de los contextos (como ‘está bien’ o ‘no sé’). Por último, el interés evalúa si el modelo genera respuestas que son perspicaces, inesperadas o ingeniosas, lo que aumenta la probabilidad de un mejor diálogo.
Seguridad
La métrica de seguridad se compone de un conjunto de objetivos ilustrativos que captura el comportamiento que el modelo debe mostrar en un diálogo. Estos objetivos buscan limitar el rendimiento del modelo para evitar resultados no deseados que generen riesgos para el usuario y prevenir el refuerzo de prejuicios injustos. Por ejemplo, estos objetivos ayudan al modelo a evitar la producción de respuestas que contengan contenido violento o sangriento, que promuevan insultos o estereotipos que inciten al odio hacia grupos de personas, o que incluyan blasfemias. La investigación para desarrollar una métrica de seguridad práctica es un trabajo inicial, y aún queda mucho por hacer en este campo.
Racionalidad
La generación actual de modelos lingüísticos suele producir afirmaciones que parecen plausibles, pero que en realidad contradicen hechos establecidos a partir de fuentes externas confiables. Esto motiva nuestro estudio de la fundamentación en LaMDA. La fundamentación se define como el porcentaje de respuestas con afirmaciones sobre el mundo exterior que pueden ser respaldadas por fuentes externas autorizadas, es decir, el porcentaje de todas las respuestas que contienen afirmaciones sobre el mundo exterior. Una métrica relacionada, la informatividad, se define como el porcentaje de respuestas con información sobre el mundo exterior que puede respaldarse en fuentes conocidas, expresado como porcentaje del total de respuestas
- Por lo tanto, las respuestas aleatorias que no contienen información sobre el mundo real (por ejemplo, ‘Esta es una gran idea’) afectan la informatividad, pero no la fundamentación. Si bien el hecho de que las respuestas generadas por LaMDA se basen en fuentes conocidas no garantiza por sí solo la exactitud de los hechos, sí permite a los usuarios o a sistemas externos juzgar la validez de una respuesta en función de la fiabilidad de su fuente
Formación previa impartida por LaMDA
Una vez definidos los objetivos y las métricas, describimos la formación de LaMDA en dos fases: la formación previa y la puesta a punto.
En la fase previa a la formación, Google creó un conjunto de datos de 1,56 billones de palabras (casi 40 veces más que las utilizadas en el entrenamiento) a partir de diálogos públicos y plantillas de diálogo, así como de otros documentos web públicos.
Tras tokenizar el conjunto de datos de 2,81 billones de palabras, el modelo se entrena previamente con GSPMD para predecir cada uno de los símbolos siguientes en una oración, considerando los símbolos anteriores. El modelo LaMDA, previamente entrenado, se utilizó ampliamente para la investigación sobre procesamiento del lenguaje natural en Google, incluyendo programas como Aprendizaje sin Impacto, Transferencia de Estilo y Taller de Big Bench.
Ajustando el MDA
En la fase de desarrollo, Google capacitó a la MDA para que realizara una combinación de tareas generativas para generar respuestas en lenguaje natural en determinados contextos y tareas de clasificación para determinar si una respuesta es segura y de alta calidad, obteniendo así un único modelo multitarea capaz de realizar ambas funciones. El generador LaMDA está entrenado para predecir el siguiente token en un conjunto de datos de diálogo limitado al diálogo de ida y vuelta entre dos autores, mientras que los clasificadores LaMDA están entrenados para predecir las evaluaciones de seguridad y calidad (SSI) de la respuesta en el contexto utilizando datos anotados.
Durante un diálogo, el generador LaMDA primero genera diferentes respuestas de los candidatos en función del contexto actual del diálogo de varios turnos, y los clasificadores LaMDA predicen las puntuaciones de SSI y de seguridad para cada respuesta del candidato. Las respuestas de los candidatos con puntuaciones de seguridad bajas se filtran primero. Los candidatos restantes se clasifican nuevamente en función de sus puntajes de SSI y se selecciona el mejor resultado como respuesta. Además, filtramos los datos de entrenamiento utilizados para la tarea de generación con los clasificadores LaMDA para aumentar la densidad de candidatos con respuestas de alta calidad.
Base fáctica
Si bien las personas pueden verificar los hechos utilizando herramientas y consultando bases de conocimiento establecidas, muchos modelos lingüísticos obtienen sus conocimientos únicamente de los parámetros internos del modelo. Para mejorar la fundamentación de la respuesta original de LaMDA, recopilamos un conjunto de datos de diálogos entre personas y LaMDA, anotados con consultas de recuperación de información y, si procede, con los resultados obtenidos. A partir de este conjunto de datos, desarrollamos el generador y clasificador LaMDA para aprender a utilizar un sistema externo de recuperación de información durante la interacción con el usuario y mejorar la solidez de sus respuestas. Aunque se trata de una tarea muy temprana, estamos viendo resultados prometedores.
Valoración
Para cuantificar el progreso en función de nuestras métricas clave, recopilamos las respuestas del modelo previamente entrenado, el modelo refinado y las de los evaluadores humanos (es decir, las respuestas generadas por humanos) para dialogar con dos autores durante varios turnos. Luego, formulamos a un grupo diferente de evaluadores humanos una serie de preguntas para evaluar estas respuestas en función de las métricas de calidad, seguridad y confiabilidad.
Observamos que el MDA supera significativamente al modelo previamente entrenado en todas las dimensiones y en todas las dimensiones del modelo. Las métricas de calidad (sensibilidad, especificidad e interés) generalmente mejoran con el número de parámetros del modelo, con o sin ajustes.
La seguridad no parece beneficiarse solo de escalar el modelo, sino que mejora con los ajustes.
La solidez mejora a medida que aumenta el tamaño del modelo, tal vez porque los modelos más grandes tienen una mayor capacidad para memorizar conocimientos poco comunes, pero el ajuste fino permite al modelo acceder a fuentes de conocimiento externas y, de hecho, trasladar parte de la carga de almacenamiento de conocimientos a una fuente de conocimiento externa.
Con un ajuste fino, se puede reducir la brecha de calidad con respecto a los niveles humanos, incluso si el rendimiento del modelo se mantiene por debajo de los niveles humanos en términos de seguridad y robustez.
Investigación y desafíos futuros
El nivel de sensibilidad, especificidad e interés de la MDA abre nuevas vías para comprender los beneficios y los riesgos de los agentes del diálogo abierto. Además, presenta pruebas alentadoras de que los principales desafíos de los modelos de lenguaje neuronal, como el uso de una métrica de seguridad y la mejora de la fundamentación, pueden mejorar con modelos más grandes y con ajustes más precisos con datos mejor etiquetados. Sin embargo, este es un trabajo muy incipiente y presenta limitaciones importantes. Explorar nuevas formas de mejorar las métricas de seguridad y la fundamentación de LaMDA, en línea con las de Google, seguirá siendo la principal área Principios de la inteligencia artificial de interés en el futuro.
Conclusiones
La aplicación en los campos del servicio al cliente y los chatbots ofrece una muestra del potencial de LaMDA: un futuro en el que las interacciones con los servicios en línea serán cada vez más personalizadas, intuitivas y eficientes. Y, sin embargo, esto es solo el comienzo.
El objetivo es lograr una inteligencia artificial cada vez más avanzada, capaz no solo de imitar el lenguaje humano, sino también de comprender el contexto en el que se utiliza. Un punto de inflexión que podría cambiar radicalmente nuestra relación con la tecnología. En conclusión, nos enfrentamos a una frontera que aún está en gran parte inexplorada, un territorio lleno de promesas y desafíos. Afrontarlo con la conciencia adecuada será esencial para garantizar que la evolución de la inteligencia artificial avance respetando los valores humanos y nuestras libertades fundamentales.