Qué particularidades tiene el perro robot de Boston Dynamics

Al integrar modelos fundacionales en su perro robot Spot, Boston Dynamics lo transforma en un guía turístico capaz de interactuar, hablar, bromear y contar historias, y de responder verbalmente a las preguntas del público.

Publicado el 15 Dic 2023

Perro robot

Durante un hackathon interno, los equipos técnicos de Boston Dynamics se divirtieron convirtiendo a un perro en un guía turístico convencido de que tiene padres y capaz de interpretar papeles sarcásticos y fanfarrones con un talento teatral envidiable. 

No era un juego, porque resultó ser una tarea tecnológicamente compleja y porque no se trataba de un “divertimento” para entretener y mantener entrenados a los cerebros de la empresa. Fue el comienzo de una exploración de oportunidades tecnológicas encaminadas a conseguir robots capaces de entender lo que se dice y convertirlo en acciones útiles. Si todos fueran así, quizá trabajarían mejor con y alrededor de las personas, como colegas, compañeros, guías o cuidadores.

Un mosaico futurista de tecnologías

Todo comienza con el deseo de analizar mejor el potencial de los modelos de cimentación (FM) y la posibilidad de explotarlos en el campo de la robótica. Su capacidad para realizar tareas distintas de aquellas para las que fueron puramente entrenados, convirtiéndose, por ejemplo, en una buena base para algoritmos útiles para hacer en tiempo real muchos procesos de toma de decisiones. Su capacidad para desempeñar papeles y reproducir culturas y matices manteniendo la coherencia a lo largo del tiempo.

Consideradas como una tecnología digna de atención, fueron las estrellas de una prueba de concepto junto con modelos de Visual Question Answering (VQA) que pueden subtitular imágenes y responder a preguntas sencillas sobre ellas. Así es como, en los laboratorios de Boston Dynamics, el conocido perro robot Spot se convirtió en un guía turístico que camina, mira a su alrededor y describe lo que ve de forma fluida, sin eludir preguntas y planificando sus próximas acciones. Si se le asigna un papel concreto, también es capaz de interpretarlo, sobre todo cuando se muestra sarcástico y cínico, fanfarrón y con carácter.

Esta “metamorfosis robótica” mediante el aprovechamiento de los FM comenzó con la introducción del sistema de seguimiento del robot en el LLM y su vinculación a muchos otros sensores para conseguir un guía divertido e interactivo que pueda entretener mejor a los turistas potenciales sin ceder a la “tentación” de las alucinaciones. A continuación había que implementar numerosas “piezas” de tecnología de software y hardware y hacer que funcionaran armoniosamente. Un sistema de audio, para presentarse al público y escuchar las preguntas y sugerencias, un sistema para controlar lo que decía el robot, basado en una cuidadosa ingeniería de las indicaciones, software VQA y de conversión de voz a texto para hacerle interactuar con el público y su entorno, y una herramienta de síntesis de voz para hacerle hablar realmente al público.

Il robot impara da solo a camminare, addio al training - AI4Business

Para que lo hiciera de la forma más natural posible, los investigadores crearon también un lenguaje corporal predefinido mediante un sistema que podía adivinar dónde se encontraba la persona más cercana y girar el brazo del robot hacia ella. Un gesto humano, combinado con otros similares, hizo que la guía robótica fuera potencialmente más amistosa y emocionalmente aceptable que nunca.

Divertido y lento, pero una guía para el futuro

Este experimento sin pretensiones, pero con un importante valor tecnológico y un claro objetivo: el guiado, proporcionó al equipo sorpresas y pistas para futuras mejoras. Así como la confirmación de que la FM y la robótica, juntas, pueden hacer grandes cosas.

Divertido fue oír al guía sugerir ir al servicio de asistencia informática para pedir información turística, o señalar a versiones antiguas de Spot como sus padres. Divertido, pero también interesante y nada casual: son dos manifestaciones del poder de la asociación estadística de los modelos utilizados: entre los conceptos de “servicio de asistencia” y “hacer una pregunta” y entre los de “padres” y “mayores”. Se confirma la potencia de los FM, pero también sus conocidos problemas de alucinaciones y latencia, con tiempos de espera de respuesta de hasta 6 segundos. Dos aspectos sobre los que habrá que trabajar, quizás a través de un nuevo hackathon, esta vez, sin embargo, con la certeza de que estamos pisando un nuevo camino que merece ser recorrido.

Xiaomi entra nel mondo della robotica e lancia CyberDog, il robot ...

Q

Combinando los resultados de diferentes sistemas generales de inteligencia artificial, los equipos técnicos saben ahora que es posible obtener resultados interesantes en un robot real utilizando el SDK de Spot. Boston Dynamics, como tantas otras entidades públicas y privadas, solo tiene que seguir analizando la intersección de la inteligencia artificial y la robótica. Con este experimento del perro guía, los FM demostraron que pueden ayudar a proporcionar un contexto cultural, conocimientos generales de sentido común y una flexibilidad útil para muchas tareas robóticas. Incluso la mera idea de poder asignar una tarea a un robot simplemente hablándole reduciría enormemente la curva de aprendizaje en su uso.

¿Qué te ha parecido este artículo?

¡Su opinión es importante para nosotros!

Marta Abba
Marta Abba

Licenciada en física y periodista, aplica el método científico para escribir sobre tecnología, medio ambiente e innovación. Tras una carrera que abarcó la información política y criminal, se apasionó por las start-ups, produciendo un especial mensual para una agencia de prensa. A partir de esta experiencia, pasó a ocuparse de temas relacionados con la innovación, la sostenibilidad, las nuevas tecnologías y las fintech con la misma curiosidad apasionada y genuina con la que, en los laboratorios universitarios, abordaba los experimentos científicos.

Artículos relacionados

Artículo 1 de 3