Analizamos, una por una, las novedades que Sundar Pichai anunció en Google I/O 2023

En la conferencia anual (Google I/O 2023) de desarrolladores celebrada el 10 de mayo, el consejero delegado Sundar Pichai enumeró todas las novedades que tiene previsto el gigante de la web. Desde Gmail a Street View, pasando por Palm2 y Gemini, hasta Bard.

Siete años después de iniciar su andadura como empresa que da prioridad a la IA, Google quiere hacerla aún más útil para las personas, las empresas y las comunidades a través de modelos generativos de IA. En la conferencia anual de desarrolladores Google I/O 2023, celebrada el 10 de mayo, el consejero delegado de la empresa, Sundar Pichai, enumeró todas las innovaciones que el gigante de la web tiene preparadas. Desde Gmail a Street View, pasando por Palm2 y Gemini, hasta Bard.

Índice de temas

Google I/O 2023: “Ayúdame a escribir” en Gmail

Supongamos que uno recibe un correo electrónico en el que se le informa que su vuelo ha sido cancelado. La aerolínea envía un vale, pero lo que uno quiere es el reembolso del dinero. Se podrá responder y utilizar el “Ayúdame a escribir”, explica Pichai. “Simplemente se escribe lo que uno quiere, se pulsa crear y aparecerá un borrador completo”.

La opción “Ayúdame a escribir” empezará a introducirse con las actualizaciones del Espacio de trabajo. Y al igual que Smart Compose, mejorará con el paso del tiempo.

Nueva vista inmersiva para rutas en Mapas

En la I/O del año pasado, Google introdujo la vista inmersiva, que utiliza la inteligencia artificial para crear una representación de alta fidelidad de un lugar, para que puedas experimentarlo antes de visitarlo. Ahora está ampliando la misma tecnología para hacer lo que Maps hace mejor: ayudarnos a llegar a donde queremos ir. “Imagínense poder ver su viaje con antelación”, dice Pichai. “Con Immersive View para rutas podrán hacerlo, ya sea caminando, en bicicleta o en auto. Supongamos que estás en Nueva York y querés dar un paseo en bicicleta. Maps te dio un par de opciones cerca de donde te encontrás. La del paseo marítimo parece pintoresca, pero primero querés hacerte una idea, así que pulsás en Vista inmersiva para ver las rutas. Es una forma totalmente nueva de ver el trayecto. Podés hacer zoom para obtener una increíble vista de pájaro de la ruta”’.

También dispone de otra información: la calidad del aire, el tráfico y el tiempo.

Google I/O 2023: Editor mágico en Fotos

Otro producto mejorado con IA es Google Fotos, uno de los primeros productos nativos de IA presentado en I/O 2015. Ahora será mejorado. Por ejemplo, Magic Eraser, lanzado por primera vez en Pixel, utiliza la fotografía computacional impulsada por IA para eliminar las distracciones no deseadas. “Más adelante este año, con una combinación de comprensión semántica e IA generativa, será posible mucho más con una nueva experiencia llamada Magic Editor”, anunció Pichai.

Una vez más, el director general de Google no escatima en ejemplos: “Es una foto estupenda, pero como padre probablemente querrás que tu hijo sea el centro de todo. Parece que los globos se han cortado en esta foto, así que podés reposicionar al cumpleañero. Magic Editor recrea automáticamente las partes del banco y los globos que no se captaron en la toma original. Como toque final, podés realzar el cielo. También cambia la iluminación del resto de la foto para que la edición sea coherente. Es realmente mágico”.

Hacer la IA más útil para todos

Desde Gmail y Fotos hasta Mapas, estos son solo algunos ejemplos de cómo Google utiliza la IA. “Hoy tenemos 15 productos que sirven cada uno a más de 500 millones de personas y empresas. Y seis de estos productos dan servicio a más de 2.000 millones de usuarios cada uno. Esto nos brinda muchas oportunidades para hacer realidad nuestra misión: organizar la información del mundo y hacerla universalmente accesible y útil”, ilustra Pichai.

Google I/O 2023: PaLM 2 y Gemini

Google anuncia la entrada en producción de su último modelo PaLM: PaLM 2.

“PaLM 2 se basa en nuestra investigación fundamental y en nuestra última infraestructura”, señala Pichai. “Es capaz de realizar una amplia gama de tareas y fácil de desplegar. Hoy anunciamos más de 25 productos y funciones basados en PaLM 2”.

Los modelos de PaLM 2 han sido bautizados cariñosamente como Gecko, Otter, Bison y Unicorn. Gecko es lo suficientemente ligero como para funcionar en dispositivos móviles: lo suficientemente rápido como para permitir grandes aplicaciones interactivas en el dispositivo, incluso sin conexión.

Los modelos PaLM 2 son más fuertes en lógica y razonamiento gracias a un amplio entrenamiento en temas científicos y matemáticos. Además, están entrenados en textos multilingües (más de 100 idiomas), por lo que comprenden y generan resultados matizados.

Gracias a sus potentes capacidades de codificación, PaLM 2 también puede ayudar a los desarrolladores a colaborar en todo el mundo. “Supongamos que estás trabajando con un colega en Seúl y está depurando código. Podés pedir al programa que corrija un error y ayudar a tu colega añadiendo comentarios en coreano al código. El programa primero reconoce que el código es recursivo y luego sugiere una solución. Explica el razonamiento que hay detrás de la corrección y añade comentarios en coreano según sea necesario”, explica Pichai.

Google lanzó recientemente Sec-PaLM, optimizado para casos de uso de seguridad. Utiliza la inteligencia artificial para detectar mejor los scripts maliciosos y puede ayudar a los expertos en seguridad a comprender y resolver las amenazas.

Med-PaLM 2

Otro ejemplo es Med-PaLM 2, desarrollado a partir de conocimientos médicos. Esta especialización redujo el razonamiento inexacto en un factor de nueve en comparación con el modelo básico, acercándose al rendimiento de los expertos médicos que respondieron al mismo conjunto de preguntas. “De hecho, Med-PaLM 2 fue el primer modelo lingüístico en lograr un rendimiento de nivel “experto” en preguntas de tipo examen de licencia médica, y actualmente representa el estado del arte”, afirma el director general de Google y Alphabet.

Google está trabajando para añadir funciones a Med-PaLM 2 para que pueda sintetizar información de imágenes médicas como mamografías. “Cabe imaginar un colaborador de la IA que ayude a los radiólogos a interpretar las imágenes y comunicar los resultados. Estos son algunos ejemplos del uso de PaLM 2 en campos especializados. Estamos deseando ver su uso en otros ámbitos, por lo que me complace anunciar que PaLM 2 ya está disponible para su previsualización”, afirma Pichai.

PaLM 2 se basa en los avances logrados por dos equipos de investigación de talla mundial, el Brain Team y DeepMind, que han contribuido a un importante número de inventos: AlphaGo, Transformers, modelos secuencia-secuencia, etc., que han contribuido a sentar las bases del punto de inflexión en el que nos encontramos hoy. Google ha reunido recientemente a estos dos equipos en una sola unidad, Google DeepMind.

Gémini

De esta unión surgió el modelo base de nueva generación, Gémini, que aún se está generando. Gemini se creó desde cero para ser multimodal, muy eficiente en las integraciones de herramientas y API, y construido para permitir innovaciones futuras como la memoria y la programación. “Aunque aún está en pañales, ya estamos viendo capacidades multimodales impresionantes que no se encontraban en modelos anteriores. Una vez finalizado y sometido a rigurosas pruebas de seguridad, Gemini estará disponible en varios tamaños y capacidades, al igual que el PaLM 2”, afirma Pichai.

Responsabilidad de la IA: herramientas para identificar los contenidos generados

Al tiempo que invierte en modelos más capaces, Google también lo hace en la rendición de cuentas de la IA.

Dos enfoques importantes son la marca de agua y los metadatos. “La marca de agua incrusta la información directamente en el contenido, de modo que se conserva incluso con una modesta modificación de la imagen. En el futuro, estamos construyendo nuestros modelos para incluir la marca de agua y otras técnicas desde el principio. Si observa una imagen artificial, es impresionante lo real que parece, así que puede imaginarse lo importante que será en el futuro”.

Los metadatos permiten a los creadores de contenidos asociar un contexto adicional a los archivos originales, proporcionando más información cada vez que se encuentra una imagen. “Nos aseguraremos de que todas las imágenes que generemos mediante inteligencia artificial tengan esos metadatos”, afirma Pichai.

Más información sobre el enfoque responsable

Actualizaciones de Bard y del espacio de trabajo

Bard representa el experimento de inteligencia artificial conversacional, y fue lanzado en marzo por Google. “Hemos evolucionado rápidamente Bard. Ahora admite una amplia gama de capacidades de programación y se ha vuelto mucho más inteligente en el razonamiento y las consultas matemáticas. Además, ahora es totalmente funcional en PaLM 2”, explica Pichai.

También llegan nuevas funciones a Google Workspace. Además de ‘Ayúdame a escribir’ en Docs y Gmail, Duet AI en Google Workspace ofrece herramientas para generar imágenes a partir de descripciones de texto en Slides y Meet, crear planes personalizados en Sheets, etc.

Presentación de Labs y de la nueva experiencia de búsqueda generativa

A partir de hoy, Goole ofrece una nueva forma de previsualizar algunas experiencias en Workspace y otros productos. Se llama Labs. Google tiene una larga historia de uso de Labs como una forma de permitir el acceso temprano y obtener retroalimentación. Los desarrolladores ya pueden inscribirse.

Además de la funcionalidad de Workspace, una de las primeras experiencias que se probarán en Labs tiene que ver con el producto principal, Google Search.

Las mejoras en la comprensión del lenguaje permiten realizar preguntas más naturales y obtener contenidos más relevantes en la Web. Los avances en computer vision han introducido nuevas formas de búsqueda visual. “Ahora, aunque no tenga las palabras para describir lo que busca, puede buscar todo lo que ve con Google Lens”, explica Pichai. Lens se utiliza en más de 12.000 millones de búsquedas visuales al mes, lo que supone multiplicar por 4 su número en solo dos años; combinado con la multimodalidad, ha dado lugar a la búsqueda múltiple, que permite realizar búsquedas utilizando tanto una imagen como texto.

“De cara al futuro, el profundo conocimiento que Google tiene de la información, combinado con las capacidades únicas de la IA generativa, puede volver a transformar el funcionamiento de la búsqueda, desbloqueando preguntas totalmente nuevas a las que la búsqueda puede dar respuesta y creando experiencias cada vez más útiles que le conecten con la riqueza de la web”, afirma Pichai. A continuación, Google presentó la nueva Experiencia Generativa de Búsqueda.