El dark data es un conjunto de datos que, comúnmente, las empresas recopilan, procesan (o no) y almacenan, pero que generalmente no son utilizados para otro fin. Algunos ejemplos de dark data son las grabaciones de llamadas con clientes, grabaciones de cámaras de seguridad, datos de geolocalización o de publicaciones en redes sociales sobre productos, entre otros.
Es una masa crítica de información significativa: según la consultora Gartner, el 54% de los datos de una empresa corresponden a esta categoría, datos desestructurados sin uso ni visibilidad. IDC va aún más lejos, señalando que hasta el 90% de los macrodatos son dark data
Sin embargo, su almacenamiento y el resguardo de su seguridad suele generar más gastos (y, a veces, mayores riesgos) que beneficios. Las empresas se enfrentan a la poderosa oportunidad de aprovechar esta información para reducir costos y/o mejorar su planificación empresarial.
¿Por qué las empresas pierden la valiosa oportunidad de sacar ventaja de esta fuente de información? ¿Cómo podemos revertir esta tendencia? El 85% de las empresas identifican que no cuentan con una herramienta para capturar y almacenar esa data, mientras que otro 39% mencionan que es ‘demasiada’ data y no cuentan con un equipo de analítica lo suficientemente grande para poder analizarla.
Índice de temas
¿Cuál es el primer paso que una empresa debería tomar para comenzar a aprovechar eficientemente sus datos ocultos y convertirlos en un recurso valioso para la toma de decisiones?
El primer paso siempre debe ser identificar qué datos la organización está recabando, pero no está haciendo buen uso de ellos. Una vez identificados, lo siguiente que debemos hacer es identificar un sentido o un propósito, incluso aún cuando ese sentido o propósito sea planteado como una hipótesis. Una vez identificados los datos y el propósito, se deberá trabajar en un plan de características similares a cualquier proyecto de datos.
¿Qué sería?
Esto implica disponibilizar una plataforma de datos que permita almacenar, de forma eficiente, grandes volúmenes de datos, procesarlos de manera eficiente, a través de las herramientas apropiadas para que el resto de la organización pueda extraer valor. Típicamente, esto implica el desarrollo de una plataforma de datos moderna en la nube, con una arquitectura de Data Lake o incluso de Lakehouse (Data Lake + Data Warehouse).
Se debe tener una consideración adicional en este tipo de iniciativas. Probablemente, parte del proceso de extracción de información a partir de los datos oscuros requiera algún tipo de procesamiento basado en Machine Learning y/o Inteligencia Artificial. Por tanto, plantear hipótesis y validarlas a través de experimentos repetibles y construir, de manera iterativa e incremental, las soluciones se vuelve primordial para el éxito.
¿Podés compartir algún caso de éxito donde la identificación y utilización de dark data haya tenido un impacto significativo en el crecimiento y desarrollo de un negocio?
Sí, veamos los puntos tratados en la pregunta anterior a través de un ejemplo:
Una empresa cuenta con un área de atención al cliente que recibe consultas y reclamos a través de un formulario de contacto, vía whatsapp y vía telefónica, todas esas interacciones se almacenan en diferentes formatos y, eventualmente, un muestreo de casos es utilizado para analizar de forma manual las interacciones e identificar puntos de mejora en el nivel de servicio. La hipótesis que nos podemos plantear es: ¿puedo utilizar los datos de interacciones con atención al cliente para mejorar la experiencia o mejorar nuestros productos?
Hasta este momento tenemos identificados los orígenes y el propósito. Vamos a suponer que en un CRM (Customer Relationship Management por sus siglas en inglés, en español significa la administración de las relaciones con los clientes) tenemos el historial de interacciones de los clientes, la información del producto al que hacen referencia en la consulta o reclamo, el motivo, la resolución y posiblemente un feedback del cliente respecto a la atención recibida. La empresa cuenta también con un repositorio de documentos con la descripción de políticas y procedimientos (por ejemplo de devoluciones de productos).
En cuanto al propósito, queremos explotar estos datos para mejorar los tiempos de respuesta, permitir que los agentes se enfoquen en los casos que requieran la interacción humana y delegar en algún componente automatizado la resolución de aquellos casos sencillos.
El cliente en cuestión, llevó sus datos a la nube, a una plataforma de datos moderna, tanto datos del CRM como los datos que se encuentran en lenguaje natural en documentos de procedimientos y políticas (utilizando técnicas de OCR para la extracción de información de documentos). Con toda esa data, se desarrolló una solución basada en LLMs (Large Language Models, dentro de la rama de la AI generativa) para atender de manera automática consultas sencillas que llegan a atención al cliente.
Hablemos sobre la importancia de la ética en la utilización de dark data. ¿Cuáles son las consideraciones éticas clave que las empresas deben tener en cuenta al trabajar con este tipo de información sensible y no estructurada?
Cuando hablamos de datos siempre debemos ser conscientes de hacer un uso responsable de los mismos. Hacer un uso responsable implica definir un gobierno de los datos, donde la organización por diseño establezca mecanismos de responsabilidades, controles y seguridad en el almacenamiento, procesamiento, explotación y purga de los datos.
En particular, dado que en la “dark data” podemos encontrarnos con información de identificación personal o PII (por sus siglas en inglés Personally Identifiable Information) debemos asegurar hacer un tratamiento acorde de esta información. Existen muchas técnicas y modelos automatizados para poder encontrar y tratar esta información.
También es importante ser conscientes en el uso de modelos de Machine Learning e IA, poniendo especial énfasis en no generar sesgos a la hora de extraer información y utilizarla en los procesos de toma de decisiones de la organización.
¿Cómo pueden las empresas adaptarse y evolucionar en términos de tecnología y cultura empresarial para integrar de manera efectiva el análisis de dark data en sus procesos de toma de decisiones?
La nube es un gran habilitador para desarrollar soluciones basadas en datos. Hoy los diferentes proveedores de nube, cuentan con una amplia gama de servicios de datos, que nos habilitan a desarrollar plataformas modernas, escalables, con gran capacidad de procesamiento, con servicios para hacer analítica tradicional, desarrollar modelos propios de ML y varios servicios de inteligencia artificial, incluso inteligencia artificial generativa.
Además de la madurez de estos servicios, se destaca que son costo eficientes y que además nos dan acceso a modelos (por ejemplo LLMs y otros modelos cognitivos como puede ser de voz o visión por computadora) que de otra manera sería prohibitivo en costo o directamente impensable.
En cuanto a la cultura empresarial, siempre se debe tener en cuenta que la “infraestructura genera cultura”, en el caso de los datos, cuando las organizaciones cuentan con una infraestructura con que les brinda información confiable, en tiempo y en forma, se genera una cultura de aprovechamiento de los datos. Por eso es importante implementar políticas de gobierno de datos que aseguren la confiabilidad de la información, y establezca responsabilidades a la hora de la gestión de los datos.
¿Me podrás mencionar otros casos de uso?
El procesamiento de las imágenes de las cámaras de seguridad que se encuentran en la puerta de nuestros locales podría indicarnos la cantidad de personas que ingresan a nuestro negocio, como así también la cantidad que egresan de los mismos con alguna bolsa de nuestra marca.
Aquellas cámaras que están alojadas en la zona de cajas nos podrían ayudar a cuantificar el tiempo promedio que nuestros clientes esperan para ser atendidos, información que podría utilizarse para mejorar la experiencia del usuario.
El análisis de los tweets de nuestros clientes podría indicarnos su conformidad o disconformidad sobre nuestros productos, así como también nos podrían ayudar a conocer mejor a nuestros clientes y así, armar promociones personalizadas en base a sus distintos perfiles.
Como éstos, existen otra infinidad de ejemplos. Lo importante es, primero, poder reconocer cuál sería el dark data de nuestro negocio y comenzar por almacenar toda esa información, para, en un próximo paso, poder generar valor a partir de ella.
¿Cuáles son las tendencias emergentes en el ámbito de la gestión de dark data y cómo pueden las empresas prepararse para aprovechar estas tendencias en el futuro?
Uno de los aspectos más destacables en los últimos años son los avances en inteligencia artificial generativa. En particular, todos los avances en los LLMs en conjunto con modelos de visión, nos dan la posibilidad de extraer información y conocimiento de datos que quizás de otra forma no lo haríamos. Por ejemplo, generar una base de conocimiento a partir de documentos con políticas de recursos humanos de una organización y disponibilizar esta base mediante un bot que interactúe en lenguaje natural, es hoy una herramienta que se puede construir utilizando LLMs.
¿Podrías compartir algunas estrategias específicas que Nubiral haya implementado con éxito para ayudar a las empresas a transformar sus dark data en activos valiosos y tangibles?
El ejemplo anterior es un buen caso de éxito que nos ayuda a resumir todos los puntos que vimos anteriormente.
En primer lugar se identificó un propósito, que es simplificar el acceso a información de políticas de recursos humanos por parte de los colaboradores de la organización. Si bien ya se contaba con algunas herramientas para poder realizar consultas, por detrás siempre había una persona experta, encargada de responder a las consultas.
Se identificaron varias fuentes de información, pero en particular la primera a ser priorizada fue el repositorio de documentos en formato pdf y word que describen las políticas y la información relevante de recursos humanos de la empresa.
Con esa data (que se puede considerar como dark data) se generó una base de conocimiento en la nube, utilizando LLMs y técnicas de “embeddings”
Luego a través de integraciones con herramientas de mensajería instantánea, se disponibilizó esa información a través de un bot con capacidades de entendimiento y generación de lenguaje natural empleando también modelos LLM.
De esta manera, se generó de archivos estancos, una fuente de conocimiento accesible y accionable, que no solo facilita la tarea de los colaboradores para realizar tareas diarias, sino que además permite al área de recursos humanos enfocarse en tareas de mayor valor agregado en lugar de destinar tiempo y gente en responder consultas o acceder a información que de una u otra forma está disponible.
Prohibida su reproducción total o parcial.