La explosión del volumen de datos digitales, el llamado fenómeno Big Data, constituye una gran oportunidad para las empresas de cualquier sector productivo que, a partir del análisis sistemático de los datos recogidos y su organización, pueden encontrar correlaciones útiles para sus elecciones y estrategias empresariales. El trabajo sobre la información ha propiciado desde hace tiempo el nacimiento y desarrollo de una profesión, la del científico de datos, cuya tarea principal es centrar la atención y los recursos en el estudio y la interpretación de las correlaciones. Una figura que, además, está en gran evolución precisamente por las herramientas de trabajo cada vez más innovadoras y rendidoras que tiene a su disposición. Pero hay otra figura profesional distinta, con una historia más larga a sus espaldas, que ha asumido una mayor centralidad en la época del Big Data: la del Ingeniero de Datos. En el Data Pipeline, el ingeniero de datos tiene la tarea crucial de diseñar, construir, instalar, probar y mantener los sistemas de gestión de datos, gestionando el flujo desde las fuentes hasta las plataformas de gestión de datos. Gestionar el flujo significa también, en primer lugar, preocuparse por la integridad y la disponibilidad de los datos que, para que sean realmente útiles para el trabajo interpretativo de los científicos de datos, no deben sufrir alteraciones de ningún tipo durante los distintos pasajes.
Índice de temas
El papel del ingeniero de datos
Una tarea que, en las empresas reales, caracterizadas por su extrema complejidad y sus múltiples fuentes, es todo menos sencilla y obvia. Es precisamente la llegada del Big Data y el Data Science lo que ha cambiado profundamente el trabajo del Ingeniero de Datos en los últimos años: hay que tener en cuenta que hasta hace no mucho tiempo, sustancialmente estos sujetos tenían que ocuparse de la gestión de la información que entraba y salía de una base de datos clásica. Datos que apenas necesitaban ser analizados en tiempo real, al contrario de lo que ocurre hoy en día (en particular debido a la importancia que asume la IoT). También es evidente que el aumento del volumen de bytes, procedentes además de un número cada vez más múltiple de fuentes, complica no poco la labor de gestión y usabilidad de los propios datos que, como hemos visto anteriormente, está en la base de las tareas del Ingeniero de Datos. Afortunadamente para estos profesionales, paralelamente a la explosión del fenómeno Big Data, también se ha producido el desarrollo de tecnologías capaces de apoyar el delicado trabajo de la Ingeniería de Datos.
Nuevas herramientas para los ingenieros de datos que llegan desde la nube
En primer lugar, la nube: que para los ingenieros supuso el fin de las limitaciones físicas tradicionales de tener servidores físicos y almacenamiento para guardar los datos. Hoy en día, gracias a la difusión de las soluciones de nube pública e híbrida, las empresas tienen a su disposición un espacio de almacenamiento y cálculo potencialmente infinito y al mismo tiempo flexible, útil para gestionar determinados picos de trabajo. Entre otras cosas, esto libera a los ingenieros de datos de la gestión del dimensionamiento de la infraestructura, lo que les permite dedicar más tiempo a otras actividades de mayor valor. Por otra parte, además de interactuar con las bases de datos tradicionales, a los ingenieros de datos se les exigen cada vez más conocimientos de inteligencia empresarial y Machine Learning, así como de lenguajes de programación como Python y Java. Por otro lado, los ingenieros de datos pueden beneficiarse de la presencia cada vez mayor de herramientas de infraestructura de datos componibles: estas herramientas les permiten realizar operaciones de consolidación de datos, de almacenamiento de datos e incluso de análisis de una manera más sencilla y directa.
La creatividad de los ingenieros de datos
Estas pilas modulares permiten a los ingenieros de datos dedicar su tiempo a proyectos que utilizan los datos para crear mejores productos, incluso utilizando tecnologías como el Machine Learning. De hecho, los ingenieros de datos suelen encargarse de crear algoritmos que permitan un acceso más fácil a los datos en bruto. Los ingenieros de datos también se preocupan ahora de cómo optimizar la recuperación de datos y cómo desarrollar cuadros de mando, informes y otras visualizaciones para las partes interesadas. Por no hablar de que en las organizaciones más pequeñas (donde puede haber una falta de científicos de datos), los ingenieros de datos también pueden ser responsables de comunicar las tendencias de los datos a los responsables de la toma de decisiones. Ante la creciente importancia de tecnologías como la inteligencia artificial y el Machine Learning en la gestión de volúmenes de datos cada vez mayores, no pocos ingenieros de datos están evolucionando su profesionalidad para convertirse en verdaderos ingenieros de Machine Learning. Su función es construir modelos de Machine Learning escalables y listos para la producción, capaces, por tanto, tanto de definir modelos analíticos y algoritmos como de identificar las soluciones tecnológicas concretas para aplicarlos. En última instancia, por tanto, son ingenieros de datos que saben diseñar sistemas informáticos capaces de aprender de forma autónoma.
Prohibida su reproducción total o parcial.