Seguramente, si son apasionados de la tecnología, habrán escuchado hablar en más de una oportunidad de Ciencia y Minería de Datos. Antes de entrar en detalles, será importante aclarar que si bien la Minería de Datos es un componente clave dentro del campo de la Ciencia de Datos, no toda la Minería de Datos es Ciencia de Datos. Ahondemos un poco en la cuestión…
Tal como la definen consultores mexicanos expertos en TI, la Ciencia de Datos es una “disciplina integral” que aborda el “proceso de tomar mejores decisiones mediante el uso de datos, llevando a cabo un análisis y desarrollando acciones de negocio” a partir de la interpretación de los mismos.
Por su parte, Microsoft describe la Minería de Datos como “el proceso de detectar la información procesable de los conjuntos grandes de datos” utilizando el análisis matemático para deducir los patrones y tendencias que existen en ellos. Añaden que, normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiados datos.
Índice de temas
Cómo entender la Minería de Datos
Más allá de su definición, que puede ser muy bonita, para entender a la perfección qué es la Minería de Datos será necesario adentrarse en los tres ejes fundamentales sobre las cuales se apalanca y centra esta actividad de análisis de datos: hablamos del soporte para el desarrollo de modelos, la extracción de data y el descubrimiento de patrones ocultos dentro de esa data.
Es posible que la última mencionada sea la actividad de mayor valor. ¿En qué consiste? Según palabras de los especialistas, “en combinar diferentes técnicas estadísticas de evaluación de datos para poder encontrar el comportamiento de los mismos”. Respecto a las técnicas utilizadas, describen que éstas pueden ser variadas: por ejemplo, se podrían implementar desde reglas de asociación (quizás más complejas) utilizadas en el market basket analysis, hasta análisis de correlaciones en conjunto con análisis gráfico, como histogramas.
Extracción de datos
En cuanto a la extracción de datos, consiste en identificar las diferentes fuentes de información cuantitativas, de acuerdo con la necesidad a resolverse: “Una vez identificadas las fuentes, se establece el proceso de extracción, transformación y carga (ETL, por sus siglas), para su uso”, aportan.
Por último, respecto al soporte para el desarrollo de modelos, explican que las diferentes disciplinas de análisis -como lo puede ser la Ciencia de Datos-, “utilizan como insumo el proceso nodal de la minería de datos para la construcción de modelos más complejos, o para poderlos integrar a un proceso programado, como se haría con Machine Learning”.
Como conclusión… la Minería se puede llevar a cabo como un proceso de análisis en sí misma. Por otro lado, la Ciencia de Datos no solo está limitada a la Minería, ya que incluye muchos más campos de acción como lo es el Data Ops, Data Warehousing, implementación de Inteligencia Artificial, Reporteo, entre otros.
Prohibida su reproducción total o parcial.