La minería de datos se define como la compleja extracción de información implícita, previamente desconocida y potencialmente útil de los datos y la exploración y el análisis, mediante sistemas automatizados y semiautomatizados, de grandes cantidades de datos para descubrir patrones significativos.
Aunque están fuertemente interrelacionados, el término big data difiere formalmente del término minería de datos, que se refiere al proceso computacional de descubrir patrones en grandes conjuntos de datos utilizando métodos de aprendizaje automático, inteligencia artificial, estadística y bases de datos.
Aparte de la fase de análisis propiamente dicho, la minería de datos abarca aspectos de gestión y preprocesamiento de datos, modelización, identificación de métricas de interés y visualización.
Índice de temas
¿Por qué la minería de datos?
Hay muchas razones por las que se necesitan sistemas de minería de datos. En primer lugar, la cantidad de datos almacenados en soportes informáticos aumenta constantemente: páginas web, sistemas de comercio electrónico, datos de compras y recibos de impuestos, transacciones con tarjetas de crédito.
En segundo lugar, hay que tener en cuenta que el hardware es cada vez más potente y menos costoso. En el ámbito empresarial, la presión competitiva es cada vez mayor y la información es un activo valioso para superar a la competencia.
Incluso en la ciencia, los datos producidos y almacenados crecen a gran velocidad (GB/hora) y también provienen de sensores en satélites, telescopios, microarrays que generan expresiones genéticas, simulaciones científicas que producen terabytes de ellos. Las técnicas tradicionales son inaplicables a las masas de datos en bruto; la minería de datos, en cambio, puede ayudar a los científicos a clasificar y segmentar los datos y formular hipótesis.
Otras razones por las que es necesario el uso de la minería de datos son que gran parte de la información de los datos no es directamente aparente; los análisis realizados por el ser humano pueden tardar semanas en descubrir información útil y, de hecho, una gran proporción de los datos nunca se analiza.
Qué es un patrón y los distintos tipos
Un patrón es una representación concisa y semánticamente rica de un conjunto de datos; generalmente expresa un patrón recurrente en los datos, pero también puede expresar un patrón excepcional.
Un patrón debe ser:
– válidos en los datos con un cierto grado de confianza
– comprensible sintáctica y semánticamente, para que el usuario pueda interpretarlo
– previamente desconocido y potencialmente útil, para que el usuario pueda actuar en consecuencia.
Tipos de patrones
– Reglas asociativas: permiten determinar las reglas de implicación lógica en la base de datos y, por tanto, identificar los grupos de afinidad entre los objetos.
– Clasificadores: permiten derivar un modelo para clasificar los datos de acuerdo con un conjunto de clases asignadas y de prejuicios.
– Árboles de decisión: son clasificadores particulares que permiten identificar por orden de importancia las causas que conducen a la ocurrencia de un evento.
– Clustering: agrupa los elementos de un conjunto, según sus características, en clases no asignadas a priori.
– Series temporales: permiten detectar patrones recurrentes o atípicos en secuencias de datos complejas.
Los orígenes de la minería de datos y las actividades típicas
Esta disciplina se inspira en las áreas de aprendizaje automático/inteligencia artificial, reconocimiento de patrones, estadística y bases de datos. La minería de datos se creó para sustituir a las técnicas de análisis tradicionales, que son inadecuadas por diversas razones:
– cantidad de datos
– alta dimensionalidad de los datos
– heterogeneidad de los datos
Las actividades típicas de la minería de datos son las de los sistemas de predicción: utilizar algunas variables para predecir el valor desconocido o futuro de otras variables; y los sistemas de descripción: encontrar patrones interpretables por el ser humano para describir los datos.
Veamos ahora qué no es la minería de datos. Por ejemplo, buscar un número en la guía telefónica o consultar un motor de búsqueda para obtener información no es minería de datos.
Sin embargo, podemos hablar de minería de datos si buscamos los apellidos más comunes en determinadas regiones o agrupamos los documentos devueltos por un motor de búsqueda en función de la información contextual (por ejemplo, “selva amazónica”).
Las actividades de minería de datos son: clasificación (predictiva), agrupación (descriptiva), búsqueda de reglas de asociación (descriptiva), búsqueda de patrones de secuencia (descriptiva), regresión (predictiva), detección de desviaciones (predictiva).
Clasificación
Definición:
– dada una colección de registros (conjunto de entrenamiento), cada registro está compuesto por un conjunto de atributos de los cuales uno expresa la clase a la que pertenece el registro
– encontrar un modelo para el atributo de la clase que exprese el valor del atributo como una función de los valores de los otros atributos
Objetivo: Los registros desconocidos deben asignarse a una clase con la mayor precisión posible. Se utiliza un conjunto de pruebas para determinar la precisión del modelo. Normalmente, el conjunto de datos proporcionado se divide en un conjunto de entrenamiento y un conjunto de prueba. El primero se utiliza para construir el modelo, el segundo para validarlo.
Primer ejemplo de aplicación: marketing directo
Objetivo: reducir el coste de la publicidad por correo definiendo el conjunto de clientes con mayor probabilidad de comprar un nuevo producto de telefonía
Enfoque: utilizar los datos recogidos para lanzar productos similares
Sabemos qué clientes se han decidido a comprar y cuáles no. Esta información (comprar, no comprar) representa el atributo de clasificación
Recoger toda la información posible relacionada con los compradores individuales: datos demográficos, estilo de vida, relaciones anteriores con la empresa; empleo, ingresos, sexo, edad, etc.
Utiliza esta información como atributos de entrada para entrenar un modelo de clasificación.
Segundo ejemplo de aplicación: detección del fraude
Objetivo: predecir el uso fraudulento de las tarjetas de crédito
Enfoque:
– utiliza como atributos las transacciones anteriores y la información sobre sus titulares (cuándo compra el usuario, qué compra, paga con retraso, etc.).
– califica las transacciones anteriores como fraudulentas o legales. Esta información representa el atributo de clasificación
– construir un modelo para las dos clases de transacciones
– utiliza el modelo para detectar comportamientos fraudulentos en las próximas transacciones relacionadas con una tarjeta de crédito específica.
Agrupación
Definición: Dado un conjunto de puntos, cada uno caracterizado por un conjunto de atributos, y dada una medida de similitud entre los puntos, encontrar los subconjuntos de puntos tales que
Los puntos que pertenecen a un subconjunto son más similares entre sí que los que pertenecen a otros clusters.
Medidas de similitud
– La distancia euclidiana es aplicable si los atributos de los puntos toman valores continuos
– Son posibles muchas otras medidas, en función del problema que se plantee.
Ejemplo de aplicación: segmentación del mercado
Objetivo: desglosar a los clientes en distintos subconjuntos para utilizarlos como objetivos de actividades de marketing específicas
Enfoque: recopilación de información sobre los clientes relacionada con el estilo de vida y la ubicación geográfica
Encontrar grupos de clientes similares. Mida la calidad de los clusters comprobando si el patrón de compra de los clientes que pertenecen al mismo cluster es más similar que el de los clientes que pertenecen a clusters similares.
Normas de afiliación
Definición: Dado un conjunto de registros, cada uno de los cuales consta de varios elementos pertenecientes a una determinada colección, produce reglas de dependencia que predicen la ocurrencia de uno de los elementos en presencia de ocurrencias de los otros.
Ejemplo de aplicación: disposición de mercancías
Objetivo: identificar los productos comprados conjuntamente por un número suficientemente grande de clientes
Enfoque: utilizar los datos de los ingresos fiscales para identificar las dependencias entre los productos
Una regla asociativa clásica es: si un cliente compra pañales y leche, lo más probable es que compre cerveza. La estantería de la cerveza se colocará junto a la de los pañales.
Regresión
Definición: Predicción del valor de una variable en valores comunes en función de los valores de otras variables asumiendo un modelo de dependencia lineal/no lineal. Un problema ampliamente estudiado en estadística y redes neuronales.
Ejemplos de aplicación:
predecir el volumen de ventas de un nuevo producto a partir de las inversiones en publicidad
predecir la velocidad del viento en función de la temperatura, la humedad y la presión atmosférica
predicción de las tendencias bursátiles
En conclusión, las características de la minería de datos son: escalabilidad, multidimensionalidad del conjunto de datos, complejidad y heterogeneidad de los datos, calidad de los datos, propiedad de los datos, mantenimiento de la privacidad, procesamiento en tiempo real.
Un enfoque metodológico: Crisp-DM
Un proyecto de minería de datos requiere un enfoque estructurado en el que la elección del mejor algoritmo es sólo uno de los factores de éxito. La metodología Crisp-DM es una de las propuestas más estructuradas para definir los pasos fundamentales de un proyecto de minería de datos
Las seis fases del ciclo de vida no son estrictamente secuenciales. A menudo es necesario retomar las actividades ya realizadas.
- comprender el dominio de la aplicación: entender los objetivos del punto de vista del usuario, traducir el problema del usuario en un problema de minería de datos y definir un plan de proyecto inicial
- comprensión de los datos: recogida preliminar de datos para identificar los problemas de calidad y realizar análisis preliminares para identificar las características más destacadas
- preparación de datos: incluye todas las actividades necesarias para crear el conjunto de datos final: selección de atributos y registros, transformación y limpieza de datos
- creación de modelos: se aplican diferentes técnicas de minería de datos al conjunto de datos, incluso con diferentes parámetros, para identificar la que permite construir el modelo más preciso.
- Evaluación del modelo y de los resultados: el modelo o modelos obtenidos en la etapa anterior se analizan para comprobar que son lo suficientemente precisos y robustos como para cumplir adecuadamente los objetivos del usuario.
- despliegue: el modelo construido y los conocimientos adquiridos deben ponerse a disposición de los usuarios. Esta fase puede consistir simplemente en la creación de un informe o puede requerir la implantación de un sistema de extracción de datos que pueda ser controlado directamente por el usuario.