Análisis en profundidad

Análisis de clústers: qué es, cómo funciona y ejemplos

Los campos en los que se utiliza el análisis de clústers van de la medicina a la biología, de la física a la economía, de las ciencias sociales al marketing. Qué significa clustering, qué herramientas utiliza para ser eficaz, ejemplos y campos de aplicación.

Publicado el 17 Mar 2023

Análisis de clústers.

El análisis de clústers o clustering es la actividad descriptiva en los procesos de minería de datos en Big Data y encuentra aplicaciones en diversos campos, de las ciencias sociales al marketing, de la medicina a la biología, de la física a la economía. El objetivo es clasificar los datos en estructuras de forma que resulten más fáciles de comprender.

Durante la pandemia, nos hemos familiarizado con la palabra racimo: indica que el contagio comienza con un único individuo superinfectado que es capaz de infectar a varios individuos conectados entre sí en el espacio y en el tiempo, como las uvas de un racimo.

Qué significa el análisis de clústers

El análisis de clústers es un método estadístico de tratamiento de datos que agrupa los elementos de un conjunto, según sus características, en clases no asignadas a priori.

Sirve para mostrar relaciones entre datos que no son aparentes a primera vista, con el fin de crear conjuntos homogéneos útiles para análisis posteriores. Es una forma no supervisada de obtener información sobre los datos en el mundo del big data.

En estadística, es un conjunto de herramientas y algoritmos utilizados para clasificar diferentes objetos en grupos, de forma que la similitud entre dos objetos sea máxima si pertenecen al mismo grupo; y viceversa, sea mínima.

Cómo funciona el análisis de clústers

El análisis de clústers funciona organizando los elementos en grupos o conglomerados, basándose en la similitud y homogeneidad entre ellos.

Para ello se utilizan algoritmos de clasificación, cada vez más complejos desde el punto de vista informático, pero también cada vez más eficaces a la hora de extraer información útil de los datos mediante una clasificación exacta y precisa.

¿Cuáles son los métodos de análisis de clústers?

Los métodos de análisis de clústers difieren según los algoritmos y las clasificaciones que generan. Los resultados de una clasificación se representan generalmente con una matriz que tiene por filas el número n de elementos (o unidades) y por columnas el número G de grupos. Esta matriz (n x G) contiene los valores de una función de pertenencia.

Las técnicas de análisis de conglomerados son jerárquicas o no jerárquicas.

Los métodos jerárquicos se subdividen en:

  • agrupadores (método de enlace simple, completo y promedio);
  • de tijera.

El método de enlace puede distinguirse en:

  • método de enlace simple (SLM) que se basa en las distancias entre unidades (distancia mínima);
  • método de unión completa (CLM) que se basa en el mismo algoritmo que el SLM, con la diferencia de que se calcula la distancia máxima entre unidades;
  • método de unión media (ALM) que se basa en las distancias (media).

Dos factores rigen los métodos no jerárquicos:

  • la existencia (o ausencia) de centros;
  • la presencia (o ausencia) de una función objetivo (como en el caso del método k-means o HCM).

Los métodos no jerárquicos más comunes son los de:

  • división iterativa;
  • métodos de programación matemática.

El enfoque de los métodos no jerárquicos produce:

  • algoritmos exactos (particiones de n elementos en c conglomerados);
  • algoritmos heurísticos (aproximación).

Los distintos métodos se distinguen según una clasificación

  • clásicos (particiones)
  • solapados (agrupaciones en las que los conglomerados se denominan clusteres y la técnica de análisis de datos se denomina clustering o agrupación solapada): un ejemplo es el método piramidal de Diday;
  • enfocada (clásica o de solapamiento): un método jerárquico de clasificación difusa es el método de síntesis de particiones múltiples de Zani (la base de la matriz de similitud).

El método de síntesis de particiones múltiples de Zani plantea el problema de elegir la partición inicial de cada carácter. Los criterios para encontrar la partición inicial de los caracteres cuantitativos son los siguientes:

-partición basada en cuartiles;

-el método de varianza mínima de Spath

-las clases naturales de Mineo

-la optimización de Butler.

Los métodos de Ponsard y Fustier asignan a cada unidad una función, denominada carácter, que mide la cantidad de carácter atribuida a una unidad en relación con la atribuida a las demás unidades. Los métodos de Ponsard y Fustier tienen la ventaja de que no requieren datos de origen, sino que pueden conformarse con datos difusos.

El método k-means forma parte de los métodos de clasificación difusa no jerárquica. El algoritmo k-means describe el método k-means.

El método Funny de Kaufmann toma su nombre de un programa para PC que genera clasificaciones difusas utilizando cualquier tipo de datos (numéricos o medidas de disimilitud). El método Funny difiere del método k-means difuso: porque en el primero, el parámetro m es fijo (en el segundo m > 1); y por la diferente función objetivo (en k-means difuso, la distancia es al cuadrado; en cambio, en Funny, tiene un exponente igual a 1).

El algoritmo MND2 de Roubens es otro método de clasificación difusa.

El método difuso k-means

El método difuso k-means de Bezdek es el más famoso de los métodos de clasificación difusa no jerárquica. Requiere el siguiente procedimiento:

  • se elige el número c de conglomerados en los que se desea particionar las n unidades de modos x de p caracteres;
  • una partición inicial de las unidades en los c conglomerados (aleatoria o construida a partir de un conocimiento a priori);
  • se realizan iteraciones posteriores tendentes a la minimización de una función objetivo;
  • se obtiene una clasificación difusa en la que se determina para cada unidad el grado de pertenencia a los c grupos;
  • la función objetivo a minimizar es una función de optimización utilizada para calcular los valores del grado de pertenencia: es una función del cuadrado de la distancia entre la i-ésima unidad y el centroide del k-ésimo grupo y depende de un parámetro m (según el valor seleccionado o proporcionado al inicio del procedimiento, la clasificación obtenida será más o menos difusa).

El método k-means se describe mediante el algoritmo k-means, que presenta una doble ventaja:

  • se aproxima rápidamente a la clasificación final
  • en cada iteración posterior, el valor de la función objetivo disminuye con respecto al de la iteración anterior, lo que confirma la convergencia del método.

El método k-means ha eliminado algunos de los inconvenientes del método difuso.

¿Cómo funciona el algoritmo k-means?

El análisis no jerárquico también se conoce como análisis de clústers k-means. El algoritmo k-means, que tiene la ventaja de converger muy rápidamente, es un algoritmo de aprendizaje no supervisado que identifica un número fijo de clústeres dentro de un conjunto de datos.

Permite dividir un conjunto de objetos en k grupos, generados por distribuciones gaussianas, en función de sus atributos. Los atributos de los objetos también pueden representarse como vectores.

El procedimiento iterativo del algoritmo k-means funciona de la siguiente manera:

  • en principio, forma k particiones
  • asigna puntos de entrada a cada partición (al azar o utilizando información heurística);
  • mide el centroide de cada grupo
  • a continuación, crea una nueva partición asignando cada punto de entrada al grupo cuyo centroide esté más próximo a él;
  • finalmente recalcula los centroides de los nuevos grupos y continúa, hasta que el algoritmo converge.

En qué sectores se aplica el análisis de clústers

Los campos en los que se utiliza el análisis de clústers van de la medicina a la biología y la bioquímica, de las ciencias sociales al marketing, de la física a la economía, de la arqueología a la psicología de la educación, de las ciencias jurídicas a la geografía, de la lingüística a la antropología. Y muchos más.

Medicina

En medicina, el análisis de datos se utiliza para buscar e identificar clústeres, diagnosticar cuadros clínicos y predecir casos de morbilidad en individuos y poblaciones. El análisis de clústers, en concreto, permite organizar elementos (sujetos, cosas, acontecimientos, etc.) en clústeres

El análisis de clústers en medicina permite:

-reducir la complejidad y resaltar las conexiones entre casos;

-agrupar los datos en una estructura significativa y basada en métodos cuantitativos;

-explorar los datos en un gráfico sencillo y sintético;

-asignar, por homogeneidad, valores conocidos a casos que muestran lagunas en los datos;

-crear grupos de población (estratificación) a muestrear;

-analizar los efectos de los tratamientos experimentales;

-encontrar posibles modelos, tras haber desarrollado y probado hipótesis para clasificar los casos.

Biología

En bioquímica, el análisis de clústers permite agrupar la composición de aminoácidos de las proteínas y los genes para ilustrar la secuencia evolutiva de las mutaciones a partir de las cuales se originaron las nuevas especies.

En las ciencias biológicas, la taxonomía es el análisis de clústers: permite crear sistemas automáticos de clasificación para almacenar información, documentos, etc.

Ciencias sociales

Los institutos de estadística de Italia y la Unión Europea utilizan el análisis de clústers para ayudar a los científicos sociales a hacerse una mejor idea de nuestras sociedades, incluida la demografía.

Con el método de síntesis de varias particiones, por ejemplo, el instituto italiano puede agrupar las regiones italianas según indicadores demográficos: por índice de fertilidad, índice de vejez, índice de mortalidad, etc.

Marketing

En marketing, un clúster es un conjunto de actores (consumidores) u objetos (productos, marcas, zonas geográficas, etc.) con peculiaridades homogéneas, agrupados según criterios específicos.

En este ámbito, el análisis de clústers es un conjunto de métodos de análisis de datos, sin un procedimiento fijo, con el objetivo de seleccionar y agrupar información de elementos similares. Se utilizan varios algoritmos y la agrupación es más eficaz cuando un conjunto contiene el mayor número de elementos homogéneos.

Ejemplos de análisis de clústers

El análisis de clústers puede utilizarse en marketing para segmentar un público objetivo en estudios de mercado, en demografía para agrupar países en los que el Covid-19 es la causa de muerte, en economía para evaluar la capacidad de recuperación de zonas geográficas, etc. Vea ejemplos.

Segmentación del mercado en marketing

En marketing, el análisis de clústers se lleva a cabo tras segmentar el grupo objetivo en el marco de la investigación de mercado. El análisis de clústers sirve para identificar el tipo de clientes hacia los que una marca puede dirigir una campaña de marketing específica. De hecho, la agrupación permite a las marcas personalizar sus ofertas de una manera cada vez más eficaz.

La segmentación se lleva a cabo asignando una variable de consumidor a cada eje de un plano cartesiano: por ejemplo, “satisfacción del cliente” y “fidelidad a la marca”. Cada consumidor está representado por un punto situado en el plano cartesiano.

La agrupación consiste en agrupar los puntos más próximos entre sí en un conjunto lo más homogéneo posible: el conjunto de los clientes con mayor satisfacción, los de mayor fidelidad y, a continuación, el conjunto en el que las dos variables se encuentran en mayor equilibrio. Gracias al análisis de clústers es posible segmentar los mercados: el análisis de conglomerados puede mejorar la exportación de un producto a mercados extranjeros.

Demografía

Una aplicación del método de agrupación difusa es la subdivisión de los países europeos por causas de mortalidad.

El método de medias difusas k-means puede utilizarse para agrupar las opiniones de los italianos sobre un tema concreto. Permite clasificar los municipios según el grado de urbanidad y ruralidad, dividiéndolos en: municipios rurales, semirrurales, semiurbanos y urbanos). El algoritmo es capaz de fotografiar una situación heterogénea, en la que, por ejemplo, el elemento rural está presente, pero sólo en trazas (municipios semiurbanos), a diferencia de la situación en la que prevalece el elemento rural (municipios semirrurales).

Citología

En citología, el análisis de clústers permite clasificar las muestras de sangre, definir los grupos sanguíneos y los tipos de plasma, y desarrollar métodos para confirmar o no la presencia de células anormales.

Por Mirella Castigli

Prohibida su reproducción total o parcial.

¿Qué te ha parecido este artículo?

¡Su opinión es importante para nosotros!

Temas principales

Especificaciones

A
algoritmos
A
Análisis de datos
D
datos

Nota 1 de 4