¿Cómo lidias con la disimilitud de datos no euclidianos o no lineales en el escalado multidimensional?
El escalado multidimensional (MDS) es una técnica de visualización de datos que tiene como objetivo representar las similitudes o distancias entre objetos en un espacio de baja dimensión, como una gráfica bidimensional. Sin embargo, no todas las diferencias de datos son lineales o euclidianas, lo que significa que no siguen las reglas de la geometría o la aritmética. Por ejemplo, algunos datos pueden tener relaciones no lineales, como funciones exponenciales o logarítmicas, o algunos datos pueden tener distancias no euclidianas, como distancias geodésicas o angulares. ¿Cómo lidias con este tipo de diferencias de datos en MDS? Aquí hay algunos consejos y trucos para ayudarlo.
El primer paso es elegir una medida de disimilitud que refleje la naturaleza de sus datos y su pregunta de investigación. Hay muchos tipos diferentes de medidas de disimilitud, como correlación, coseno, manzana de la ciudad o Hamming. Algunos de ellos son lineales, lo que significa que son proporcionales a las diferencias entre los valores de los datos, mientras que otros son no lineales, lo que significa que se ven afectados por la magnitud o escala de los valores de datos. Algunos de ellos son euclidianos, lo que significa que siguen el teorema de Pitágoras, mientras que otros son no euclidianos, lo que significa que explican la curvatura o forma del espacio de datos. Debe seleccionar una medida de disimilitud que coincida con las características y suposiciones de sus datos.
El segundo paso es aplicar una transformación o normalización a sus datos o diferencias, si es necesario. Esto puede ayudar a reducir los efectos de los valores atípicos, la asimetría o la heterogeneidad en los datos, y hacer que las diferencias sean más adecuadas para el SMD. Por ejemplo, puede aplicar una transformación logarítmica o de potencia a los valores de datos, si tienen una relación no lineal o una amplia gama de escalas. También puede aplicar una estandarización o normalización a sus diferencias, si tienen diferentes unidades o rangos. Esto puede ayudar a que las diferencias sean más comparables y consistentes.
El tercer paso es elegir un método MDS apropiado que pueda manejar sus diferencias de datos. Hay dos tipos principales de métodos MDS: métricos y no métricos. Los métodos MDS métricos asumen que las diferencias son lineales y euclidianas, y tratan de preservar los valores exactos de las diferencias en el espacio de baja dimensión. Los métodos MDS no métricos no asumen que las diferencias son lineales o euclidianas, y solo intentan preservar el orden de rango de las diferencias en el espacio de baja dimensión. Los métodos MDS no métricos son más flexibles y robustos, y pueden manejar las diferencias no lineales o no euclidianas mejor que los métodos MDS métricos.
El cuarto paso es evaluar la calidad y la interpretación de la solución MDS. Puede utilizar varios criterios y técnicas para evaluar qué tan bien la solución MDS representa las diferencias de datos y qué tan significativa e informativa es la gráfica MDS. Por ejemplo, puede utilizar el valor de tensión, que mide la discrepancia entre las diferencias y las distancias en el espacio de baja dimensión, para juzgar la bondad de ajuste de la solución MDS. También puede utilizar la gráfica de creo, que muestra la varianza explicada por cada dimensión, para decidir cuántas dimensiones conservar en la solución MDS. También puede utilizar el biplot, que muestra las cargas de las variables en las dimensiones, para interpretar el significado y la dirección de las dimensiones.
El quinto paso es explorar la gráfica MDS y sus características, y ver qué ideas y patrones puede descubrir a partir de ella. Puede utilizar varias herramientas y métodos para mejorar y enriquecer la gráfica MDS, y hacerla más interactiva e informativa. Por ejemplo, puede utilizar color, forma, tamaño o etiquetas para distinguir diferentes grupos o categorías de objetos en la gráfica MDS. También puede utilizar la agrupación en clústeres, la superposición o el cepillado para identificar y resaltar diferentes clústeres o regiones de interés en la gráfica MDS. También puede utilizar el zoom, la rotación o la animación para ver el gráfico MDS desde diferentes perspectivas y ángulos.
El sexto paso es comparar y contrastar diferentes soluciones MDS, y ver cómo difieren o están de acuerdo entre sí. Puede utilizar varios criterios y técnicas para comparar y contrastar diferentes soluciones MDS, y ver cómo reflejan diferentes aspectos o perspectivas de las diferencias de datos. Por ejemplo, puede utilizar el análisis de Procrustes, que mide la similitud entre dos soluciones MDS rotándolas y escalándolas, para ver cuán consistentes o robustas son las soluciones MDS. También puede usar el diagrama de Shepard, que traza las diferencias contra las distancias en el espacio de baja dimensión, para ver cuán lineal o no lineal es la relación entre las diferencias y las distancias.
Valorar este artículo
Lecturas más relevantes
-
AlgoritmosHow can you scale up your algorithm for complex data?
-
Estadística¿Cuáles son algunas formas efectivas de usar MDS para comparar diferentes grupos de datos?
-
Algoritmos¿Cómo puede superar los desafíos comunes con estructuras de datos aleatorios en aplicaciones del mundo real?
-
Analítica de datos¿Cómo se puede utilizar el hash de características para tratar datos de texto de alta dimensión?