¡Hola a todos!... Somos estudiantes de Maestría de
Inteligencia de negocios de la Universidad Minuto de Dios y para la semana 6 de
nuestra clase de Cubos y minería de datos, queremos realizar un blog donde plasmemos
la importancia de la visualización
grafica de los datos y como esta, nos ayuda de manera significativa en la
fase de análisis de datos para:
-
Explorar los datos
-
Comunicar los resultados
-
Comprender los resultados
-
Tomar decisiones a través de evidencias
Para ello, queremos tomar las siguientes entradas para
abordar este tema tan interesante y útil para cualquier profesión:
Conceptos / Argumentos à
Las variables de interés en un conjunto de datos dependen
del contexto y del objetivo del análisis. Sin embargo, hay algunas variables
comunes que a menudo son de interés en diversos tipos de datos. Algunas de
ellas son:
1. Variables Categóricas:
• Nominales:
Categorías sin un orden específico (por ejemplo, color, género).
• Ordinales:
Categorías con un orden intrínseco (por ejemplo, nivel educativo, clasificación
de productos).
2. Variables Numéricas:
• Discretas:
Valores enteros, contables (por ejemplo, número de hijos).
• Continuas:
Valores que pueden tomar cualquier número real dentro de un rango específico
(por ejemplo, altura, ingresos).
3. Variables Temporales:
• Fecha
y hora: Para analizar patrones temporales.
4. Variables Dependientes e Independientes:
• La
variable dependiente es aquella que estás tratando de predecir o explicar.
• Las
variables independientes son aquellas que utilizas para predecir o explicar la
variable dependiente.
Una vez que se haya identificado las variables de
interés, la visualización de datos es una herramienta poderosa para comprender
la distribución y las relaciones entre ellas.
La visualización de datos es el proceso de utilizar elementos visuales como gráficos o mapas para representar los datos. De esta manera, se facilita la interpretación de hallazgos, conclusiones y patrones para ser mejor entendidas por el público interesado.
Técnicas comunes de visualización de datos:
Experiencia / Validación à
Para
mostrar de manera explicativa, la aplicación de las variables y técnicas de
visualización, tomaremos como ejemplo el Dataset de diabetes, donde también
mostraremos hallazgos, conclusiones y patrones encontrados dentro de la
aplicación del ejercicio.
Variables de interés:
En el conjunto de datos relacionado con la diabetes, las variables de interés pueden variar según el enfoque del análisis y los objetivos específicos del estudio. Sin embargo, hay algunas variables comunes que suelen estar presentes en conjuntos de datos sobre diabetes.
Las variables de interés identificadas son:
Variables Demográficas:
Variables Clínicas Adicionales:
Visualización
de datos
Para la visualización de los datos, utilizamos la
biblioteca de Python Pandas profiling, la cual sirve para
generar informes de perfilamiento de datos, proporcionando un resumen visual de
los datos, donde se puede aplicar:
-
Resumen Estadístico: Proporciona estadísticas
descriptivas básicas, como la media, la mediana, los valores mínimos y máximos,
la desviación estándar, etc.
- Distribuciones: Muestra visualmente las distribuciones de
las variables, lo que facilita la identificación de patrones y valores
atípicos.
- Correlaciones: Calcula y visualiza las correlaciones
entre variables, ayudando a entender las relaciones lineales entre ellas.
- Matriz de Correlación: Presenta una matriz de correlación
que puede ayudar a identificar patrones más complejos entre múltiples
variables.
-
Valores Nulos: Identifica y visualiza la presencia de
valores nulos en el conjunto de datos.
- Análisis de Variables Categóricas: Para variables
categóricas, muestra las categorías únicas y sus frecuencias.
- Histogramas y Gráficos de Densidad: Muestra visualmente
la distribución de las variables numéricas.
- Información sobre Tipos de Datos: Proporciona información
sobre los tipos de datos presentes en el conjunto de datos.
- Información sobre Tamaño del Conjunto de Datos: Da información
sobre el tamaño del conjunto de datos, el número de variables y la memoria
utilizada.
A continuación, compartimos los diferentes gráficos,
tomados directamente de Pandas profiling:
Overview:
En este tab se muestra el resumen descriptivo de los
valores mínimos y máximos y sus desviaciones (datos duplicados).
Variables:
En los análisis graficos por variables, se identifica las variables que se tienen en cuenta para el estudio.
Las variables categóricas son: Género y Edad
Las variables numéricas son: hipertensión, Cardiopatía, Historia de tabaquismo, Bmi, Prueba hemoglobina, Niveles de glucosa en la sangre y Diabetes:
Se identifica que, dentro de la muestra de dato, hay más
mujeres que hombres dentro del estudio realizado.
Dentro del estudio de hipertensión, el 7.5% de las personas, tiene hipertensión y solo el 3.9% tiene cardiopatía
El 35% de las personas objeto del estudio, nunca han
fumado, mientras que el otro 35% no dieron información al respecto.
Se identifica que dentro de la evaluación de BMI, se evidencia
un pico de sobrepeso, ya que los limites son los siguientes:
Bajo peso: BMI menor a 18.5
Normal: BMI entre 18.5 y 24.9
Sobrepeso: BMI entre 25 y 29.9
Obesidad: BMI de 30 o más
El 8.5% de las personas objeto del estudio, tienen
diabetes.
Interacciones:
Dentro de este grafico se mostrará la relación entre dos
variables: Una categórica y otra numérica, lo cual se mostrará la relación
entre edad o sexo y BMI, Hemoglobina y niveles de azúcar en la sangre:
En esta gráfica, por ejemplo, se identifica que las
personas entre los 40 y 60 años, tiene los niveles de hemoglobina altos, con
prediabetes.
Los niveles de hemoglobina son:
-
Normal: HbA1c menor al 5.7%
-
Prediabetes (Glucosa en Ayunas Alterada o Tolerancia a la
Glucosa Alterada): HbA1c entre 5.7% y 6.4%
-
Diabetes: HbA1c de 6.5% o superior
Correlaciones:
Para la correlación entre enfermedades de diabetes por
edades, se utilizó un mapa de calor, donde se puede mostrar la distribución o
densidad de los datos en un mapa completo por cada variable:
En este mapa de calor, se evidencia que la diabetes
tiende a aumentar con la edad, así mismo, también se evidencia que tanto para
el sobrepeso y para el hábito del tabaquismo, también infiere que se puede
afectar a personas más jóvenes
Otros gráficos
obtenidos del ejercicio:
Estos gráficos nos pueden ayudar para familiarizarnos con
los datos y poder comunicar los hallazgos encontrados, como parte del refinamiento
de la data relevante para el estudio de diabetes:
Se concluye que las visualizaciones de datos son cruciales
para considerar el contexto y tener en cuenta posibles sesgos en los datos. La
visualización de datos es una herramienta poderosa para explorar y comunicar
patrones en los datos, pero siempre debe ir acompañada de un análisis crítico y
contextualizado, donde es necesario para una visualización de datos efectiva:
-
Patrones y Tendencias: Puedes identificar patrones y
tendencias en los datos. Por ejemplo, podrías observar si hay algún cambio a lo
largo del tiempo, si hay estacionalidad en los datos, o si hay algún patrón
cíclico.
-
Correlaciones y Relaciones: La visualización puede
ayudarte a identificar correlaciones y relaciones entre diferentes variables.
Puedes determinar si hay una asociación positiva, negativa o ninguna entre dos
o más variables.
Distribuciones y Formas
de Datos: La forma de las distribuciones de tus datos puede darte información
sobre la naturaleza de tus datos. Puedes identificar si los datos siguen una
distribución normal o si hay sesgos y asimetrías.
Muchas gracias por su atención!