domingo, 3 de diciembre de 2023

La visualización gráfica de los datos: Tu mejor aliado para el análisis de información

¡Hola a todos!... Somos estudiantes de Maestría de Inteligencia de negocios de la Universidad Minuto de Dios y para la semana 6 de nuestra clase de Cubos y minería de datos, queremos realizar un blog donde plasmemos la importancia de la visualización grafica de los datos y como esta, nos ayuda de manera significativa en la fase de análisis de datos para:

-          Explorar los datos

-          Comunicar los resultados

-          Comprender los resultados

-          Tomar decisiones a través de evidencias  

Para ello, queremos tomar las siguientes entradas para abordar este tema tan interesante y útil para cualquier profesión:

Conceptos / Argumentos à


Variables de interés:

  

Las variables de interés en un conjunto de datos dependen del contexto y del objetivo del análisis. Sin embargo, hay algunas variables comunes que a menudo son de interés en diversos tipos de datos. Algunas de ellas son:

1.         Variables Categóricas:

•           Nominales: Categorías sin un orden específico (por ejemplo, color, género).

•           Ordinales: Categorías con un orden intrínseco (por ejemplo, nivel educativo, clasificación de productos).

2.         Variables Numéricas:

•           Discretas: Valores enteros, contables (por ejemplo, número de hijos).

•           Continuas: Valores que pueden tomar cualquier número real dentro de un rango específico (por ejemplo, altura, ingresos).

3.         Variables Temporales:

•           Fecha y hora: Para analizar patrones temporales.

4.         Variables Dependientes e Independientes:

•           La variable dependiente es aquella que estás tratando de predecir o explicar.

•           Las variables independientes son aquellas que utilizas para predecir o explicar la variable dependiente.

Una vez que se haya identificado las variables de interés, la visualización de datos es una herramienta poderosa para comprender la distribución y las relaciones entre ellas.

 

Visualización de datos

La visualización de datos es el proceso de utilizar elementos visuales como gráficos o mapas para representar los datos. De esta manera, se facilita la interpretación de hallazgos, conclusiones y patrones para ser mejor entendidas por el público interesado. 

Técnicas comunes de visualización de datos:

      Gráficos de Barras y Gráficos de Pastel: Útiles para representar variables categóricas.
Histogramas: Muestra la distribución de una variable numérica.
Diagramas de Dispersión: Muestra la relación entre dos variables numéricas.
Diagramas de Caja (Boxplots): Resumen visual de la distribución de una variable numérica.
Mapas de Calor (Heatmaps): Útiles para visualizar patrones en datos bidimensionales.
Gráficos de Líneas: Se utilizan para representar tendencias a lo largo del tiempo o secuencia.
Diagramas de Violín: Combina un boxplot con la densidad de la distribución.
Diagramas de Pareto: Muestra la frecuencia de diferentes eventos en orden descendente.

La elección de las visualizaciones depende del tipo de datos y los objetivos del análisis.
También es crucial etiquetar adecuadamente los ejes, proporcionar leyendas y elegir colores representativos para que la visualización sea clara y fácil de interpretar.

 

Experiencia / Validación à

Para mostrar de manera explicativa, la aplicación de las variables y técnicas de visualización, tomaremos como ejemplo el Dataset de diabetes, donde también mostraremos hallazgos, conclusiones y patrones encontrados dentro de la aplicación del ejercicio.

Variables de interés:

En el conjunto de datos relacionado con la diabetes, las variables de interés pueden variar según el enfoque del análisis y los objetivos específicos del estudio. Sin embargo, hay algunas variables comunes que suelen estar presentes en conjuntos de datos sobre diabetes.

 Las variables de interés identificadas son:

Variable DependienteResultado de la Prueba de Diabetes (DiabetesOutcome): Puede ser una variable binaria que indica si una persona tiene diabetes o no.
Variables IndependientesGlucosa en Ayunas (Glucose): Niveles de glucosa en sangre en ayunas.
Presión Sanguínea (BloodPressure): Presión arterial sistólica.
Índice de Masa Corporal (BMI): Relación entre el peso y la altura.
Nivel de azucar (Insulin): Cantidad de azucar en sangre.
Edad (Age): Edad de la persona.
Antecedentes Familiares de Diabetes (DiabetesPedigreeFunction): Medida de la diabetes en la familia.

 Variables Demográficas:

Género (Gender): Puede ser útil para analizar diferencias de género en la prevalencia de la diabetes.
Variables de Estilo de Vida: Actividad Física (Physical Activity): Niveles de actividad física.

Variables Clínicas Adicionales:

Hemoglobina (HbA1c): Niveles de hemoglobina en sangre.
Glucosa (Azucar): Niveles de azucar en sangre.

Visualización de datos

Para la visualización de los datos, utilizamos la biblioteca de Python Pandas profiling, la cual sirve para generar informes de perfilamiento de datos, proporcionando un resumen visual de los datos, donde se puede aplicar:

-          Resumen Estadístico: Proporciona estadísticas descriptivas básicas, como la media, la mediana, los valores mínimos y máximos, la desviación estándar, etc.

-         Distribuciones: Muestra visualmente las distribuciones de las variables, lo que facilita la identificación de patrones y valores atípicos.

-         Correlaciones: Calcula y visualiza las correlaciones entre variables, ayudando a entender las relaciones lineales entre ellas.

-       Matriz de Correlación: Presenta una matriz de correlación que puede ayudar a identificar patrones más complejos entre múltiples variables.

-          Valores Nulos: Identifica y visualiza la presencia de valores nulos en el conjunto de datos.

-    Análisis de Variables Categóricas: Para variables categóricas, muestra las categorías únicas y sus frecuencias.

-         Histogramas y Gráficos de Densidad: Muestra visualmente la distribución de las variables numéricas.

-       Información sobre Tipos de Datos: Proporciona información sobre los tipos de datos presentes en el conjunto de datos.

-        Información sobre Tamaño del Conjunto de Datos: Da información sobre el tamaño del conjunto de datos, el número de variables y la memoria utilizada.

A continuación, compartimos los diferentes gráficos, tomados directamente de Pandas profiling:

Overview:

En este tab se muestra el resumen descriptivo de los valores mínimos y máximos y sus desviaciones (datos duplicados).

Variables:

En los análisis graficos por variables, se identifica las variables que se tienen en cuenta para el estudio. 

Las variables categóricas son: Género y Edad

Las variables numéricas sonhipertensión, Cardiopatía, Historia de tabaquismo, Bmi, Prueba hemoglobina, Niveles de glucosa en la sangre y Diabetes:

Se identifica que, dentro de la muestra de dato, hay más mujeres que hombres dentro del estudio realizado.

Las edades de las personas que hicieron parte del estudio, oscilan entre los 20 y 80 años

Dentro del estudio de hipertensión, el 7.5% de las personas, tiene hipertensión y solo el 3.9% tiene cardiopatía

El 35% de las personas objeto del estudio, nunca han fumado, mientras que el otro 35% no dieron información al respecto.

Se identifica que dentro de la evaluación de BMI, se evidencia un pico de sobrepeso, ya que los limites son los siguientes:

Bajo peso: BMI menor a 18.5

Normal: BMI entre 18.5 y 24.9

Sobrepeso: BMI entre 25 y 29.9

Obesidad: BMI de 30 o más

El 8.5% de las personas objeto del estudio, tienen diabetes.

 Interacciones:

Dentro de este grafico se mostrará la relación entre dos variables: Una categórica y otra numérica, lo cual se mostrará la relación entre edad o sexo y BMI, Hemoglobina y niveles de azúcar en la sangre:

En esta gráfica, por ejemplo, se identifica que las personas entre los 40 y 60 años, tiene los niveles de hemoglobina altos, con prediabetes.

Los niveles de hemoglobina son:

-          Normal: HbA1c menor al 5.7%

-          Prediabetes (Glucosa en Ayunas Alterada o Tolerancia a la Glucosa Alterada): HbA1c entre 5.7% y 6.4%

-          Diabetes: HbA1c de 6.5% o superior

 Correlaciones:

Para la correlación entre enfermedades de diabetes por edades, se utilizó un mapa de calor, donde se puede mostrar la distribución o densidad de los datos en un mapa completo por cada variable:

En este mapa de calor, se evidencia que la diabetes tiende a aumentar con la edad, así mismo, también se evidencia que tanto para el sobrepeso y para el hábito del tabaquismo, también infiere que se puede afectar a personas más jóvenes

 

Otros gráficos obtenidos del ejercicio:

Estos gráficos nos pueden ayudar para familiarizarnos con los datos y poder comunicar los hallazgos encontrados, como parte del refinamiento de la data relevante para el estudio de diabetes:






Se concluye que las visualizaciones de datos son cruciales para considerar el contexto y tener en cuenta posibles sesgos en los datos. La visualización de datos es una herramienta poderosa para explorar y comunicar patrones en los datos, pero siempre debe ir acompañada de un análisis crítico y contextualizado, donde es necesario para una visualización de datos efectiva:

-          Patrones y Tendencias: Puedes identificar patrones y tendencias en los datos. Por ejemplo, podrías observar si hay algún cambio a lo largo del tiempo, si hay estacionalidad en los datos, o si hay algún patrón cíclico.

-          Correlaciones y Relaciones: La visualización puede ayudarte a identificar correlaciones y relaciones entre diferentes variables. Puedes determinar si hay una asociación positiva, negativa o ninguna entre dos o más variables.

Distribuciones y Formas de Datos: La forma de las distribuciones de tus datos puede darte información sobre la naturaleza de tus datos. Puedes identificar si los datos siguen una distribución normal o si hay sesgos y asimetrías.

Muchas gracias por su atención!

sábado, 29 de abril de 2023

El ciberataque: Mas común de lo que piensas!

Introducción

La utilización de las Tecnologías de la Información y Comunicación (TIC) en las empresas se ha convertido en una necesidad, sin embargo, también ha generado un aumento en los ciberdelitos. En Colombia, la falta de una normatividad actualizada en materia de TIC, sumado a la falta de mecanismos de prevención, ha llevado a que se presenten cada vez más delitos cibernéticos en el país. En este blog, se abordará el marco legal de la ciberseguridad en Colombia, los delitos más recurrentes en modalidad informática en los periodos 2019 y 2022, las modalidades delictuales, su forma de realización y cómo afectan a las empresas. También se presentará un caso de afectación a la ciberseguridad en la utilización de las TICs y se formularán recomendaciones legales y mecanismos de prevención contra el cibercrimen en el ámbito nacional.

1. Delitos más recurrentes en modalidad informática en Colombia

Aunque no se tiene un año específico del primer ataque cibernético en Colombia, se ha podido deducir que los ciberataques aumentaron en tiempos de pandemia de manera abismal. El crecimiento aumentó en un 83% en mayo de 2020, en pleno confinamiento, donde éramos blancos fáciles por el encierro al que estuvimos sometidos.
Las cifras fueron tomadas directamente del sistema Siedco Plus de la Policía Nacional que indican que, desde abril de 2020, por el aislamiento obligatorio que se presentó en el país por temas de Covid 19, este tipo de delitos, conocidos popularmente como informáticos, presentaron un crecimiento de más de 100% en comparación con el mismo mes de 2019 (ver gráfico).

 


En este periodo, se evidencia que las modalidades de delitos informáticos con mayor auge fueron:
- Spam y Scam mediante correos electrónicos
- Suplantación de sitios web
- Modificación y extracción de datos o registros personales
- Suplantación de identidad
- Sw malicioso
- Simulación de apps
- Ingeniería social

En la estadística presentada anteriormente, se tomó los delitos que fueron denunciados, sin embrago, se estima que al menos el 30% de la población afectada no lo hizo por negligencia o porque no cree en el sistema penal que apalanca la ley de delitos contra la protección de la información y de los datos.

Entre los delitos más recurrentes se encuentran:

  • Phishing: Esta modalidad consiste en la suplantación de identidad para obtener información confidencial del usuario, como contraseñas, números de tarjetas de crédito, entre otros.
  • Ransomware: Este tipo de malware restringe el acceso a los archivos del usuario, exigiendo un pago para liberarlos.
  • Ataques DDoS: Se trata de un ataque de denegación de servicio que tiene como objetivo saturar los servidores, impidiendo que los usuarios accedan a los servicios ofrecidos.
  • Malware: Consiste en programas maliciosos que se instalan en el equipo del usuario sin su consentimiento, con el fin de obtener información confidencial o controlar el equipo.
  • Botnets: Se trata de una red de computadoras infectadas por malware, que se controlan remotamente para realizar ataques o fraudes.
  • Fuga de información o datos: Esto normalmente ocurre cuando por algún incidente en seguridad se pierde la confidencialidad (lo que el primer supuesto es un ciberataque), o en ocasiones algunos trabajadores que salen con algún resentimiento, inconformidad o por perdida del celular o computador o envío de correos electrónicos.
  • Fraude del CEO: Esta modalidad se efectúa por medio de un ciberdelincuente que suplanta la identidad de un directivo para dirigirse a subalterno que tenga la capacidad de hacer movimientos financieros de la compañía.
  • Fraude del falso soporte técnico: Un falso técnico de una compañía da un aviso sobre supuestos errores detectados en los dispositivos de la compañía. De esta manera el ciberdelincuente puede tener el acceso deseado y luego de esto comienza la estafa que compromete la seguridad y privacidad de la empresa o el dispositivo de un colaborador.

Leyendo varios documentos de apoyo, varios indicaban que en Colombia tenemos un precario plan de acción frente a estos ataques y que en la mayoría de empresas de todos los sectores, son más reactivos que preventivos.

Se puede concluir, que las empresas del sector salud, son las más apetecidas por los ciberdelincuentes, por tener mayor vulnerabilidad y acceder al pago de rescates de la información.


2. Delitos son los más recurrentes contra las empresas.

En los periodos 2019 y 2022, se han presentado diferentes modalidades delictuales en el ámbito informático en Colombia. Entre los delitos más recurrentes se encuentran:
  • Phishing: Esta modalidad consiste en la suplantación de identidad para obtener información confidencial del usuario, como contraseñas, números de tarjetas de crédito, entre otros.
  • Ransomware: Este tipo de malware restringe el acceso a los archivos del usuario, exigiendo un pago para liberarlos.
  • Ataques DDoS: Se trata de un ataque de denegación de servicio que tiene como objetivo saturar los servidores, impidiendo que los usuarios accedan a los servicios ofrecidos.
  • Malware: Consiste en programas maliciosos que se instalan en el equipo del usuario sin su consentimiento, con el fin de obtener información confidencial o controlar el equipo.
  • Botnets: Se trata de una red de computadoras infectadas por malware, que se controlan remotamente para realizar ataques o fraudes.
  • Fuga de Información o datos: Esto normalmente ocurre cuando por algún incidente en seguridad se pierde la confidencialidad (lo que el primer supuesto es un ciberataque), o en ocasiones algunos trabajadores que salen con algún resentimiento, inconformidad o por perdida del celular o computador o envío de correos electrónicos.
  • Fraude del CEO: Esta modalidad se efectúa por medio de un ciberdelincuente que suplanta la identidad de un directivo para dirigirse a subalterno que tenga la capacidad de hacer movimientos financieros de la compañía.
  • Fraude del Falso Soporte Técnico: Un falso técnico de una compañía da un aviso sobre supuestos errores detectados en los dispositivos de la compañía. De esta manera el ciberdelincuente puede tener el acceso deseado y luego de esto comienza la estafa que compromete la seguridad y privacidad de la empresa o el dispositivo de un colaborador.


"El ciberdelito se ha convertido en la tipología criminal de mayor crecimiento en Colombia durante los últimos tres años; impulsado por aceleradores como la pandemia y el consecuente incremento del comercio electrónico cuyo crecimiento alcanzó el 59.4% en las transacciones durante el periodo de cuarentena obligatoria y del 35% durante el 2021 con ventas estimadas en 37 billones de pesos al finalizar el año, según cifras de la Cámara de Comercio electrónico de Colombia CCCE"


3.1. Caso de afectación a la ciberseguridad en la utilización de las TICs y recomendaciones legales y mecanismos de prevención

Un caso reciente de afectación a la ciberseguridad en Colombia es el ataque cibernético que sufrió el Ministerio de Defensa en febrero de 2021. Los cibercriminales lograron acceder a información confidencial del ministerio, comprometiendo la seguridad nacional. Este caso demuestra la importancia de tener medidas de seguridad efectivas y actualizadas para prevenir y mitigar el impacto de los ciberdelitos.
Es importante que las empresas y entidades gubernamentales tomen medidas para prevenir y protegerse de estos delitos. Algunas recomendaciones legales y mecanismos de prevención que se pueden implementar son:
  1. Actualización de la normatividad en materia de TIC: Es fundamental contar con una normatividad actualizada que permita a las empresas y entidades gubernamentales tener medidas de seguridad claras y efectivas.
  2. Capacitación y concientización: Es importante que los empleados y usuarios de TIC estén capacitados y conscientes de los riesgos que existen en línea y cómo prevenirlos.
  3. Implementación de sistemas de seguridad: Se deben implementar sistemas de seguridad efectivos, como firewalls, antivirus y sistemas de detección de intrusiones, para proteger los equipos y sistemas de información.
  4. Respaldos periódicos de información: Se recomienda realizar copias de seguridad periódicas de la información valiosa de la empresa, con el fin de recuperarla en caso de una afectación.
  5. Cooperación internacional: Es importante que las entidades reguladoras de las TIC en Colombia trabajen de manera coordinada con entidades internacionales para prevenir y mitigar el impacto de los ciberdelitos a nivel global.

Otros casos muy sonados el segundo semestre de 2022 fueron los de la EPS Sanitas y EPM, Donde se extendió a toda Latinoamérica y se tomaron como casos de estudio para generar planes de acción efectivo, al igual que dentro de las empresas colombianas.

"EPM cerró sus oficinas de atención al cliente este martes 13 de diciembre por cuenta de un ataque cibernético, solicitó a los funcionarios trabajar desde la casa como medida preventiva, pero por fortuna no se afectó la prestación de servicios de energía, agua y gas"

"El caso de la EPS Sanitas, adscrita a Keralty, surgió a finales de noviembre con inconvenientes en la página web, lo que imposibilitó que los usuarios pudieran acceder a las citas programadas y medicamentos certificados. Cabe resaltar que la entidad tiene más de 5 millones de usuarios"


Con estos casos, la empresa Fortinet, especialistas en seguridad perimetral, mejoraron sus productos y actualizaron versiones de productos existentes para mitigar la vulnerabilidad.

3.2. Recomendaciones generales

Educa a tus empleados: Muchos ciberataques se producen como resultado de errores humanos, por lo que es fundamental que tus empleados estén capacitados en ciberseguridad. Ofrece formación regular sobre temas como la seguridad de las contraseñas, el phishing y el uso seguro de los dispositivos y redes. Recuerde el error humano es un elemento para cuidar en la ciberseguridad. La formación debe ser un recurso constante en las empresas pero no la enfoques en solo consejos y conceptos realiza pruebas de seguridad de Ethical Hacking e Ingeniería Social como parte del proceso de formación.

Mantén tu software actualizado: Mantener el software de tus dispositivos y redes actualizado es fundamental para proteger tu empresa de las vulnerabilidades conocidas. Asegúrate de instalar regularmente las actualizaciones de seguridad y los parches correspondientes. Si trabajas en la nube utiliza escritorios virtuales.

Realiza copias de seguridad de tus datos: Las copias de seguridad son fundamentales para proteger tus datos de los ciberataques y los desastres naturales. Asegúrate de realizar copias de seguridad regularmente y almacenarlas de forma segura fuera de la red. Prueba a nivel empresarial el realizar ejercicios de continuidad para revisar cuanto te toma restablecer una copia de seguridad.

Implementa medidas de autenticación multifactor: La autenticación multifactor es una medida de seguridad eficaz que puede proteger tus cuentas de los ataques de suplantación de identidad. Asegúrate de implementar medidas de autenticación multifactor en todas tus cuentas, especialmente las que contienen información confidencial. Existen distintas herramientas es el caso de Google Authenticator.

Claves Seguras: Realizar cambio periódico de contraseñas, que contengan números, letras y caracteres especiales.

Correo sin Riesgos: Clasificar el correo desconocido como spam y no descargar sus archivos adjuntos; asegúrese que cada correo sea enviado por sus contactos


Conclusión

La ciberseguridad es un tema relevante en el mundo de las TIC y cada vez es más importante tomar medidas para prevenir y mitigar los ciberdelitos. En Colombia, es necesario contar con una normatividad actualizada en materia de TIC y con mecanismos de prevención efectivos, tanto en el ámbito empresarial como gubernamental, para garantizar la seguridad de la información y proteger la integridad de las empresas y de la nación en general. La implementación de recomendaciones legales y mecanismos de prevención efectivos permitirá reducir el impacto de los ciberdelitos y proteger a las empresas y ciudadanos del país.

Autores:
Claudia Marcela Díaz Montoya
Orlando Arboleda
Miguel Mora
Alejandro Martínez