TECNOLOGÍA

Compártelo

Técnicas y Aplicaciones de Data Mining

“Data Mining es una parte de un proceso de rango superior: el descubrimiento del conocimiento. Sin embargo, Data Mining es un proceso en sí mismo, que a su vez consta de varias fases.”

Recomendación previa, leer:

Origen del Data Mining
Proceso del Data Mining

Técnicas de Data Mining

Existe una relación entre los tipos de patrones que se pueden descubrir y las tareas empleadas en el proceso de Data Mining o minería de datos.

Se puede decir que existen dos tipos de tareas de minería de datos: aquellas orientadas a describir las propiedades generales de los datos existentes, y las tareas orientadas a la predicción, estas intentan realizar predicciones basadas en la inferencia de los datos disponibles.

A continuación, presentaremos una breve lista donde se describen estas técnicas.

Caracterización o resumen. La caracterización de datos consiste en la realización de un resumen de las características generales de los objetos de una clase y produce lo que se denomina normas características. Los datos correspondientes a una clase especificada por el usuario son normalmente recuperados por una consulta de base de datos y ejecutada a través de un módulo de integración para extraer la esencia de los datos para los distintos niveles de abstracción.
Discriminación o contraste. La discriminación de datos produce lo que se denomina normas discriminantes, que consiste básicamente en la comparación de las características generales de los objetos entre dos clases, referidas como clase de objetivo y clase de contraste.
Análisis de asociación. Análisis de asociación es la búsqueda de lo que comúnmente se llama como reglas de asociación. Se estudia la frecuencia con la que los dos o más elementos aparecen juntos en las bases de datos transaccionales, y sobre la base de un umbral denominado apoyo, identifica los conjuntos de elementos frecuentes. Otro umbral, la confianza, que es la probabilidad condicional con la que un elemento aparece en una transacción cuando otro elemento aparece, se utiliza para determinar las reglas de asociación. Esta técnica es ampliamente en empresas de comercio electrónico para analizar la cesta de la compra de sus clientes que ayude a identificar los gustos de los clientes.
Clasificación. La clasificación se basa en el análisis de la organización de los datos dentro de las clases. También se conoce como clasificación supervisada, la clasificación usa las etiquetas de la clase para ordenar los objetos dentro de la colección de datos.

El procedimiento normal consiste en la utilización de un grupo de aprendizaje o de testeo donde todos los objetos ya se encuentran asociados a las etiquetas de clase conocidas. Posteriormente el algoritmo de clasificación aprende de este conjunto de testeo y construye un modelo con el que se clasifican los objetos nuevos.

Predicción. La predicción es una técnica muy interesante en un contexto de negocios por su alto potencial y las implicaciones en caso de pronóstico exitoso. Existen dos grandes tipos de predicciones: unos pueden tratar de predecir algunos valores de datos no disponibles o tendencias dentro de estos datos, el otro puede predecir una etiqueta de clase para algunos datos. Este último está vinculado a la técnica vista anteriormente, la clasificación.

Una vez que se construye un modelo de clasificación sobre la base de un conjunto de testeo, la clase etiqueta de un objeto puede ser deducida sobre la base de los valores de atributo del objeto y los valores de los atributos de las clases. Sin embargo, la predicción se refiere más frecuentemente como deducción de valores numéricos inexistentes, o el incremento / disminución de las tendencias en un plazo.

La idea principal es utilizar un gran número de valores pasados para determinar posibles valores futuros.

Clustering o detección de agrupamientos. Similar a la clasificación, el clustering consiste en la organización de los datos dentro de clases. Sin embargo, la diferencia se encuentre en que, en esta técnica, se desconocen las etiquetas de las clases, por lo que es el algoritmo de “clusterización” o agrupamiento el que se encarga de descubrir clases aceptables. La “clusterización” también se conoce como su clasificación sin supervisión puesto que no se realiza o no está dictada por las etiquetas de clase dadas.

Existen distintas maneras de aproximación a la “clusterización”, todos ellas basadas en el principio de maximizar la similitud entre los objetos de una misma clase (similitud intraclase) y minimizar la similitud entre los objetos de clases diferentes (similitud inter-clase).

Outlier analysis o detección de anomalías. Los valores atípicos son elementos de datos que no pueden ser agrupados dentro de una clase dada o clúster. También se conocen como excepciones, sorpresas o anomalías y a menudo son muy importantes de identificar. Mientras que los valores atípicos suelen considerarse como ruido y ser desechado en algunas aplicaciones; en otros dominios, estos valores pueden revelar un conocimiento muy importante, por lo tanto, su análisis puede ser muy valioso aportando gran información a la organización.
Evolución y análisis de desviación. La evolución y el análisis de desviación se refieren al estudio de los datos y sus cambios dentro de una escala temporal.

La evolución analiza los modelos de tendencias en los datos, a través de la caracterización, comparación, clasificación o agrupación de los datos dentro del marco temporal.

Por otro lado, el análisis de la desviación observa las diferencias entre los valores medidos y los valores esperados, intentando determinar la causa de estas desviaciones.

Aplicaciones de Data Mining

Entre las distintas aplicaciones del Data Mining podemos encontrar las siguientes:

Comercio/Marketing, donde, a través del proceso KDD, podemos descubrir patrones de compra o gustos de los clientes, que a su vez pueden ser utilizados para realizar recomendaciones.

También se pueden descubrir patrones de compra de acuerdo a su edad, estado civil…, relacionar las compras de los clientes de acuerdo a características comunes…

Banca/Seguros, la identificación de la capacidad adquisitiva de los clientes, perfil del cliente de acuerdo a su grado de riesgo, medición del grado de lealtad o riesgo de fuga, detección de patrones de uso fraudulento de tarjetas de crédito…

Se utiliza ampliamente en Seguros para señalar el uso fraudulento, la posibilidad de incrementar la venta cruzada de acuerdo al perfil del cliente, determinar el grado de riesgo…

Salud. En este campo se están descubriendo nuevos usos cada día, siendo muy útil para, por ejemplo, la segmentación de pacientes, la identificación de terapias médicas adecuadas para diferentes enfermedades, la asociación de síntomas y la clasificación diferencial de patologías, el estudio de factores de riesgo (genéticos, precedentes, hábitos, alimenticios, etc.), en estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc.

Sin embargo, todo lo enumerado anteriormente son solo ejemplos, existen innumerables aplicaciones del KDD, desde ayuda a la logística hasta la salud. Queda la conceptualización de otros ejemplos dentro de la experiencia personal.

Maestría en
Videojuegos para e-Sports

TECNOLOGÍA

Modalidad

ONLINE

Duración

16 meses - 75 créditos

Evaluación

Continua con casos prácticos

Financiación

Pago en cuotas mensuales sin intereses

MÁS INFORMACIÓN

Compártelo

Sobre el autor

Blog de CEUPE

Comentarios

No hay comentarios por el momento. Se el primero en enviar un comentario.

Suscríbete a nuestro Magazine

Recibe Artículos, Conferencias
y Master Class

Masterclass Tecnología

Tecnología

Librerías

Tecnología

Introducción a las APIs

Tecnología

Intérprete de Python

Noticias más populares

SOBRE CEUPE TECNOLOGÍA

Guía gratuita para iniciarte en Ciberseguridad

¿Te interesa la ciberseguridad pero no sabes por dónde empezar? Este ebook gratuito de CEUPE es para ti Hoy más que nunca, la ciberseguridad es una de las áreas más críticas y con mayor demanda en el ...

SOBRE CEUPE

CEUPE consolida su liderazgo internacional en el ranking de Financial Magazine 2025

La Escuela de Negocios Online se posiciona en el Top 3 de LATAM.

SOBRE CEUPE

Testimonios de graduados en la Semana Internacional CEUPE

El pasado mes de octubre, CEUPE llevó a cabo una nueva edición de la Semana Internacional en la vibrante ciudad de Madrid. Este evento es mucho más que un simple encuentro; es una oportunidad única pa...

LOGÍSTICA

Objetivos y beneficios de la externalización logística

👉Frente a la elevada competencia en el mercado y la tendencia a reducir costes y recortar gastos, los empresarios se centran en su actividad principal y subcontratan la gestión de actividades secundar...

EMPRESAS

EMPRESAS PSICOLOGÍA

Pensamiento divergente: qué es, ejemplos y actividades

En el mundo actual, la innovación marca la diferencia entre el éxito y el estancamiento y, para poder innovar, debemos comprender cómo funciona nuestr...

RRHH EMPRESAS

Transparencia salarial en la UE: su impacto en España

La Unión Europea ha aprobado la ley de transparencia salarial, una normativa que busca acabar con la brecha salarial de género. En España, la norma en...

EMPRESAS

Qué es un contrato mercantil y cómo funciona

En el mundo laboral y empresarial, es muy frecuente escuchar frases como “me quieren hacer un contrato mercantil” o tener dudas como “¿puedo tener un ...

EMPRESAS

Economía circular en empresas y hogares: ejemplos

La economía circular es la forma de construir un modelo de producción y consumo más sostenible. Este modelo propone mantener los recursos en uso el ma...

MARKETING

¿Qué es una marca blanca y quién la fabrica?

¿Te has fijado la de productos que hay en el supermercado que parecen idénticos y simplemente tienen una etiqueta diferente? Esta estrategia de comerc...

MARKETING

CEUPE analiza el papel de la IA en la transición hacia un modelo productivo sostenible

La convergencia entre Inteligencia Artificial y sostenibilidad abre una oportunidad histórica para transformar el modelo productivo global. CEUPE, bus...