Masters y MBA online y a distancia

Técnicas y Aplicaciones de Data Mining

Técnicas y Aplicaciones de Data Mining

Data Mining es una parte de un proceso de rango superiorel descubrimiento del conocimiento. Sin embargo, Data Mining es un proceso en sí mismo, que a su vez consta de varias fases.”

Recomendación previa, leer:

Técnicas de Data Mining

Existe una relación entre los tipos de patrones que se pueden descubrir y las tareas empleadas en el proceso de Data Mining o minería de datos.

Se puede decir que existen dos tipos de tareas de minería de datos: aquellas orientadas a describir las propiedades generales de los datos existentes, y las tareas orientadas a la predicción, estas intentan realizar predicciones basadas en la inferencia de los datos disponibles.

A continuación, presentaremos una breve lista donde se describen estas técnicas.

  • Caracterización o resumen. La caracterización de datos consiste en la realización de un resumen de las características generales de los objetos de una clase y produce lo que se denomina normas características. Los datos correspondientes a una clase especificada por el usuario son normalmente recuperados por una consulta de base de datos y ejecutada a través de un módulo de integración para extraer la esencia de los datos para los distintos niveles de abstracción.
  • Discriminación o contraste. La discriminación de datos produce lo que se denomina normas discriminantes, que consiste básicamente en la comparación de las características generales de los objetos entre dos clases, referidas como clase de objetivo y clase de contraste.
  • Análisis de asociación. Análisis de asociación es la búsqueda de lo que comúnmente se llama como reglas de asociación. Se estudia la frecuencia con la que los dos o más elementos aparecen juntos en las bases de datos transaccionales, y sobre la base de un umbral denominado apoyo, identifica los conjuntos de elementos frecuentes. Otro umbral, la confianza, que es la probabilidad condicional con la que un elemento aparece en una transacción cuando otro elemento aparece, se utiliza para determinar las reglas de asociación. Esta técnica es ampliamente en empresas de comercio electrónico para analizar la cesta de la compra de sus clientes que ayude a identificar los gustos de los clientes.
  • Clasificación. La clasificación se basa en el análisis de la organización de los datos dentro de las clases. También se conoce como clasificación supervisada, la clasificación usa las etiquetas de la clase para ordenar los objetos dentro de la colección de datos.

El procedimiento normal consiste en la utilización de un grupo de aprendizaje o de testeo donde todos los objetos ya se encuentran asociados a las etiquetas de clase conocidas. Posteriormente el algoritmo de clasificación aprende de este conjunto de testeo y construye un modelo con el que se clasifican los objetos nuevos.

  • Predicción. La predicción es una técnica muy interesante en un contexto de negocios por su alto potencial y las implicaciones en caso de pronóstico exitoso. Existen dos grandes tipos de predicciones: unos pueden tratar de predecir algunos valores de datos no disponibles o tendencias dentro de estos datos, el otro puede predecir una etiqueta de clase para algunos datos. Este último está vinculado a la técnica vista anteriormente, la clasificación.

Una vez que se construye un modelo de clasificación sobre la base de un conjunto de testeo, la clase etiqueta de un objeto puede ser deducida sobre la base de los valores de atributo del objeto y los valores de los atributos de las clases. Sin embargo, la predicción se refiere más frecuentemente como deducción de valores numéricos inexistentes, o el incremento / disminución de las tendencias en un plazo.

La idea principal es utilizar un gran número de valores pasados para determinar posibles valores futuros.

  • Clustering o detección de agrupamientos. Similar a la clasificación, el clustering consiste en la organización de los datos dentro de clases. Sin embargo, la diferencia se encuentre en que, en esta técnica, se desconocen las etiquetas de las clases, por lo que es el algoritmo de “clusterización” o agrupamiento el que se encarga de descubrir clases aceptables. La “clusterización” también se conoce como su clasificación sin supervisión puesto que no se realiza o no está dictada por las etiquetas de clase dadas.

Existen distintas maneras de aproximación a la “clusterización”, todos ellas basadas en el principio de maximizar la similitud entre los objetos de una misma clase (similitud intraclase) y minimizar la similitud entre los objetos de clases diferentes (similitud inter-clase).

  • Outlier analysis o detección de anomalías. Los valores atípicos son elementos de datos que no pueden ser agrupados dentro de una clase dada o clúster. También se conocen como excepciones, sorpresas o anomalías y a menudo son muy importantes de identificar. Mientras que los valores atípicos suelen considerarse como ruido y ser desechado en algunas aplicaciones; en otros dominios, estos valores pueden revelar un conocimiento muy importante, por lo tanto, su análisis puede ser muy valioso aportando gran información a la organización.
  • Evolución y análisis de desviación. La evolución y el análisis de desviación se refieren al estudio de los datos y sus cambios dentro de una escala temporal.

La evolución analiza los modelos de tendencias en los datos, a través de la caracterización, comparación, clasificación o agrupación de los datos dentro del marco temporal.

Por otro lado, el análisis de la desviación observa las diferencias entre los valores medidos y los valores esperados, intentando determinar la causa de estas desviaciones.

Aplicaciones de Data Mining

Entre las distintas aplicaciones del Data Mining podemos encontrar las siguientes:

  • Comercio/Marketing, donde, a través del proceso KDD, podemos descubrir patrones de compra o gustos de los clientes, que a su vez pueden ser utilizados para realizar recomendaciones.

También se pueden descubrir patrones de compra de acuerdo a su edad, estado civil…, relacionar las compras de los clientes de acuerdo a características comunes…

  • Banca/Seguros, la identificación de la capacidad adquisitiva de los clientes, perfil del cliente de acuerdo a su grado de riesgo, medición del grado de lealtad o riesgo de fuga, detección de patrones de uso fraudulento de tarjetas de crédito…

Se utiliza ampliamente en Seguros para señalar el uso fraudulento, la posibilidad de incrementar la venta cruzada de acuerdo al perfil del cliente, determinar el grado de riesgo…

  • Salud. En este campo se están descubriendo nuevos usos cada día, siendo muy útil para, por ejemplo, la segmentación de pacientes, la identificación de terapias médicas adecuadas para diferentes enfermedades, la asociación de síntomas y la clasificación diferencial de patologías, el estudio de factores de riesgo (genéticos, precedentes, hábitos, alimenticios, etc.), en estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc.

Sin embargo, todo lo enumerado anteriormente son solo ejemplos, existen innumerables aplicaciones del KDD, desde ayuda a la logística hasta la salud. Queda la conceptualización de otros ejemplos dentro de la experiencia personal.

Valora este artículo del blog:
Políticas de gestión de Recursos Humanos
Previsión de la demanda hotelera
 

Comentarios

No hay comentarios por el momento. Se el primero en enviar un comentario.
Invitado
Miércoles, 20 Noviembre 2019

ESCUELA INTERNACIONAL

Proyección Internacional, con alumnos y antiguos alumnos residentes en más de 38 países y sedes en América Latina

AYUDAS DIRECTAS AL ESTUDIO

Plan Internacional de Ayudas Global Learning con una dotación anual superior al millón de euros repartidas entre 1.000 alumnos

PROFESORADO UNIVERSITARIO Y DIRECTIVO

Contamos con un claustro de profesores de alto nivel académico y directivo, con más de 15 años de experiencia docente y profesional
CEUPE - Centro Europeo de Postgrado y Empresa