TECNOLOGÍA
Compártelo
Proceso del Data Mining

Proceso del Data Mining

Data Mining es una parte de un proceso de rango superiorel descubrimiento del conocimiento. Sin embargo, Data Mining es un proceso en sí mismo, que a su vez consta de varias fases.”

Recomendación previa, leer:

Fases de Data Mining

Como se ha comentado anteriormente, Data Mining es una parte de un proceso de rango superior: el descubrimiento del conocimiento. Sin embargo, Data Mining es un proceso en sí mismo, que a su vez consta de varias fases.

Vamos a tomar como referencia el modelo CRISP (se denomina así por sus siglas en inglés Cross Industry Standard Process) de proceso de Data Mining.

Este modelo proporciona la descripción del ciclo de vida del proyecto de Data Mining, las fases de este proyecto, las tareas respectivas a cada fase y las distintas relaciones entre ellas.

El ciclo de vida del proyecto de minería de datos consiste en seis fases: comprensión del negocio, comprensión de los datos, preparación de datos, modelado, evaluación y despliegue.

ciclo-de-vida-del-data-mining

En este nivel de descripción, no es posible identificar todas las relaciones, sin embargo, es importante señalar que el movimiento reiterativo entre fases diferentes es importante para asegurar una visión de conjunto, es decir, como existe una dependencia entre las fases y los resultados producidos en ellas, tras completar las tareas de cada fase es necesario comprobar su impacto en el resto para mantener la coherencia del proceso.

Las relaciones pueden existir entre cualquier fase o tarea del proceso de minería de datos, variando de acuerdo a los objetivos del proceso, el contexto del mismo o por el interés del usuario sobre los datos.

De forma similar a lo comentado anteriormente, la minería de datos no se termina una vez que la solución es desplegada. Las informaciones ocultas que se han descubierto durante el proceso y la propia solución pueden provocar nuevas preguntas que llevan a reiniciar todas las fases en un proceso de mejora, por lo que los procesos de minería subsecuentes se beneficiarán de las experiencias previas.

A continuación, veremos un pequeño detalle de cada fase del proceso:

Comprensión del negocio

Esta es la fase con la que se abre el proceso. Se encuentra enfocada en la comprensión de los objetivos y exigencias de proyecto partiendo desde la perspectiva del negocio.

Tras ello, es necesario adquirir este conocimiento de los datos (repetimos, siempre desde el punto de vista del negocio) y convertirlo en la definición de un problema de minería de datos, trazando un plan preliminar de acuerdo a los objetivos planificados.

Comprensión de los datos

La fase de comprensión de datos comienza con la colección de datos inicial para continuar con las actividades que permiten alcanzar una familiaridad con ellos que permita identificar los problemas de calidad de datos.

La calidad de datos tiene varias dimensiones: exactitud (que se refleje lo que está pasando), totalidad (que se encuentren los datos completos en el sistema), oportunidad (accesible cuando sea necesario), relevancia, nivel de detalle y consistencia (mismos datos en todas las áreas o sistemas), por lo que será necesario comprobar como son los datos en cada una de estas dimensiones.

De esta manera ya se puede empezar a descubrir los primeros conocimientos en los datos, detectar aquellos conjuntos o subconjuntos de información interesantes para formar hipótesis que permitan avanzar en el descubrimiento de información oculta.

Preparación de datos

En esta fase de preparación de datos se quieren cubrir todas las actividades necesarias para adaptar los datos origen en bruto y aproximarlos al conjunto de datos final (los datos que serán fuente de las herramientas de modelado).

Las tareas de preparación o de limpieza de datos van a ser realizadas repetidas veces y no en cualquier orden. Entre estas tareas tenemos la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para su preparación para las herramientas de modelado.

Modelado

Como veremos en el próximo apartado, existen múltiples técnicas de modelado de datos, siendo en esta fase del proceso cuando, tras el conocimiento adquirido, se seleccionan las adecuadas (siempre de acuerdo a los objetivos de negocio y del proyecto) y se aplican.

En esta fase se buscan los siguientes cuatro tipos de relaciones:

  • Clases: las observaciones se asignan a grupos predeterminados.
  • Clusters: se construyen grupos de observaciones similares según un criterio prefijado.
  • Asociaciones: las observaciones son usadas para identificar asociaciones entre variables.
  • Patrones secuenciales: se trata de identificar patrones de comportamiento y tendencias.

Entre estas técnicas podemos encontrar: la caracterización o resumen, la discriminación o contraste, el análisis de asociación, la clasificación, la predicción, el clustering o la detección de agrupamientos, la detección de anomalías, el análisis de la evolución y de la desviación… También existen diferentes técnicas para resolver el mismo tipo de problema de minería de datos. Algunas técnicas tienen requerimientos específicos sobre la forma de datos. Por lo tanto, volver a la fase de preparación de datos para adecuar estos a la técnica pues ser necesario.

Evaluación

Como resultado de la fase anterior, en esta etapa en el proyecto ya se ha construido un modelo. Para asegurarnos de que se cumple con los estándares de calidad propuestos para el proyecto es necesario evaluarlo desde una perspectiva de análisis de datos. Es decir, antes del proceder al despliegue final y su puesta en producción, es importante realizar una batería de pruebas junto con la revisión de cada paso ejecutados en la creación del modelo, que ayude a comparar el modelo obtenido con los objetivos de negocio.

Un objetivo clave es determinar si se han cubierto todas las expectativas de negocio, asegurando que no hay “gaps” o lagunas que no hayan sido cubiertas.

Despliegue o Explotación

En esta fase se realiza la explotación y uso de los resultados del proceso de Data Mining lo que, dependiendo de los requerimientos, puede ser tan sencillo como la generación de un informe o tan complejo como la realización repetida de un proceso cruzado de minería de datos a través de la empresa. Por lo que, en muchos casos, es el propio cliente y no el analista de datos, quien realiza la explotación.

Data Mining es un proceso iterativo, por lo que, la creación del modelo no implica el final del proyecto. El conocimiento ganado como resultado del proceso es perfectamente utilizable de nuevo como información de entrada para volver a realizar otro ciclo del proceso KKD completo.

Es decir, una vez que el conocimiento descubierto se presenta al usuario, las medidas de evaluación pueden mejorarse, la minería puede ser refinado, los nuevos datos se pueden seleccionar o transformado de nuevo o agregar nuevas fuentes de datos…, todo esto para obtener resultados diferentes o más apropiados.

Continuación...

Artículo Anterior Conciliación de la vida personal y profesional
Artículo Siguiente Implementación del Modelo de Revenue Management
Compártelo
 

Comentarios

No hay comentarios por el momento. Se el primero en enviar un comentario.
Invitado
Jueves, 23 Marzo 2023
            

Síguenos

LinkedIn Youtube Twitter Instagram Facebook

Suscríbete a nuestro Magazine

Recibe Artículos, Conferencias
y Master Class

(*) He leído y acepto la Politica de Privacidad

Masterclass Tecnología

Tecnología

SHODAN

Tecnología

WAF

Tecnología

Objetivos de la inteligencia artificial

Recibe tu
Pase Anual de
Conferencias
#conferenciaceupe
INSCRÍBETE

Noticias más populares

¿Qué es un MBA? Concepto, beneficios y salidas profesionales
Los MBA son un tipo de máster altamente valorado en el sector empresarial, dado su potencial para formar a perfiles profesionales capaces de asumir roles importantes dentro de una organización. Defini...
CEUPE Ecuador y el CIEEPI firman convenio de colaboración académica
CEUPE – Ecuador firma el pasado 26 de mayo de 2021 en Quito, Ecuador, el convenio de cooperación académica interinstitucional con el CIEEPI - Colegio de Ingenieros Eléctricos y Electrónicos de Pichinc...
Objetivos y beneficios de la externalización logística
👉Frente a la elevada competencia en el mercado y la tendencia a reducir costes y recortar gastos, los empresarios se centran en su actividad principal y subcontratan la gestión de actividades secundar...
Métodos de análisis de la inversión
El análisis de la inversión forma parte de la teoría de la inversión. La inversión como proceso de aumento del capital del inversor requiere comprender y evaluar la viabilidad de invertir en un proyec...

EMPRESAS

¿Qué es un Bien digital? Ejemplos y características
Se entiende por bien digital a cualquier bien que limita su presencia en los entornos digitales. Definición de bien digital Un bien digital es un bien...
Modelo de negocio de la empresa: concepto y reglas
El modelo de negocios de la empresa muestra los métodos y formas de obtener ganancias, la dirección de los gastos de la organización. Sin ella, es imp...
Bien no duradero: Qué es, ejemplos y características
Se entiende por bien no duradero a aquel bien de consumo rápido. Definición de Bien no duradero Un bien no duradero es un producto que se agota rápida...
Gerente de profesión
La mayoría de las veces, escuchamos sobre la profesión de gerente en el círculo de personas de negocios, pero pocas personas entienden qué hace un rep...

MARKETING

Descuento: Qué es, ejemplos y tipos
En marketing, un descuento es un tipo de promoción de ventas, empleado para disminuir la barrera de adquisición de un bien, sea tangible o intangible....
Profesión comercializador de Internet
Un comercializador de Internet es un especialista que, utilizando técnicas de marketing tradicionales, se dedica a la promoción de bienes y servicios ...

CIENCIAS

Síguenos

LinkedIn Youtube Twitter Instagram Facebook

Masterclass Tecnología

Tecnología

SHODAN

Tecnología

WAF

Tecnología

Objetivos de la inteligencia artificial

Recibe tu
Pase Anual de
Conferencias
#conferenciaceupe
INSCRÍBETE

Conferencias más vistas

Thumbail
Thumbail
Thumbail
Thumbail
Thumbail

LOGÍSTICA

RRHH

TURISMO

PSICOLOGÍA

TECNOLOGÍA

FINANZAS