Minería de Datos y KDD

Es un campo de las ciencias de la computación que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su posterior uso. La minería de datos incluye la etapa de análisis en bruto, la cual involucra aspectos de bases de datos y de gestión de datos, de procesamiento de datos, de la construcción del modelo y de las consideraciones de inferencia de métricas de intereses.

Si bien la definición anterior es utilizada ampliamente hoy en día para el concepto de “minería de datos” pues inherente y anterior a ésta encontramos el llamado proceso de KDD por las siglas de knowledge discovery in databases el cual es un proceso no trivial para identificar patrones válidos, novedosos, potencialmente útiles y en última instancia, comprensibles a partir de los datos.

La siguiente figura muestra las etapas de un típico proceso de KDD:

Figura: Proceso KDD – knowledge discovery in database.
Fuente: Adaptación de “From data mining to knowledge discovery in databases”


Los objetivos esenciales de todo proceso de KDD son los siguientes:

• Procesar de manera automática grandes cantidades de datos.
• Descubrir patrones no triviales significativos y relevantes.
• Permitir la visualización de conocimiento de alto valor en apoyo a objetivos de negocios y toma de decisiones.

Aquí, los datos son un conjunto de hechos (por ejemplo, los temas de una base de datos) y los patrones, una expresión que describe un subconjunto de los datos, o bien, un modelo que puede ser aplicado al subconjunto. Por lo tanto, para esta actividad, la extracción de patrones también designará al proceso de ajustar un modelo a cada dato, encontrar una estructura a partir de éstos, o básicamente realizar cualquier descripción de alto nivel a un grupo de datos. El término proceso, implica que el KDD incluye muchas etapas, dentro de las que encuentran la preparación de datos, búsqueda por patrones, evaluación del conocimiento y refinamiento.

Las áreas fundamentales de un proyecto de minería de datos son las siguientes:

Entender el problema y dominio del negocio: Esta primera área es fundamental para la calidad del resto de las áreas, poseer un entendimiento cabal y objetivos estratégicos del negocio es crucial para que la solución aporte valor agregado al proyecto y conseguir una alineación sistemática con el resto de la organización.

Comprensión de los datos: Este componente se refiere a que es necesario conocer cabalmente los datos de la organización a un nivel estructural y descriptivo, también es muy relevante conocer la historia en el uso y fluctuaciones de los datos en la organización, esto se refiere a que se debe saber el significado del comportamiento de éstos a lo largo del tiempo y en las distintas condiciones del mercado y/o industria.

Determinación, obtención y limpieza: Esta área se relaciona con detectar y obtener datos desde distintas fuentes y sistemas, también se refiere a las acciones de pre-procesamiento de los datos.

Definición y creación de modelos analíticos: Nos referimos a la definición de los métodos y técnicas que se usarán para encontrar los patrones que le agregarán valor al negocio, se pueden utilizar métodos supervisados y no supervisados lo que consecutivamente deriva en seleccionar algoritmos analíticos para cada fin. El tipo de método a utilizar dependerá de la característica del problema que se quiera resolver, para el caso de la utilización de métodos supervisados es crítico que la organización cuente con datos históricos estandarizados.

Interpretación, comunicación, evaluación y validación de los resultados: Una vez obtenidos los resultados, lo siguiente es poder validar si el valor de éstos y si los nuevos patrones obtenidos tienen valor para la toma de decisiones o mejoramiento de la propuesta de valor de la organización.

Implantación e integración de la solución a los sistemas y cadena de valor: En el caso de que el nuevo conocimiento extraído tenga valor adquirido para la organización, los mecanismos con los cuales se obtuvo dicho conocimiento se deben implantar en la estructura de procesos de la organización, los sistema de información de cada organización deberán apoyar a la estructura de procesos y objetivos de negocios que se requieren mejorar mediante la instauración y formalización de esta nueva capacidad.

Bibliografía
Fayyad, U., Piatetsky-Shapiro, G & Smyth, P. (1996). From data mining to knowledge discovery in Databases: an overview. Ai Magazine. pp. 37-54

Posted in Inteligencia Artificial, Minería de Datos