" la
minería de datos es una actividad en expansión aplicada cada vez en más
disciplinas, que han visto la utilidad del estudio de datos para apoyar
la toma de decisiones. Especial énfasis está teniendo en aquellas áreas
relacionadas con la Economía, mediante la Econometría, y dentro del
campo de inteligencia de los negocios" Algunas
de las tareas mas importantes de la minería de datos incluyen
la identificación de aplicaciones para las técnicas existentes, y
desarrollar nuevas técnicas para dominios tradicionales o de
nueva aplicación, como el comercio electrónico y la bioinformatica . Existen numerosas áreas donde la
minería de datos se puede aplicar, practicamente a todas las actividades
humanas que generen datos:
_Comercio y banca: Segmentación de clientes, previsión de ventas, análisis de riesgos. _Medicina y farmacia: diagnostico de enfermedades y la efectividad de tratamientos. Ejemplo
"Supongamos
un hospital donde hay unos datos de pacientes y un diagnóstico. Se
puede tener una tabla de datos que incluya por ejemplo datos como
Paciente / Edad / Glóbulos rojos / Glóbulos blancos / Tensión / Azúcar /
Diagnóstico. ¿Para qué le serviría la minería de datos al hospital? Pues
por ejemplo para hacer un prediagnóstico de la dolencia que con mayor
probabilidad pueda tener un paciente en base a sus datos asociados. Un
tipo de dolencia se dice que es un dato discreto porque solo puede tomar
unos valores concretos (por ejemplo que haya 30 tipos de dolencias).
Estudiando y tratando los datos se pueden llegar a conclusiones, por
ejemplo que si un paciente tiene más de 60 años, los glóbulos blancos
muy altos y el azúcar alto es muy probable que esté desarrollando
diabetes. Si el paciente corresponde a ese perfil, la decisión puede ser
hacer unas pruebas específicas o poner cierto tratamiento preventivo"
_Seguridad y detección de fraudes: reconocimiento facial, identificación biometricas, accesos a redes no permitidos etc. _Recuperación de información no
numérica: minería de texto, minería de web, búsqueda e identificación de
imagenes, video, voz y texto en bases de datos multimedia.
_Astronomía: identificacion de nuevas galaxias y estrellas.
_Geología,
minería, agricultura y pesca: identificacion de áreas de uso para
distintos cultivos o de pesca o de explotación minería en bases de datos
de imagenes satelitales.
_Ciencias
sociales: Estudios de los flujos de la opinión publica, identificar
barrios con conflictos en funcion de valores sociodemograficos.
_Ciencias
ambientales: Identificacion de modelos de funcionamientos de
ecosistemas naturales y/o artificiales para mejorar su observacion,
gestión y/o control.
Las
reglas de asociación en la minería de datos se utilizan para encontrar
hechos que ocurren en común dentro de un conjunto de datos. Dicho de
otra manera que debe ocurrir ciertas condiciones para que se produzca
cierta condición.
Para
encontrar estas reglas de debe considerar cada posible combinación de
condiciones para que halla una consecuencia. Al hablar de reglas de
asociación también cumple un rol importante la cobertura o también
llamado soporte que es el número de instancias predichas correctamente y
la precisión o confianza que es la proporción de numero de instancias
que es aplicada la regla.
{Confianza} → {Soporte}
{X} → {Y}
Reglas significativas de soporte y confianza
Se tiene la siguiente tabla:
Ambiente
Temperatura
Humedad
Viento
Clase
soleado
alta
alta
no
N
soleado
alta
alta
si
N
nublado
alta
alta
no
P
lluvia
media
alta
no
P
lluvia
baja
normal
no
P
lluvia
baja
normal
si
N
nublado
baja
normal
si
P
soleado
media
alta
no
N
soleado
baja
normal
no
P
lluvia
media
normal
no
P
soleado
media
normal
si
P
nublado
media
alta
si
P
nublado
alta
normal
no
P
lluvia
media
alta
si
N
Se llama ítem a la cantidad de condiciones que se encuentran en este caso serian 4 ambiente, temperatura, humedad y viento
En esta tabla anterior se dan las siguientes probabilidades y el soporte:
humedad=normal
y
viento=no
entonces
clase=P
4/4
humedad=normal
y
clase=P
entonces
viento=no
4/6
viento=no
y
clase=P
entonces
humedad=normal
4/6
humedad=normal
entonces
viento=no
y
clase=P
4/7
viento=no
entonces
clase=P
y
humedad=normal
4/8
clase=P
entonces
viento=no
y
humedad=normal
4/9
Eso solo son algunas ya que en este ejemplo existen cerca de 55 reglas de asociación
Data
mining a lo largo de la historia ha sido llamado de distintas maneras. A
partir de los años sesenta los estadísticos utilizaban el termino de
data fishing (pesca de datos) o data dredging (filtración de datos) con
la idea de encontrar correlaciones sin una hipótesis previa en bases de
datos con ruido.
En
1989, Gregory Piatetsky-Shapiro utilizo el termino Knowledge Discovery
in Databases (descubrimiento de conocimiento en base de datos) mas
conocido pro sus siglas KDD, sin embargo al usarlo indistintamente se
entra en un error porque el proceso de data mining es la aplicación de
algoritmos para extraer patrones de datos y KDD es el proceso completo.
El
termino de Data mining se empezó a usar a partir de los años noventa
además también se uso data Archaeology (arqueología de datos),
Information Harvesting (recolección de información), Information
Discovery (Descubrimiento de Información), Knowledge Extraction
(Extracción de conocimiento), entre otros. Antes de esto existió otro
termino que era Database MiningTM, pero esta frase fue
registrada por la empresa HNC, y por ese motivo los investigadores
decidieron cambiarlo por data mining que es el termino que mas se usa
actualmente.
En la actualidad las organizaciones suelen moverse dentro de
estructuras identificadas con un cambio continuo; por ello, las
empresas privadas tanto como las públicas deben tener la capacidad de
ser adaptativas, aprender cómo resolver problemas y generar
conocimiento, para establecer nuevos métodos en pro de la resolución de
los mismos.
Las organizaciones, en la búsqueda por la obtención de los mejores
resultados de su gestión organizacional, adoptan la flexibilización
como estrategia, con el objetivo de adecuarse a un mercado globalizado,
dando origen a un proceso que incide en su sistema estructural. Así
pues, una empresa flexible es la que se orienta hacia los clientes,
posee tecnología nueva y presenta acuerdos laterales de organización e
innovación (Hansen y Mouritsen, 1999).
Las aplicaciones necesarias para gestionar el flujo de información en
las actividades de negocio se pueden clasificar en dos importantes
categorías: las aplicaciones que manejan las transacciones y las
estadísticas que ayudan a convertir los datos en información útil para
la toma de decisiones. Además está el sistema de indicadores, formado
por las bases de datos donde se almacenan los datos importantes para
evaluar y mejorar el funcionamiento de las actividades que componen la
cadena de suministro y por aplicaciones de análisis que facilitan la
comprensión de las tendencias y patrones presentes en los datos. El
sistema de indicadores se considera como un instrumento de integración
básico a través de la comunicación y diálogo que se establece, en base a
los datos, entre los diferentes actores del proceso.
En la visión de Castañeda y Rodríguez (2003), el uso de la Minería de
Datos o Data Mining, como soporte a las decisiones en las actividades
de negocio, requiere mucho más que la aplicación de sofisticadas
técnicas como redes neuronales o árboles de decisión sobre las tablas
de datos. Por esta razón, en el presente documento se muestra a la
Minería de Datos por un lado, como uno de los pasos del proceso de
descubrimiento de conocimiento en base de datos (KDD) y por otro lado
como un proceso que consta de diferentes fases, en las cuales se
utilizan como apoyo, técnicas relacionadas con la estadística, el
reconocimiento de patrones y algoritmos de aprendizaje, entre otras.
Todos estos estudios han incrementado el deseo desenfrenado por
demandar un mayor control de los procesos u operaciones y servicios,
visto como núcleo de una gestión global, fundamental para proporcionar
servicios de calidad y lograr un rendimiento óptimo de las inversiones,
en infraestructuras comerciales, en un entorno competitivo dirigido
hacia una gestión de clientes.
Este trabajo constituye un primer acercamiento a un área de
investigación de reciente data, el cual tiene como propósito presentar
algunas bases teóricas sobre la incidencia de la Minería de Datos como
soporte en la toma de decisiones, aplicadas a las actividades de
negocio. La elaboración de la reflexión teórica hace énfasis en los
postulados metodológicos del paradigma cualitativo, el cual permite la
construcción del conocimiento partiendo de una visión integral,
interpretativa y contextual del fenómeno a estudiar. Las teorías
consultadas se interpretaron para establecer por inferencia deductiva
algunas consideraciones relacionadas a la Minería de Datos y a algunos
indicadores que permitan medir el interés y el impacto del conocimiento
que se puede obtener, al emplearla, como soporte para la toma de
decisiones en las organizaciones.
La minería de datos se aplica a todo tipo de datos imaginable: desde datos numéricos a imágenes de satélite, mamografías, música, archivos de ordenador, imágenes, etc. Podemos decir que “cualquier cosa” constituye un dato. Por tanto la minería de datos tiene infinitas aplicaciones: comerciales, marketing, industria, internet, agricultura, etc.
¿Para qué? ¿de dónde surge?
El proceso de minería de datos (MD) es entendido como el descubrimiento de patrones en los datos. En general debe ser un proceso automático o semi automático. Los patrones descubiertos deben de tener alguna utilidad o se les puede aprovechar de alguna forma. Los datos están presentes en cantidades voluminosas (muy grandes).
La MD es un tema pragmático que involucra el proceso de aprendizaje de forma práctica, no teórica. Se está interesado en las técnicas para encontrar y describir patrones estructurales en los datos como una herramienta para ayudar a explicar los datos y de esa forma lograr realizar predicciones, consultas, estudios, relaciones y otras, de ellos.
La minería de datos es a menudo vista como una parte del Descubrimiento de conocimiento en las bases de datos (KDD knowlegde discovery in databases). Los procesos del KDD ocurren en varias etapas: elegir los datos apropiados, preprocesarlos, transfórmalos si es necesario, realizar la minería de datos, encontrar patrones, relaciones y luego, interpretar las estructuras descubiertas, de ser necesario.
CAMPOS DE APLICACIÓN DE LA MINERÍA DE DATOS
La minería de datos tiene muchos campos de aplicación pues puede ser útil en prácticamente todas las facetas de la actividad humana. Vamos a indicar algunas cuestiones relevantes sobre la posible aplicación de la minería de datos:
a) La minería de datos tiene utilidad empresarial: las empresas pueden optimizar procesos y mejorar sus productos y ventas utilizando minería de datos.
b) Existen pocos especialistas o empresas especializadas en minería de datos. Teniendo en cuenta su importancia, es un campo de trabajo para emprendedores.
c) La minería de datos es una disciplina que se está desarrollando cada vez con mayores capacidades gracias al avance en tecnología y a la cada vez más alta capacidad de computación de los ordenadores. Constituye un campo amplio de investigación en el que cada vez trabajan más investigadores y equipos de investigación.
METODOLOGÍA DE LA MINERÍA DE DATOS
Un trabajo de minería de datos podríamos decir que típicamente consta de las siguientes partes:
1. Entendimiento del problema: se trata de hablar con el cliente, conocer sus necesidades, conocer su negocio o actividad, conocer qué datos relevantes tiene disponibles y cuáles serían necesarios pero no están disponibles, etc.
2. Entendimiento de los datos: hay que saber qué significan los datos, si son continuos o discretos, qué tipo de valores toman, qué utilidad futura pueden tener y saber si están bien capturados o no.
3. Preparación de datos: se trata de reflexionar sobre cómo guardar los datos. Típicamente hablaremos de tablas con filas y columnas, pero hay que ver cómo se organizan las tablas, cómo se interrelacionan entre ellas, etc. En definitiva organizar los datos para poder sacarles partido.
4. Modelamiento: una vez se tienen los datos organizados hay que definir los algoritmos que se van a utilizar para tratar los datos. Una vez tratados, los datos nos devolverán información útil.
5. Evaluación: los resultados obtenidos deben de ser sometidos a comprobación, verificar que están libres de errores, ratificar que son útiles para los objetivos perseguidos, etc.
6. Despliegue funcional-comercial: una vez se tiene automatizada la captura y tratamiento de datos para obtener unos resultados, se desarrollan herramientas, normalmente en forma de aplicaciones informáticas que permiten generar alertas, informes, estadísticas, etc. que tienen una utilidad directa para la toma de decisiones y sistema de información del cliente.
Tareas de la minería de datos
Es conveniente categorizar la minería de datos en diferentes tareas, correspondientes a los objetivos de la persona que analizara los datos. Cabe resaltar que esta categorización no es única.
Análisis exploratorio de datos (EDA).- La meta es simplemente explorar los datos sin una idea clara de lo que estamos buscando. Generalmente las técnicas de EDA son interactivas y visuales.
Modelado descriptivo.- La idea principal es describir todos los datos. Por ejemplo particionar el espacio de datos en grupos (mediante el uso de clusters y segmentación).
Modelado predictivo, regresión y clasificación.- El objetivo es construir un modelo que permita que el valor de una variable sea predecido mediante el conocimiento de las otras. En clasificación la variable a predecir es categórica, mientras que en regresión es cuantitativa.
Descubrimiento de patrones y reglas.- Su misión es la detección de patrones que ocurren en los datos.
Retroalimentación por el contexto.- Aquí el usuario tiene un patrón en específico y quiere buscar patrones similares en el conjunto de datos.
Ejemplo: Actos que producen datos que podrían ser utilizados por la MD
Hoy en día muchos de nuestros actos son guardados por diversas compañías y cada vez es más sencillo conocer todo lo que hacemos dado que todo es almacenado en bases de datos, por ejemplo:
Pagar con tarjeta de crédito o débito
De esta forma el banco obtiene datos como lugar, fecha, hora, monto gastado, tienda.
Hablar por celular
La compañía que nos provee el servicio obtendrá la duración de la llamada, y número a donde se habló, incluso la ubicación geográfica de nuestro celular.
Marcar la hora de entrada y salida del trabajo
Además de lo obvio podemos conocer cuantas personas van a trabajar, cuanto es el tiempo de retraso.
Ir a comprar a un supermercado
Aún cuando paguemos con efectivo la tienda sabrá que productos compramos, cuanto fue el monto gastado, que día compramos, etc.
Como se puede ver, casi todas las acciones que realizamos en la vida cotidiana, ya están guardadas o almacenadas en algún tipo de base de datos, y es en ellas donde la MD puede realizar su trabajo.