lunes, 31 de octubre de 2016

Áreas relacionadas con la minería de datos.

" la minería de datos es una actividad en expansión aplicada cada vez en más disciplinas, que han visto la utilidad del estudio de datos para apoyar la toma de decisiones. Especial énfasis está teniendo en aquellas áreas relacionadas con la Economía, mediante la Econometría, y dentro del campo de inteligencia de los negocios"
Algunas de las tareas mas importantes de la minería de datos incluyen la identificación de aplicaciones para las técnicas existentes, y desarrollar nuevas técnicas para dominios tradicionales o  de nueva aplicación, como el comercio electrónico y la bioinformatica .
Existen numerosas áreas  donde la minería de datos se puede aplicar, practicamente a todas las actividades humanas que generen datos:


_Comercio y banca:  Segmentación de clientes, previsión de ventas, análisis de riesgos.
_Medicina y farmacia: diagnostico de enfermedades y la efectividad de tratamientos.
Ejemplo 
 "Supongamos un hospital donde hay unos datos de pacientes y un diagnóstico. Se puede tener una tabla de datos que incluya por ejemplo datos como Paciente / Edad / Glóbulos rojos / Glóbulos blancos / Tensión / Azúcar / Diagnóstico. ¿Para qué le serviría la minería de datos al hospital? Pues por ejemplo para hacer un prediagnóstico de la dolencia que con mayor probabilidad pueda tener un paciente en base a sus datos asociados. Un tipo de dolencia se dice que es un dato discreto porque solo puede tomar unos valores concretos (por ejemplo que haya 30 tipos de dolencias). Estudiando y tratando los datos se pueden llegar a conclusiones, por ejemplo que si un paciente tiene más de 60 años, los glóbulos blancos muy altos y el azúcar alto es muy probable que esté desarrollando diabetes. Si el paciente corresponde a ese perfil, la decisión puede ser hacer unas pruebas específicas o poner cierto tratamiento preventivo"


_Seguridad y detección de fraudes: reconocimiento facial, identificación biometricas, accesos a redes no permitidos etc.
_Recuperación de información no numérica: minería de texto, minería de web, búsqueda e identificación de imagenes, video, voz y texto en bases de datos multimedia.
_Astronomía: identificacion de nuevas galaxias y estrellas.
_Geología, minería, agricultura y pesca: identificacion de áreas de uso para distintos cultivos o de pesca o de explotación minería en bases de datos de imagenes satelitales.
_Ciencias sociales: Estudios de los flujos de la opinión publica, identificar barrios con conflictos en funcion de valores sociodemograficos.
_Ciencias ambientales: Identificacion de modelos de funcionamientos de ecosistemas naturales y/o artificiales para mejorar su observacion, gestión y/o control.

Reglas de asociación

Las reglas de asociación en la minería de datos se utilizan para encontrar hechos que ocurren en común dentro de un conjunto de datos. Dicho de otra manera que debe ocurrir ciertas condiciones para que se produzca cierta condición.

Para encontrar estas reglas de debe considerar cada posible combinación de condiciones para que halla una consecuencia. Al hablar de reglas de asociación también cumple un rol importante la cobertura o también llamado soporte que es el número de instancias predichas correctamente y la precisión o confianza que es la proporción de numero de instancias que es aplicada la regla.

                                                           {Confianza}       →         {Soporte}
                                                                           {X}       →        {Y}


Reglas significativas de soporte y confianza

Se tiene la siguiente tabla:

Ambiente Temperatura Humedad Viento Clase
soleado alta alta no N
soleado alta alta si N
nublado alta alta no P
lluvia media alta no P
lluvia baja normal no P
lluvia baja normal si N
nublado baja normal si P
soleado media alta no N
soleado baja normal no P
lluvia media normal no P
soleado media normal si P
nublado media alta si P
nublado alta normal no P
lluvia media alta si N

Se llama ítem a la cantidad de condiciones que se encuentran en este caso serian 4 ambiente, temperatura, humedad y viento

En esta tabla anterior se dan las siguientes probabilidades y el soporte:

humedad=normal
y
viento=no
entonces
clase=P
4/4
humedad=normal
y
clase=P
entonces
viento=no
4/6
viento=no
y
clase=P
entonces
humedad=normal
4/6
humedad=normal
entonces
viento=no
y
clase=P
4/7
viento=no
entonces
clase=P
y
humedad=normal
4/8
clase=P
entonces
viento=no
y
humedad=normal
4/9

Eso solo son algunas ya que en este ejemplo existen cerca de 55 reglas de asociación

Herramientas primitivas de la minería de datos

Data mining a lo largo de la historia ha sido llamado de distintas maneras. A partir de los años sesenta los estadísticos utilizaban el termino de data fishing (pesca de datos) o data dredging (filtración de datos) con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido.

En 1989, Gregory Piatetsky-Shapiro utilizo el termino Knowledge Discovery in Databases (descubrimiento de conocimiento en base de datos) mas conocido pro sus siglas KDD, sin embargo al usarlo indistintamente se entra en un error porque  el proceso de data mining es la aplicación de algoritmos para extraer patrones de datos y KDD es el proceso completo.

El termino de Data mining se empezó a usar a partir de los años noventa además también se uso data Archaeology (arqueología de datos), Information Harvesting (recolección de información), Information Discovery (Descubrimiento de Información), Knowledge Extraction (Extracción de conocimiento), entre otros. Antes de esto existió otro termino que era Database MiningTM, pero esta frase fue registrada por la empresa HNC, y por ese motivo los investigadores decidieron cambiarlo por data mining que es el termino que mas se usa actualmente.

 Mineria de Datos en la Actualidad


En la actualidad las organizaciones suelen moverse dentro de estructuras identificadas con un cambio continuo; por ello, las empresas privadas tanto como las públicas deben tener la capacidad de ser adaptativas, aprender cómo resolver problemas y generar conocimiento, para establecer nuevos métodos en pro de la resolución de los mismos.
Las organizaciones, en la búsqueda por la obtención de los mejores resultados de su gestión organizacional, adoptan la flexibilización como estrategia, con el objetivo de adecuarse a un mercado globalizado, dando origen a un proceso que incide en su sistema estructural. Así pues, una empresa flexible es la que se orienta hacia los clientes, posee tecnología nueva y presenta acuerdos laterales de organización e innovación (Hansen y Mouritsen, 1999).
Las aplicaciones necesarias para gestionar el flujo de información en las actividades de negocio se pueden clasificar en dos importantes categorías: las aplicaciones que manejan las transacciones y las estadísticas que ayudan a convertir los datos en información útil para la toma de decisiones. Además está el sistema de indicadores, formado por las bases de datos donde se almacenan los datos importantes para evaluar y mejorar el funcionamiento de las actividades que componen la cadena de suministro y por aplicaciones de análisis que facilitan la comprensión de las tendencias y patrones presentes en los datos. El sistema de indicadores se considera como un instrumento de integración básico a través de la comunicación y diálogo que se establece, en base a los datos, entre los diferentes actores del proceso.
En la visión de Castañeda y Rodríguez (2003), el uso de la Minería de Datos o Data Mining, como soporte a las decisiones en las actividades de negocio, requiere mucho más que la aplicación de sofisticadas técnicas como redes neuronales o árboles de decisión sobre las tablas de datos. Por esta razón, en el presente documento se muestra a la Minería de Datos por un lado, como uno de los pasos del proceso de descubrimiento de conocimiento en base de datos (KDD) y por otro lado como un proceso que consta de diferentes fases, en las cuales se utilizan como apoyo, técnicas relacionadas con la estadística, el reconocimiento de patrones y algoritmos de aprendizaje, entre otras.
Todos estos estudios han incrementado el deseo desenfrenado por demandar un mayor control de los procesos u operaciones y servicios, visto como núcleo de una gestión global, fundamental para proporcionar servicios de calidad y lograr un rendimiento óptimo de las inversiones, en infraestructuras comerciales, en un entorno competitivo dirigido hacia una gestión de clientes.
Este trabajo constituye un primer acercamiento a un área de investigación de reciente data, el cual tiene como propósito presentar algunas bases teóricas sobre la incidencia de la Minería de Datos como soporte en la toma de decisiones, aplicadas a las actividades de negocio. La elaboración de la reflexión teórica hace énfasis en los postulados metodológicos del paradigma cualitativo, el cual permite la construcción del conocimiento partiendo de una visión integral, interpretativa y contextual del fenómeno a estudiar. Las teorías consultadas se interpretaron para establecer por inferencia deductiva algunas consideraciones relacionadas a la Minería de Datos y a algunos indicadores que permitan medir el interés y el impacto del conocimiento que se puede obtener, al emplearla, como soporte para la toma de decisiones en las organizaciones.

domingo, 30 de octubre de 2016

Minería de Datos

¿QUÉ ES UN MODELO DE MINERÍA DE DATOS? 

La minería de datos se aplica a todo tipo de datos imaginable: desde datos numéricos a imágenes de satélite, mamografías, música, archivos de ordenador, imágenes, etc. Podemos decir que “cualquier cosa” constituye un dato. Por tanto la minería de datos tiene infinitas aplicaciones: comerciales, marketing, industria, internet, agricultura, etc.

¿Para qué? ¿de dónde surge?


El proceso de minería de datos (MD) es entendido como el descubrimiento de patrones en los datos. En general debe ser un proceso automático o semi automático. Los patrones descubiertos deben de tener alguna utilidad o se les puede aprovechar de alguna forma. Los datos están presentes en cantidades voluminosas (muy grandes).
La MD es un tema pragmático que involucra el proceso de aprendizaje de forma práctica, no teórica. Se está interesado en las técnicas para encontrar y describir patrones estructurales en los datos como una herramienta para ayudar a explicar los datos y de esa forma lograr realizar predicciones, consultas, estudios, relaciones y otras, de ellos.
La minería de datos es a menudo vista como una parte del Descubrimiento de conocimiento en las bases de datos (KDD knowlegde discovery in databases). Los procesos del KDD ocurren en varias etapas: elegir los datos apropiados, preprocesarlos, transfórmalos si es necesario, realizar la minería de datos, encontrar patrones, relaciones y luego, interpretar las estructuras descubiertas, de ser necesario.

CAMPOS DE APLICACIÓN DE LA MINERÍA DE DATOS

La minería de datos tiene muchos campos de aplicación pues puede ser útil en prácticamente todas las facetas de la actividad humana. Vamos a indicar algunas cuestiones relevantes sobre la posible aplicación de la minería de datos:
a) La minería de datos tiene utilidad empresarial: las empresas pueden optimizar procesos y mejorar sus productos y ventas utilizando minería de datos.
b) Existen pocos especialistas o empresas especializadas en minería de datos. Teniendo en cuenta su importancia, es un campo de trabajo para emprendedores.
c) La minería de datos es una disciplina que se está desarrollando cada vez con mayores capacidades gracias al avance en tecnología y a la cada vez más alta capacidad de computación de los ordenadores. Constituye un campo amplio de investigación en el que cada vez trabajan más investigadores y equipos de investigación.



METODOLOGÍA DE LA MINERÍA DE DATOS


Un trabajo de minería de datos podríamos decir que típicamente consta de las siguientes partes:
1. Entendimiento del problema: se trata de hablar con el cliente, conocer sus necesidades, conocer su negocio o actividad, conocer qué datos relevantes tiene disponibles y cuáles serían necesarios pero no están disponibles, etc.
2. Entendimiento de los datos: hay que saber qué significan los datos, si son continuos o discretos, qué tipo de valores toman,  qué utilidad futura pueden tener y saber si están bien capturados o no.
3. Preparación de datos: se trata de reflexionar sobre cómo guardar los datos. Típicamente hablaremos de tablas con filas y columnas, pero hay que ver cómo se organizan las tablas, cómo se interrelacionan entre ellas, etc. En definitiva organizar los datos para poder sacarles partido.
4. Modelamiento: una vez se tienen los datos organizados hay que definir los algoritmos que se van a utilizar para tratar los datos. Una vez tratados, los datos nos devolverán información útil.
5. Evaluación: los resultados obtenidos deben de ser sometidos a comprobación, verificar que están libres de errores, ratificar que son útiles para los objetivos perseguidos, etc.
6. Despliegue funcional-comercial: una vez se tiene automatizada la captura y tratamiento de datos para obtener unos resultados, se desarrollan herramientas, normalmente en forma de aplicaciones informáticas que permiten generar alertas, informes, estadísticas, etc. que tienen una utilidad directa para la toma de decisiones y sistema de información del cliente.

Tareas de la minería de datos


Es conveniente categorizar la minería de datos en diferentes tareas, correspondientes a los objetivos de la persona que analizara los datos. Cabe resaltar que esta categorización no es única.

Análisis exploratorio de datos (EDA).- La meta es simplemente explorar los datos sin una idea clara de lo que estamos buscando. Generalmente las técnicas de EDA son interactivas y visuales.
Modelado descriptivo.- La idea principal es describir todos los datos. Por ejemplo particionar el espacio de datos en grupos (mediante el uso de clusters y segmentación).
Modelado predictivo, regresión y clasificación.- El objetivo es construir un modelo que permita que el valor de una variable sea predecido mediante el conocimiento de las otras. En clasificación la variable a predecir es categórica, mientras que en regresión es cuantitativa.
Descubrimiento de patrones y reglas.- Su misión es la detección de patrones que ocurren en los datos.
Retroalimentación por el contexto.- Aquí el usuario tiene un patrón en específico y quiere buscar patrones similares en el conjunto de datos.



Ejemplo: Actos que producen datos que podrían ser utilizados por la MD
Hoy en día muchos de nuestros actos son guardados por diversas compañías y cada vez es más sencillo conocer todo lo que hacemos dado que todo es almacenado en bases de datos, por ejemplo:
Pagar con tarjeta de crédito o débito
De esta forma el banco obtiene datos como lugar, fecha, hora, monto gastado, tienda.
Hablar por celular
La compañía que nos provee el servicio obtendrá la duración de la llamada, y número a donde se habló, incluso la ubicación geográfica de nuestro celular.
Marcar la hora de entrada y salida del trabajo
Además de lo obvio podemos conocer cuantas personas van a trabajar, cuanto es el tiempo de retraso.
Ir a comprar a un supermercado
Aún cuando paguemos con efectivo la tienda sabrá que productos compramos, cuanto fue el monto gastado, que día compramos, etc.
Como se puede ver, casi todas las acciones que realizamos en la vida cotidiana, ya están guardadas o almacenadas en algún tipo de base de datos, y es en ellas donde la MD puede realizar su trabajo.