PÉREZ MARQUÉS, MARÍA
Introducción........................................................................................................ XI
Capítulo 1. Técnicas de minería de datos y herramientas........................................ 1
Clasificación de las técnicas de minería de datos y herramientas más
comunes................................................................................................ ............ 1
Modelado originado por la teoría (técnicas explicativas o de la dependencia) 3
Modelado originado por los datos (técnicas descriptivas o de la
interdependencia)................................................................................. ............ 4
El entorno de trabajo de IBM SPSS............................................................. ............ 5
Entorno de trabajo de IBM SPSS Modeler.................................................. .......... 10
Entorno de trabajo de SAS Enterprise Miner.............................................. .......... 12
Los entornos de trabajo de SAS y SAS Enterprise Guide............................. .......... 16
Capítulo 2. Fase de selección en minería de datos. Herramientas......................... 23
La fase inicial en minería de datos: selección de la información......................... 23
Selección mediante muestreo estadístico.......................................................... 25
Muestreo aleatorio simple con IBM SPSS............................................................ 29
Muestreo estratificado con IBM SPSS.................................................................. 30
Estimaciones y cálculo de errores en el muestreo estratificado......................... 40
Muestreo de conglomerados monoetápico y polietápico con IBM SPSS............... 42
Estimaciones y cálculo de errores en el muestreo de conglomerados................. 48
La fase de selección en IBM SPSS Modeler........................................................... 49
Selección de datos con IBM SPSS Modeler........................................................... 50
Muestreo con IBM SPSS Modeler......................................................................... 53
La fase de selección en SAS Enterprise Miner...................................................... 54
Pestaña Data....................................................................................................... 56
Pestaña Variables............................................................................................ 57
El perfil del objetivo (Target Profile).................................................................. 58
Especificar probabilidades a priori................................................................... 59
Pestaña Interval Variables............................................................................... 60
Pestaña Class Variables................................................................................... 60
Pestaña Notes................................................................................................. 61
Muestreo en SAS Enterprise Miner...................................................................... 61
Partición de datos en SAS Enterprise Miner......................................................... 65
El nodo de selección de variables....................................................................... 68
Muestreo a través de SAS.................................................................................... 71
Muestreo aleatorio simple.............................................................................. 73
Muestreo aleatorio estratificado..................................................................... 75
Capítulo 3. Fases de exploración y limpieza en minería de datos. Herramientas.............. 77
Análisis exploratorio de datos............................................................................ 77
Limpieza de datos............................................................................................... 79
Valores atípicos............................................................................................... 79
Datos desaparecidos. Imputación................................................................... 81
Análisis exploratorio gráfico y formal con IBM SPSS............................................. 85
Procedimiento Explorar................................................................................... 85
Contraste de aleatoriedad. Procedimiento Prueba de rachas.......................... 90
Normalidad. Test de ajuste a una distribución de frecuencias.
Procedimiento prueba de Kolmogorov-Smirnov............................................. 93
Tratamiento de los datos ausentes con IBM SPSS. Imputación......................... 94
Detección de datos atípicos con IBM SPSS......................................................... 101
Detección de valores atípicos en IBM SPSS mediante gráficos de control............102
Detección de casos atípicos en IBM SPSS mediante gráficos de caja y bigotes............104
Análisis exploratorio gráfico y formal con IBM SPSS Modeler............................. 105
El nodo Gráfico............................................................................................... 106
El nodo Distribución....................................................................................... 108
El nodo Histograma........................................................................................ 110
La fase de limpieza en IBM SPSS Modeler.......................................................... 111
El nodo Rellenar para imputación de datos missing....................................... 112
La fase de Exploración en Enterprise Miner....................................................... 112
El nodo Explorador de distribuciones............................................................. 113
El nodo de Exploración de Patrones.................................................................. 114
Tratamiento de datos atípicos con el nodo Filtro de Outliers de SAS Enterprise Miner................ 122
Opciones de filtrado automático.................................................................... 122
Observación y ajuste de los resultados del filtrado........................................ 123
El nodo Imputación de datos missing............................................................. 125
La fase de Exploración en SAS............................................................................ 132
Capítulo 4. Fase de transformación en minería de datos. Herramientas............... 135
Transformación de datos...............................................
La Minería de Datos es uno de los términos que más de moda están dentro de las ciencias de la computación, y consiste en analizar e interpretar de forma automática comportamientos, patrones, tendencias, asociaciones, predicciones y otras características del conocimiento inmerso en los datos.
Las grandes cantidades de datos de que disponemos en la actualidad nos obligan a extraer de un modo automatizado la información clave contenida en ellos. Para lograrlo, utilizamos herramientas informáticas que soportan técnicas especializadas, estas técnicas constituyen la Minería de datos.
Con la ayuda de este libro, a través de ejemplos totalmente resueltos, el lector profundizará en el descubrimiento e interpretación de la información contenida en grandes conjuntos de datos. Se trata de exponer con sencillez y mediante una metodología interactiva los conceptos de minería de datos e inteligencia de negocios.
Asimismo, este libro analiza las herramientas más habituales y las posibilidades que ofrecen SAS, SAS Enterprise Guide, SAS Enterprise Miner, IBM SPSS e IBM SPSS Modeler.