tdg daniel tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. la minería de datos la minería...

40
M Trabajo MINERÍA DE D de Grado par UN DATOS EN EL DANIEL ra optar el tít D Claudia Escue NIVERSIDAD N SED FACUL PAQUETE RA L TUTTLE OSP ulo de Ingeni Directora: Jiménez Ram ela de Sistema NACIONAL DE DE MEDELLÍN LTAD DE MINA ATTLE DEL LEN INA ero de Sistem mírez as COLOMBIA AS NGUAJE R. mas e Informá ática

Upload: hoangnhan

Post on 20-Jul-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

M

Trabajo 

MINERÍA DE D

de Grado par

UN

DATOS EN EL 

DANIEL

ra optar el tít

D

Claudia 

Escue

NIVERSIDAD N

SED

FACUL

PAQUETE RA

 

L TUTTLE OSP

 

ulo de Ingeni

 

Directora: 

Jiménez Ram

ela de Sistema

 

 

 

NACIONAL DE

DE MEDELLÍN

LTAD DE MINA

ATTLE DEL LEN

INA 

ero de Sistem

mírez 

as 

 

 COLOMBIA 

AS

NGUAJE R. 

mas e Informáática 

 

Page 2: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

TABLA DE CONTENIDO 

 

1. Introducción  2. La minería de datos 3. Instalación de Rattle 4. Cargando datos 5. Explorando los datos 6. Transformando los datos 7. Análisis de clúster 8. Análisis de asociación 9. Creando modelos 10. Evaluando modelos 11. Revisando el registro 12. Propuestas y conclusiones 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Page 3: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

1. Introducción 

R  es  un  lenguaje  y  un  entorno  diseñado  para  análisis  estadístico.  Fue  desarrollado  por  Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993. R se distribuye bajo  la  licencia GNU GPL y está disponible para  los  sistemas operativos Windows, Macintosh, Unix y GNU/Linux. R provee una gran variedad de técnicas gráficas y estadísticas como: modelos  lineales  y  no  lineales,  pruebas  estadísticas  clásicas,  análisis  de  series  temporales, clasificación, agrupación entre otras [1].  

Rattle  (del  inglés, R Analytical Tool to Learn Easily) es un paquete de software  libre desarrollado por Togaware que proporciona una  interfaz gráfica basada en Gnome para  la minería de datos desarrollada en el  lenguaje de programación R. Este paquete proporciona una  interfaz  intuitiva que guía con facilidad a través de los pasos básicos de la minería de datos y nos ilustra el código de R que se utiliza para lograr nuestro estudio sobre los datos [2]. 

Hoy en día Rattle es utilizado   por un gran número de empresas gubernamentales y comerciales alrededor  del  mundo.  También  es  usado  con  fines  educativos  donde  ha  sido  la  principal herramienta  usada  en  universidades  como Harbin  Institute  of  Technology,  Shenzhen Graduate School, y por la Universidad Nacional de Australia [2]. 

Este  trabajo  tiene  como  objetivo  ser  una  guía  que  apoye  el  proceso  de  aprendizaje  del  curso Técnicas en Aprendizaje Estadístico, la cual trata de dar a conocer una herramienta que puede ser útil para que  los estudiantes pongan en práctica todos  los conocimientos adquiridos en el curso. En este caso Rattle y el  lenguaje R tienen  la ventaja de ser un producto de software  libre  lo cual facilita el acceso por parte del docente y  los estudiantes a esta herramienta que potencializa el conocimiento impartido en el curso. 

 

 

  

 

 

 

 

 

 

 

Page 4: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

2. La minería de datos 

La minería  de  datos  es  un  conjunto  de  técnicas  y  tecnologías  que  permiten  analizar  grandes colecciones de datos con el fin de encontrar información implícita en éstos, tales como tendencias o  reglas  que    ayuden  a  entender  y  expliquen  el  comportamiento  de  los  datos  analizados.  La Estadística  y  la  Inteligencia  Artificial  son  la  base  de  la minería  de  datos  y  las  que  permiten  la comprensión de los datos.[9] 

La minería de datos es utilizada con el fin de: 

• Descubrir patrones, relaciones o tendencias en los datos. • Describir fenómenos. • Obtener resúmenes. • Analizar agrupaciones. • Realizar predicciones y clasificaciones.[10] 

Un estudio de minería de datos está compuesto principalmente por 4 etapas: 

1. Determinación de objetivos: se plantean los objetivos y hasta donde se quiere llegar con un estudio. 

2. Preprocesamiento  de  los  datos:  Se  seleccionan  los  datos  que  son  influyentes  en  el modelo,  se  limpian  y  se  transforman  las  variables  que  sean  necesarias  con  el  fin  de generar un modelo. Esta es la etapa que demanda más tiempo y la más importante de un estudio ya que de la calidad de los datos depende la calidad del modelo. 

3. Determinación del modelo: por medio de  la Estadística y medios visuales se analizan  los datos con el fin de conocerlos y tener una idea del comportamiento de estos. Luego según los objetivos planteados en  la primera etapa y  la  tarea que debe  realizarse se escoge el tipo  de  modelo  que  se  ajusta  a  las  necesidades  y  cumple  con  los  requerimientos establecidos. 

4. Análisis de  los  resultados:  se verifica  la  coherencia de  los datos y  se  comparan  con  los resultados arrojados por los análisis estadísticos. Se determina si el modelo aporta nuevo conocimiento y cumple las expectativas.[9] 

   

Page 5: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

3. Instalación del paquete Rattle 

R es un software libre el cual se puede descargar del sitio Web http://cran.r‐project.org/. Luego de descargarlo e instalarlo se procede a descargar e instalar el paquete Rattle el cual se estudiará en este  trabajo.  En  la  Figura  1  se  observa  la  interfaz  de  R  y  la  opción  que  se  debe  ingresar  para descargar el paquete Rattle. 

 

 

Figura 1. Instalación Paquetes 

Luego  de  seleccionar  la  opción  “Instalar  paquetes”  aparece  una  lista  de  sitios  de  descarga (mirrors), donde se encuentran disponibles los paquetes instalables en R. La idea es seleccionar la ubicación más  cercana a  su  localización  con el  fin de que  la descarga de  los paquetes  sea más eficiente.  

Después de seleccionar la ubicación del servidor, se listan los paquetes disponibles para descargar, en este caso  se busca y  se  selecciona Rattle.   Cuando  finalice  la descarga en  la consola de R  se digitan los siguientes comandos con el fin de iniciar Rattle: 

Library (rattle)    // Este comando carga el paquete en memoria. 

Rattle()               // Con esta función se ejecuta y abre lainterfaz gráfica de Rattle. 

 

 

Page 6: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Tras lala  neceusuarioutilizar

Figura 

Luego algo sim“OK”. 

Tras lalas opcpaqueta abrirlibrary muestrque Ra

 

 ejecución deesidad  de  deo. Al  final  prr Rattle se esc

2. Instalando

de respondemilar, para in

 descarga se ciones recomte que se instr). Luego de r(rattle) y ratra a continuaattle funcione

e estos comanescargar  otroregunta  que cribe la palab

o Paquete RG

r “si” a  la annstalar este pa

inicia el instamendadas portaló anteriormreiniciar R se tle(). Duranteación en  la Fie adecuadame

ndos se obtieo  paquete  llasi  se  desea ra “yes”. 

Gtk2. 

terior pregunaquete selecc

Figura 3. 

alador de ester éste. Cuandmente lo requejecutan de e la ejecuciónigura 4,  inforente. 

ene el resultaamado  “RGtkinstalar  este 

nta se despliecionamos la o

Instalación G

e paquete, endo  finalice  la uería (simplemnuevo los con de Rattle purmado que se

do mostradok2”  para mopaquete  aho

ega otra ventopción “Insta

 

GTK+. 

n el proceso dinstalación semente se ciermandos queueden aparece requieren o

 en la Figura strar  la  interora  y  ya  que

tana (Figura 3ll GTK+ ” y lue

de instalacióne debe reinicrra el programse digitaron cer ventanas otros paquete

2,  que informrfaz  gráfica  de  el  objetivo 

3) preguntanego se presio

n se seleccionciar R ya quema R y se vueanteriormencomo la que es con el  fin 

ma del es 

 

do ona  

nan e el lve te: se de 

Page 7: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

4. Carg

La  infodatos observ

gando los dat

ormación  se pen muchas  dvar en la Figur

Figura 4.

tos 

pueden encode  sus  formara 5, se ofrece

Fig

 Ejemplo de p

ontrar en diveas.  Para  cargaen las diferen

gura 5. Interfa

paquete requ

ersos  formatar  los  datosntes opciones

az para carga

uerido por Ra

os y R brindaen  la  pestañs para realizar

ar los datos.

attle. 

a  la posibilidña  “Datos”  lar esto. 

 

ad de  import  cual  se  pue

 

tar ede 

Page 8: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Dentro de las opciones que ofrece Rattle se tiene: 

• Hoja de cálculo: en  la cual se pueden cargar archivos CSV (comma‐separated values). En este tipo de archivo las columnas que corresponden a cada variable se separan por medio de comas y en algunos casos por punto y coma. 

• ARFF (Attribute‐Relation File Format): es esencialmente un CSV con un encabezado que describe los metadatos. Este tipo de formato fue desarrollado para trabajar con WEKA. 

• ODBC  (Open  Database  Connectivity):  es  un  estándar  desarrollado  para  acceder  a  la información  almacenada  en  una  base  de  datos.  R  permite  conexión  con  las  siguientes bases  de  datos MS/Excel, MS/Access,  SQL  Server,  Oracle,  IBM  DB2,  Teradata, MySQL, Postgres, and SQLite. 

• Conjunto de datos R: esta opción permite cargar datos en Rattle que hayan sido cargados en R.  

• Archivo de datos R: Rattle brinda la posibilidad de cargar archivos nativos de R los cuales por  lo  general  tienen  la  extensión  RDATA.  Estos  archivos  pueden  contener  varios conjuntos de datos. 

• Librería: en esta opción se tiene acceso a varios conjuntos de datos disponibles en R.[3] 

Para cargar los datos simplemente se selecciona el tipo de formato que se desea importar, luego se indica la ubicación del archivo y por último se presiona el botón “Execute” en la parte superior izquierda de la interfaz o simplemente se  presiona la tecla F2. En el caso de la bases de datos se especifica el DSN (data source Name). 

A continuación, se cargarán  los datos con  los que se trabajará en el resto del documento. Es un archivo CSV el cual contiene la información de un censo realizado es Estados Unidos. 

 

Figura 6. Cargando archivo cenUS.csv. 

Page 9: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 7. Opciones de la interfaz. 

Luego  de  seleccionar  el  archivo  con  los  datos,  se  procede  a  indicar  por  cual  carácter  están separadas las columnas del archivo y cual estamos utilizando como separador decimal. Se activa la opción encabezado para indicar que la primera fila del archivo tiene los nombres de las columnas y en caso de no activar esta opción se crearán nombres al azar.  

En el cuadro verde de la Figura 7 se resalta la opción de partir los datos, en caso de querer dividir la muestra,  se  activa  el  checkbox  “partición”  y  en  la  casilla  de  la  derecha  se  especifican  los tamaños de las particiones. La partición por defecto es 70/15/15 lo que significa que el 70% de los datos se utilizan para entrenamiento, 15% para validación y 15% para prueba. También existe  la opción de dividir  la muestra en solo dos: entrenamiento y validación, simplemente especificando los dos porcentajes 70/30. En la opción semilla se puede indicar el número que será utilizado para generar números aleatorios, donde diferentes semillas generan distintas particiones. 

Después  de  ajustar  las  preferencias  se  procede  a  presionar  el  botón  “Excecute”  en  la  parte superior. El comando que se ejecuta en R para cargar los datos es el siguiente:  

crs$dataset  <‐  read.csv("file:///C:/Users/Daniel/Desktop/Recortes/censUS.csv",  sep=";", na.strings=c(".", "NA", "", "?"), strip.white=TRUE, encoding="UTF‐8") 

Page 10: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Cuando se cargan los datos, en la parte inferior de Rattle se muestra cada una de las variables que se tenían en el archivo (ver Figura 8). Además se indica el tipo de cada variable el cual puede ser categórico o numérico, el número de elementos faltantes y el  número de niveles en cada una.  

Rattle selecciona también la variable de destino, la cual será la que se cruzará con la demás. Rattle analiza cada variable y las que tengan menos de 5 valores únicos se convierten en candidatas para ser la variable de destino. La lista de candidatas se ordena a partir de la última variable y luego se busca  la  primera  que  cumpla  con  la  condiciones  para  ser  candidata.  Por  lo  general  la  última variable es la de destino. 

 

Figura 8. Variables del archivo cargado. 

Los botones Ver y Editar ubicados a la derecha de la semilla permiten visualizar y editar el archivo. 

Existe  la posibilidad de  ignorar  las variables que se deseen ya que puede darse el caso en el que éstas no posean  información  relevante para el análisis. Esto  se hace  seleccionando  la variable y luego presionando el botón rojo de  ignorar. Si se desea  indicar que una variable es de tipo  ID se puede hacer simplemente activando  la opción “Ident” de ésta. Siempre que se realicen cambios sobre las variables se debe presionar de nuevo el botón “Execute”. 

En  la calculadora de peso se puede  ingresar una  fórmula con el  fin de asignarle un peso a cada observación. 

 

 

Page 11: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

5. Explorando los datos 

Una vez cargados  los datos y definidos  los roles de  las variables, se procede a explorar  los datos con el fin de conocer más sobre éstos y comprender un poco su comportamiento. Para comenzar con  el  análisis  se  selecciona  la  pestaña  Explorar  (ver  Figura  9).  Rattle  provee  las  siguientes opciones:  

• Suma: Presenta un  resumen de  las  variables donde  se encuentran estadísticas  como  la mediana, media, moda y muchas otras. 

• Distribuciones:  Se  pueden  realizar  gráficos  como  histogramas,  cajas  y  bigotes, mosaico entre otros. 

• Correlación: Se realiza un estudio de independencia entre las variables numéricas. • Componentes principales: Ofrece  información sobre  la  importancia de  las variables para 

explicar la variación que se encuentra en el conjunto de datos. • Interactivo: Ofrece una visualización gráfica de los datos de una manera dinámica. 

 

 

Figura 9. Opciones de la pestaña explorar. 

Luego de esta pequeña  introducción se procederá a  realizar el análisis exploratorio de  los datos cargados en el punto anterior. Se mostrarán las opciones mencionadas anteriormente. 

• Suma 

Dentro de esta opción se encuentran diferentes tipos de estadísticos e información que ayudarán a entender un poco sobre los datos. Se procederá entonces a mostrar cada una de la información arrojada por las diferentes opciones dentro del Tipo Suma. 

Suma 

A continuación se muestra el resultado obtenido tras ejecutar la opción “Suma”. 

Page 12: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 10. Información acerca de las variables. 

En  la primera parte del  resultado  (ver Figura 10)  se observa cada una de  las variables donde  la columna “NAs”  indica el número de  faltantes para cada variable y  la columna “Levels”  indica el número de niveles   para  las variables categóricas. Luego más abajo se observa una tabla con  las variables categóricas y sus respectivos niveles (Figura 11). 

Page 13: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 11. Valores de las variables categóricas. 

Ya en  la última parte del resultado arrojado aparecen ciertas estadísticas de cada variable, en el caso de las numéricas se tiene el valor máximo, el valor mínimo, la media, la mediana y los valores del primer y tercer cuartil (ver Figura 12). Para el caso de las categóricas se muestra la frecuencia para algunos de  los niveles. En el caso de tener variables con valores  faltantes éstos también se muestran.  

Page 14: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 12. Última parte del resultado arrojado por la opción Suma. 

 

 

 

 

 

 

 

Page 15: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Describir 

Ahora  se  analizará  otra  opción  de  las  6  que  ofrece  el  Tipo  Suma,  se  seleccionará  la  opción “Describir” seguido de “Execute”. Debido a la longitud de las variables no se presentarán todas. 

 

 

 

 

Figura 13. Resultados de la opción Describir. 

Dependiendo del  tipo de variable  se observará diferente  información  sobre  la variable. Para  las categóricas  se  tendrá   una  tabla con  la  frecuencia  relativa y  la absoluta. Para  las numéricas    se muestra la media, los valores más altos y bajos y los valores de los 7 percentiles. Cuando se tienen variables numéricas  con pocos niveles aparece  la  tabla de  frecuencias y  los 7 percentiles. Todo esto se puede observar en la Figura 13. 

 

Page 16: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Básicos 

Esta opción muestra un buen número de estadísticas para  las variables numéricas dentro de  las cuales las más importantes son: el número de observaciones, numero de faltantes, valor mínimo, valor máximo, primer y tercer cuartil, media, mediana, la suma de los valores, error estándar de la media, varianza, desviación estándar,  asimetría y curtosis (ver Figura 14). 

 

Figura 14. Resultado de la opción Básicos. 

 

   

Page 17: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Curtosis 

En esta opción Rattle arroja el coeficiente de curtosis para cada una de  las variables numéricas. Este  coeficiente  indica  la  forma  de  la  distribución  de  los  datos  con  respecto  a  la  distribución normal.  Si  el  coeficiente  es  menor  que  0,  es  una  distribución  Platicúrtica  es  decir  que  la distribución es más plana o achatada que la normal. Si es igual a 0, es una distribución Mesocúrtica lo que  indica que  los datos tienen una distribución normal. Y si es mayor que 0 ó Leptocúrtica  la distribución de los datos es más apuntada que la normal.  

 

Figura 15. Curtosis de las variables numéricas. 

Analizando  las  variables  de  la  Figura  15  se  observa  que  salario,  ganancias  y  pérdidas    son leptocurticas y están demasiado alejadas de tener una distribución normal. 

Sesgo 

El  sesgo  indica  cual  cola  de  la  distribución  es  la más  larga.  Si  el  valor  es positivo  la  cola  de  la derecha es más larga. En caso de ser negativo la cola de la izquierda es más larga y en caso de ser cero se dice que los datos no tienen sesgo. En la Figura 16 se muestra el resultado tras ejecutar la opción “Sesgo” lo que  significa que hay simetría en la distribución de los datos. 

 

Figura 16. Sesgo de las variables numéricas. 

 

Page 18: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Valores faltantes 

 

Figura 17. Tabla de valores faltantes. 

En la  Figura 17 se aprecia la tabla que arroja Rattle para indicar los valores faltantes en cada una de las variables. El recuadro verde indica el número de valores faltantes en cada columna. Un cero debajo de  una  variable  indica  que  ésta  tiene  valores  faltantes  y  el número  de  valores  lo da  la primera columna, por ejemplo en la columna ganancias el primer cero indica que tiene 148 valores faltantes. El  recuadro azul  representa  la suma de cada  fila,  los primeros valores  indican cuantos ceros hay por fila, y el último valor da el total de valores faltantes en la muestra de datos. 

Por  lo general  la primera fila   da el número de registros   que no tienen valores faltantes, en este caso 30.014. La segunda se observa que hay 7 registros que les falta el valor en la columna trabajo, en la tercera fila hay 148 registros que no tienen valor en ganancias y en la penúltima existen 27 registros con datos faltantes en país_NAC, empleado_en y trabajo.[3] 

Tabulación cruzada 

Esta opción nos permite cruzar  la variable de destino que seleccionamos al cargar  los datos, con las demás variables categóricas. En este caso se muestra en la Figura 18 la variable empleado_en cruzada con la variable MAYOR50K. 

Page 19: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

   

Page 20: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 18. Resultados tabulación cruzada. 

   

Page 21: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

• Distribuciones 

Ahora se analizará la opción “Distribuciones” 

 

Figura 19. Interfaz Distribuciones. 

En  la  interfaz de distribuciones (ver Figura 19) se separan  las variables,  las numéricas en  la parte superior  y  las  categóricas  en  la  inferior.  Para  las  numéricas  están  disponibles  los  siguientes diagramas:  cajas  y  bigotes,  histograma,  distribución  acumulada  y  el  de  Benford.  Para  las categóricas  los diagramas de barras, puntos  y mosaico.  También  se observa  cierta  información sobre  las  variables  como  el  valor  mínimo,  la  mediana,  la  media  y  el  valor  máximo  para  las numéricas,  y para  las  categóricas  el número de niveles.  En  la  parte  superior  se puede  escoger cuantos  diagramas  se  desean  por  página  y  configurar  algunas  opciones  para  el  diagrama  de Benford. 

 

Page 22: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

• Correlación 

El análisis de correlación  indica que tan relacionadas son dos variables, este análisis solo es para variables numéricas. Hay tres métodos disponibles para hallar la correlación: Pearson, Spearman, Kendall.  En  este  caso  se  utilizará  el  de  Pearson  y  se  activará  la  opción  “Organizado”  para  que organice las variables según la fortaleza de correlación. El resultado se muestra a continuación en la Figura 20. 

 

Figura 20. Resultado análisis correlación. 

Si  el  coeficiente  es  igual  a 1  existe una  correlación positiva perfecta,  es decir hay una  relación directa entre  las variables, cuando una de ellas aumenta  la otra  también  lo hace en proporción constante. 

Si 0 < coeficiente < 1, existe una correlación positiva. 

Si es igual a cero, no existe relación lineal. 

Si ‐1 < coeficiente < 0, existe una correlación negativa. 

Si es igual a ‐1, existe una correlación negativa perfecta, es decir hay una relación inversa entre las variables, cuando una de ellas aumenta la otra disminuye en proporción constante. 

El  resultado  del  análisis  de  correlación  también  viene  acompañado  de  una  gráfica,  la  cual  se muestra a continuación en la Figura 21. 

 

Page 23: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

 

Figura 21. Gráfico de correlación. 

 

El grado de correlación se interpreta según la forma y el color de los elementos en la gráfica. Si el elemento  es  un  círculo  perfecto  no  hay  correlación  entre  las  variables.  Cada  variable  está perfectamente correlacionada con ella misma, la perfecta correlación se representa con una línea diagonal. El color rojo indica correlación negativa,  el azul positiva y entre más intenso sea el color es mayor la correlación. [3] 

Rattle  también  brinda  la  opción  analizar  la  correlación  entre  las  variables  que  tienen  valores faltantes,  para  esto  de  activa  la  opción  “Explorar  faltantes”  seguido  de  presionar  el  botón “Execute”. 

Page 24: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 22. Análisis de correlación entre las variables que posee valores faltantes. 

  

En este análisis solo participan  las variables que tienen valores faltantes y como se observa en  la Figura  22  también  aparecen  variables  categóricas,  de  igual  forma  aparece  el  coeficiente  de correlación.  Se observa  también  información de  los datos  faltantes  tales  como  la  cantidad  y  el porcentaje  de  cada  variable.  Tambien  se  acompaña  con  un  gráfico  el  cual  se  muestra  a continuación en la Figura 23. 

Page 25: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 23. Gráfico de correlación entre las variables que poseen valores faltantes. 

 En este grafico  se observa que hay un alto grado de  correlación entre empleado_en y  trabajo, esto  quiere  decir  que  en  general  cuando  hay  un  dato  faltante  en  trabajo  también  lo  hay  en empleado_en. 

Por ultimo también existe  la opción de realizar un análisis de correlación jerárquico, para esto se activa la opción “jerárquico”, esto despliega el gráfico el cual se observa a continuación.  

 

Page 26: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 24. Gráfico de correlación jerárquico. 

 

 

 

 

 

 

Page 27: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

6. Transformando los Datos 

La  transformación  de  los  datos  es  un  proceso  en  el  cual  se  preparan  los  datos  que  van  a  ser estudiados  median  la minería  de  datos,  por  lo  tanto  el  tipo  de  transformación  que  se  haga depende de la técnica que se vaya a utilizar. [4] 

Rattle ofrece 4 tipos de transformación los cuales se detallan a continuación: 

• Cambiar escala: dentro de esta opción se pueden realizar diferentes cambios de escala.  

Recentralizar: centra los datos alrededor de cero, es decir transforma los datos de modo que  la  media  sea  0  y  la  desviación  estándar  sea  1.  Este  término  corresponde  a normalizar. 

  Escala [0‐1]: normaliza los datos en una escala de 0 a 1.   ‐Mediana/MAD:  cambia  la  escala  de  forma  que  la  mediana  sea  0  y  la  desviación  absoluta de la mediana sea 1, es una versión más robusta que recentralizar. 

  Registro  natural:  cambia  la  escala  de  los  datos  por medio  de  una  transformación  de logaritmo natural. 

  Matriz: esta transformación es solo para variables numéricas, la variable seleccionada es tratada  como una matriz dividiendo  cada  valor de  la matriz por  la  suma de  todos  los elementos de la matriz.  

  Intervalo: organiza los valores de la variable dentro de rangos. 

 

Figura 25. Interfaz para cambiar la escala de los datos. 

Page 28: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

• Atribuir: proporciona diferentes métodos para  reemplazar  los datos  faltantes. Se debe  tener cuidado al momento de tratar los datos faltantes ya que se pueden cambiar las distribuciones de  las variables y así generar modelos poco adecuados. La traducción correcta de esta opción es imputación.  

Cero/faltante: Se reemplaza  los datos numéricos con 0 y  los categóricos con  la palabra “faltante”.  

Media: reemplaza los valores faltantes con la media.   

Mediana: llena los datos faltantes con la mediana.  

Modo: se utiliza la moda para llenar los datos faltantes.  

Constante: reemplaza los valores faltantes de cierta variable por un valor especificado.  

 

Figura 26. Interfaz para manejar los datos faltantes. 

• Recode: se realizan transformaciones sobres las variables, ya sea de su tipo o de su ubicación.  

Cuantilos (la traducción correcta es cuantiles): divide la variable numérica en categorías con aproximadamente el mismo número de observaciones en cada una de ellas.  

Kmeans:  se  utiliza  el  método  Kmeans  para    dividir  la  variable  numérica  en  grupos basándose en la distancia entre los elementos. 

  Del mismo ancho: crea grupos del mismo ancho de acuerdo al número de grupos que se le ingrese. 

 

Page 29: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Variable  indicador:  convierte  una  variable  categórica  en  una  colección  de  variables indicadoras, en donde cada una de estas variables es un nivel de  la variable categórica. Para cada observación solo una de estas nuevas variables tendrá el valor de 1 y el resto serán 0. El 1 corresponde al valor actual de la variable categórica original. 

  Unir categorías: Combina múltiples variables categóricas en una sola.   Como categórico: Convierte variables numéricas a categóricas   Como numérico: Convierte una categórica en una numérica reemplazando cada nivel por el índice numérico del nivel. [3] 

  

   

Figura 27. Interfaz que permite cambiar de tipo las variables. 

• Limpiar: Permite eliminar variables u observaciones.  

Borrar ignorados: Borra las variables a las que se les haya asignado el rol de ignorar.  

Borrar seleccionados: Borra las variables que se seleccionen en la lista de abajo.   Borrar Faltantes: Borra las variables que contengan valores faltantes.   Borrar objs con faltantes: Borra toda observación que contenga valores faltantes.  

 

Page 30: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 28. Interfaz para la limpieza de los datos. 

7. Análisis de clúster 

Lo que  se busca  con  este  análisis  es  encontrar  agrupaciones dentro de  los datos  con  el  fin de observar  diferencias  o  similitudes  que  contribuyan  al  entendimiento  de  los  datos.  [5].  Por  el momento Rattle brinda la posibilidad de realizar el análisis de clústeres mediante dos métodos los cuales solo funcionan con variables numéricas: 

• KMeans: es un método de capa única, el cual divide las observaciones en k grupos, donde k es el número de grupos en los que se desea dividir la muestra. [5] 

 

Figura 29. Interfaz para el análisis de clúster con KMeans. 

En la interfaz se observa el campo “Numero de clústers” en el cual se indica el número de grupos en el que se dividirán las observaciones, el campo “Semilla” se ingresa un valor numérico a partir del cual se generarán valores aleatorios y un checkbox “Repetir Clústers” el cual en caso de estar activado  ejecuta  el  algoritmo  KMeans  tantas  veces  como  lo  indique  el  numero  en  el  campo “Ejecuciones”.  

Page 31: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Luego  de  correr  el  algoritmo  KMeans  Rattle  arroja  los  siguientes  resultados  (ver  figura  30):

 

Figura 30. Resultados del algoritmo KMeans.  

En esta imagen se observa la cantidad de elementos para cada clúster, la media de cada variable y los  centros  de  cada  clúster  para  las  variables.  Si  se  desea más  información  sobre  el  análisis  el botón  “Estadísticas”  se  obtiene  información  como:  la  entropía,  el  diámetro,  la  matriz  de separación y mucha más información la cual puede ser de gran utilidad al momento de estudiar los datos. Por otra parte si se quiere una representación gráfica  los botones “Diagrama de datos” y “Diagrama discriminante” brindan esta posibilidad.  

 • Jerárquico: los datos se dividen en subcategorías que se van dividiendo en otras 

Hasta que se clasifiquen todos los objetos, a diferencia del KMeans no es necesario ingresar el número de grupos de antemano.   

 

Figura 31. Interfaz para clúster jerárquico. 

Page 32: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Para realizar el análisis jerárquico de los datos Rattle permite seleccionar el tipo de distancia que se  requiere siendo  la euclidiana  la predeterminada y  también existe  la posibilidad de escoger el método de aglomeración el cual Ward es el predeterminado. El campo “Número de procesadores” hace referencia al número de subprocesos que se ejecutarán paralelamente. [6] 

Luego  de  oprimir  “Execute”  se  tienen  las  tres mismas  opciones:  “Estadisticas”,  “Diagrama  de datos”,  “Diagrama  discriminante”  explicadas  anteriormente  y  además  se  tiene  la  opción “Dendograma”  la cual hace una representación gráfica de  los datos en forma de árbol y según el “Número de clústers” se señalan en el dendograma tantos grupos como lo indique el valor de este campo.  

8. Análisis de Asociaciones 

Este análisis busca encontrar relaciones entre la diversas variable de la muestra de datos lo que es muy  útil  al momento  de  realizar  clasificaciones  y  predicciones.  Rattle  brinda  una  interfaz muy sencilla para realizar el análisis de asociación, en la pestaña “Asociada” se encuentran las opciones disponibles para realizar dicho análisis. Esta es una interfaz muy sencilla de pocas opciones, donde aparece el checkbox “Cestas” el cual si se activa ejecuta un análisis de la canasta de mercado, en el cual solo existen dos columnas: una con el ID de la canasta y otra con el nombre del producto. El botón “Diagrama de frecuencia” presenta un gráfico con los elementos más comunes y usando el valor  del  soporte.  En  las  opciones  “Apoyo”  y  “Confianza”  se  ingresan  el  valor  mínimo  de aceptación para una regla de asociación, es decir solo se elegirán las reglas que tengan un apoyo y una  confianza  igual o mayor que  los  valores  ingresados  en  estos  campos.  Y  el botón  “Mostrar reglas” simplemente  las muestra, se debe  tener en cuenta que  los dos botones de esta  interfaz solo  funcionan después de haber oprimido el botón  “Execute”.  La  interfaz para este análisis  se muestra a continuación en la figura 32. 

 

Figura 32. Interfaz para encontrar reglas de asociación. 

A  continuación  se mostrarán  los  resultados  arrojados por Rattle  con un  apoyo  y una  confianza mínima de 0.5. En  la primera parte se muestra un resumen sobre  las reglas, donde se observa el número  de  reglas  que  en  este  caso  son  20  y  luego  se muestran  diversas  estadísticas  sobre  el soporte o apoyo,  la confianza y  la elevación (confianza de  la regla dividida el soporte de  la parte 

Page 33: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

derecha de la regla) [8]. En la segunda parte Rattle nos muestra información sobre la ejecución del algoritmo aprori, la cual no se tratará ya que no presenta información relevante. 

 

Figura 33. Resultado arrojado por el algoritmo aprioiri. 

Al dar click en “Mostrar reglas” éstas se muestran de la siguiente forma: 

 

Figura 34. Reglas de asociación encontradas. 

Cada regla tiene su soporte, confianza y elevación (lift). 

Page 34: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

9. Creando Modelos 

Esta es sin duda la parte de mayor importancia en un análisis de minería de datos ya que es donde  se construye el modelo que representara el comportamiento de la muestra estudiada y es a partir de  este  modelo  donde  se  pueden  realizar  clasificaciones,  predicciones  y  estimaciones.  Rattle ofrece la posibilidad de construir una gran variedad de modelos, a continuación se detallarán cada uno de estos y en qué consisten. 

• Árbol: el árbol de decisión es uno de los modelos más comunes en la minería de datos y esto se debe a  su  facilidad de  interpretación. Este modelo  funciona para datos numéricos  como categóricos. El algoritmo utilizado es rpart el cual es comparable con CART y el ID3/C4. 

 

Figura 35. Interfaz para crear un árbol de decisión. 

Al momento de generar el modelo se pueden ajustar ciertas opciones con el fin de que el modelo se adapte a  lo que se desea. El primer cuadro de texto que se observa es “División mínima” este campo especifica el número mínimo de observaciones que deben existir en un nodo antes de que se realice  la división. “Cubo mínimo”  indica el mínimo de observaciones que debe haber en cada hoja del  árbol.  “Profundidad máxima” es el número máximo de niveles permitidos en el  árbol. “Complejidad” es un parámetro utilizado para controlar el tamaño del árbol y para seleccionar el tamaño óptimo, si el costo de agregar otra variable al nodo de decisión supera el valor de este parámetro   se detiene  la construcción del árbol. “Previos” establece  la probabilidad previa para cada  clase  con  el  fin  de  amplificar  una  clase  importante  asignándole  una mayor  probabilidad previa,  en  caso  de  tener  tres  clases  se  ingresarían  las  probabilidades  de  la  siguiente  forma: 0.3,0.4,0.3. “Matriz de pérdida”   esta es usada para ponderar de diferente  forma  los errores de clasificación por ejemplo: 0,10,1,0 (TN,FN,FP,TP) esto indica que un FN (false negative) es 10 veces menos deseado que un FP (false positive). Por el último el checkbox “Incluir faltantes”  en caso de activarlo se utilizarán variables suplentes en caso de que hayan valores  faltantes.   Luego de dar click en “Execute” podemos ver el árbol gráficamente y las reglas que se generaron. [3] 

• Bosque: este es un modelo donde se crean varios árboles de decisiones, este modelo se usa cuando se tiene bases de datos muy grandes y un gran número de variables de entrada.  Cada árbol  es  construido  con  un  subconjunto  de  datos  aleatorio.  El  algoritmo  utilizado  es randomForest el cual no trabaja con variables nominales de más de 32 niveles. 

Page 35: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 36. Interfaz para crear bosque. 

Dentro de  las opciones que se pueden configurar se tienen: “Numero de árboles” en esta opción se  indica el número de árboles que  se generarán en el modelo. El  “Numero de variables” hace referencia a las variables que se tendrán en cuenta al momento de decidir cómo dividir el conjunto de datos en cada nodo. En el “Tamaño de muestra” se especifica el tamaño de  la muestra con  la que se construirá cada árbol de decisión, se debe  ingresar el tamaño para cada clase separando por comas los tamaños de las clases, esto con el fin de equilibrar las predicciones. 

Tras ejecutar el algoritmo, podemos ver las reglas creadas por cada árbol y además un gráfico que muestra la importancia de cada variable para determinar el valor de la variable de salida. 

• Potenciar:  esta  opción  crea  múltiples  modelos  sencillos,  en  los  cuales  se  potencian  las observaciones que son difíciles de adaptar al modelo. Luego de construir cada modelo se  le asigna  un mayor  peso  a  estas  observaciones  con  el  fin  de  que  tengan más  importancia  al momento de  construir  el  siguiente modelo.  El  algoritmo utilizado  es  el  adaBoost  (Adaptive Boosting).  

 

Figura 37. Interfaz 

La interfaz que presenta Rattle para la creación de este modelo tiene opciones ya explicadas en el modelo  del  árbol,  en  las  nuevas  opciones  se  encuentran:  “Tocones”,  este  checkbox    da  la posibilidad de incluir o no tocones al modelo, los cuales son arboles de una sola división. El “X val” índica el número de pliegues que se utilizarán para la validación cruzada. [7] 

• SVM  (Support  Vector Machine):  este modelo  lo  que  busca  son  los  llamados  vectores  de soporte,  los cuales son puntos que suelen encontrarse en el  límite de un área en el espacio que es un límite de una clase de puntos a otro. Estos vectores son usados para identificar un hiperplano en caso de tener muchas dimensiones en los datos o una línea cuando se habla de solo  dos  dimensiones  en  los  datos.  Básicamente  los  que  se  hace  es  encontrar  el máximo margen entre las clases. 

Page 36: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

 

Figura 38. Interfaz para crear un SVM. 

• Lineal: Rattle ofrece la posibilidad de generar diferentes tipos de regresión, a continuación se hará una breve descripción de cada uno de las opciones ofrecidas por este paquete. Cada una de estas regresiones se acompaña de un diagrama. 

 

Figura 39. Interfaz para realizar regresiones. 

Numérica:  este  es  el  tipo  regresión  lineal  tradicional  y  es  apropiado  cuando  la  variable  de destino es numérica y continua.  

Generalizado:  el  modelo  de  regresión  lineal  generalizado  como  su  nombre  lo  indica  se generaliza la aplicación de dicho modelo a variables con distribuciones diferentes a la normal. 

  Poisson: modelo de regresión lineal que se aplica a variables con una distribución Poisson. 

  Logística y Probit: estos dos  tipos de  regresión  son utilizados  cuando  la variable de destino solo tiene dos posibles valores. Estos arrojan resultados similares. 

  Polinómico: este se utiliza cuando la variable de destino posee más de dos posibles valores.  

• Red Neural:  las redes neuronales pueden ser usadas para regresión o tareas de clasificación. La idea es conectar una colección de neuronas en una red, de las cuales unas serán de entrada y otras de salida. Las variables de entrada siempre serán valores numéricos.  

 

Figura 40. Interfaz para crear una red neuronal. 

Rattle provee una interfaz muy sencilla donde solo se debe ingresar el número de neuronas que se desean tener en los niveles ocultos. 

Page 37: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

• Supervivencia: Un modelo de  supervivencia  es utilizado para  analizar  eventos ocurridos  en determinado tiempo con el fin de mostrar cómo cambia la probabilidad de que se produzca un evento en el tiempo. 

10. Evaluando Modelos 

Luego de crear los modelos realizar pruebas sobre estos es de gran importancia ya que por medio de  estas pruebas  se puede observar  la  validez de  los modelos. Rattle  tiene diferentes  tipos de métodos para evaluar  los modelos creados, se pueden evaluar todos  los modelos que se pueden crear  en  la  pestaña modelo  y  también  los  resultados  arrojados  en  el  análisis  de  clústeres.  El objetivo de esta pestaña es medir el desempeño  de los modelos y además probarlos con nuevas muestras de datos. A continuación se hablara un poco sobre  los distintos tipos de evaluación de modelos. 

 

Figura 41. Interfaz para evaluar los modelos. 

• Matriz  de  error:  también  conocida  como  matriz  de  confusión,  en  esta  se  muestra  las clasificaciones hechas por el modelo contra las predichas. Esta matriz es apropiada cuando la variable de destino es categórica. 

• Riesgo:  en  esta  opción  se  presenta  un  diagrama  de  riesgo,  donde  a  lo  largo  del  eje  X  se encuentra  la proporción de  la población y en el eje Y una medida de desempeño. En caso de que  se  haya  seleccionado  una  variable  de  riesgo  al  momento  de  cargar  los  datos  ésta aparecerá representada con una línea roja. 

• Curva de costo: Una curva de datos traza  la función de probabilidad de costo contra el costo normalizado esperado para una gama de umbrales posibles para la familia de modelos. 

• Elevación: genera un diagrama de elevación el cual identifica la ganancia en rendimiento que ofrece el modelo.   

• ROC:  se muestra una gráfica ROC, en la cual se diagraman los verdaderos positivos contra los falsos positivos 

• Precisión: se grafican en un mismo diagrama la precisión vs la tasa de verdaderos positivos. • Sensibilidad: Rattle presenta de  forma  gráfica  la  tasa de  verdaderos positivos  vs  la  tasa de 

verdaderos negativos.  • Obj prev: esta opción  la cual no tiene un nombre muy claro traza en un mismo diagrama  los 

valores predichos contra los observados. • Calificación: esta opción aplica los modelos seleccionados a una muestra de datos la cual por 

defecto es  la de evaluación, en caso de no existir se aplica al conjunto de datos. También se puede  cargar otro archivo CSV o un  conjunto de datos R.  Luego de presionar  “Execute”  los 

Page 38: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

resultados  de  la  calificación  serán  guardados  en  un  archivo  CSV  el  cual  será  nombrado  y guardado según las preferencias del usuario. 

 

En la fila de datos se observan las diferentes opciones que ofrece Rattle de muestras con las que evaluar  los modelos.  En  primer  lugar  se  encuentran  las  diferentes  particiones  que  se  pueden generar  sobre  una muestra  de  datos.  La  opción  “Completo”  toma  toda  la muestra  de  datos  e “Ingresar” permite entrar observaciones manualmente. Ya por último se pueden cargar muestras de datos de otros archivos CSV o de conjuntos de datos R. 

11. El Registro 

En  la pestaña “Registro” se puede observar todos  los comandos que Rattle genera en  lenguaje R para ejecutar todas  las tareas que se  le han asignado a Rattle. Esta opción es de gran utilidad ya que por medio de esta se pueden conocer  las funciones utilizadas para  llevar a cabo  las acciones que  se desean  realizar por medio de  la  interfaz  gráfica de Rattle. Este  registro  tiene un diseño agradable  ya que  comenta  y  separa  cada pedazo de  código  lo  cual  lo hace muy  fácil de  leer e interpretar  y  además  el  código  se  puede  copiar  y  pegar  directamente  al  a  consola  de  R.  A continuación se muestra el registro que se generó al momento de cargar los datos y dividirlos en entrenamiento, validación y prueba. 

 

Figura 42. Registro de Rattle. 

Page 39: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

12. Propuestas y Conclusiones 

Rattle es una gran herramienta de minería de datos que posee una interfaz muy intuitiva y fácil de manejar, además cuenta con ciertas ayudas que de alguna forma amplían la información acerca de ciertas funciones de este paquete. Una gran ventaja de este paquete es  la facilidad de adquirirlo ya que fue desarrollado  con el lenguaje R el cual es un entorno gratuito, por lo que  lo único que se necesita es una conexión a Internet para acceder a él.  Por otro lado, una parte no tan positiva de  este  paquete  es  que  requiere  de  otros  paquetes  para  su  funcionamiento  los  cuales  no  se descargan al momento de instalar Rattle sino que se van descargando a medida que se va usando este paquete, por lo que se requiere una conexión constante a Internet con el fin de tener acceso a los paquetes necesario para ejecutar cierta función de esta herramienta de minería de datos. 

Dentro de las características que se podrían mejorar del paquete se encontraron las siguientes: al momento de cargar un archivo CSV si este tenía palabras con tilde,  lo cual es común en nuestro idioma, Rattle presentaba un error y no permitía la carga de éste, por lo cual se tenía que depurar el archivo para poder cargarlo. Los arboles de decisión que presentaba este paquete al momento de crear estos modelos no era muy claros ya que proveían poca información sobres las variables lo cual  dificultaba  la  comprensión  de  este  tipo  de  modelos.  Y  como  ya  se  había  mencionado anteriormente la gran cantidad de descargas aisladas que se requieren para la ejecución de Rattle, una  posible  solución  a  esto  es  una  sola  descarga  inicial  que  contenga  todos  los  paquetes necesarios  para  garantizar  la  completa  funcionalidad  de  Rattle  con  el  fin  de  no  requerir  una continua  conexión  a  internet  para  para  realizar  nuestro  análisis  de minería  de  datos  con  este paquete. 

En términos generales Rattle es una herramienta de gran utilidad para realizar estudios de minería de datos  la cual posee grandes ventajas como  los diversos  formatos que acepta al momento de cargar  los  datos,  la  posibilidad  de  dividir  la  muestra  de  datos  en  subconjuntos  para  el entrenamiento, validación y prueba. También posee una interfaz muy intuitiva que guía al usuario a  completar  los  pasos  necesarios  para  un  análisis  de  los  datos  y  al  estar  implementado  en  el Lenguaje de programación R  tiene a disponibilidad una gran colección de algoritmos que  sirven para la minería de datos.   

Haber realizado este trabajo fue de gran ayuda ya que al consultar y estudiar las funciones que me brindaba esta herramienta pude desarrollar las diversas tareas que me exigía el curso de Técnicas en  Aprendizaje  Estadístico  y  así  por medio  de  este  paquete  pude  conocer  y  entender  cómo funciona  el mundo  de  la minería  de  datos. Una  ventaja de  esta  guía  y de Rattle  es que no  se requiere profundos conocimientos en el campo de la estadística para utilizar el paquete por lo cual una persona con un básico entendimiento de  la estadística puede sin ningún problema utilizarla,  ahí  es  donde  cobra  importancia  este  trabajo  ya  que  sirve  de  apoyo  para  esas  personas  sin  un amplio conocimiento. 

   

Page 40: TDG Daniel Tuttle - tecaprendizajeest.wikispaces.coma+de... · 2. La minería de datos La minería de datos es un conjunto de técnicas y tecnologías que permiten analizar grandes

Referencias Bibliográficas 

[1] What is R? [ONLINE] [Consultado el 13 de Marzo de 2011]. Disponible en:   

http://www.r‐project.org/ 

[2] Rattle: A Graphical User  Interface  for Data Mining using R.    [ONLINE]  [Consultado  el  14 de Marzo de 2011]. Disponible en:  

 http://rattle.togaware.com/  

[3] WILLIAMS, GRAHAM J. Desktop Survival Guide. [ONLINE] [Consultado el 15 de Marzo de 2011]. Disponible en: 

http://datamining.togaware.com/survivor/Initial_Interaction.html 

[4] JIMENEZ, CLAUDIA S. Preparación de los datos para producir nuevo conocimiento. [Consultado el 25 de Marzo de 2011]. 

[5] JIMENEZ, CLAUDIA S. Análisis de Conglomerados. [Consultado el 1 de Mayo de 2011]. 

[6] LUCAS, ANTOINE. The amap Package.  [ONLINE] [Consultado el 5 de Mayo de 2011]. Disponible en: 

https://mulcyber.toulouse.inra.fr/docman/view.php/13/960/amap_0.5.pdf 

[7] Control for Rpart Models. [ONLINE] [Consultado el 10 de Mayo de 2011]. Disponible en: 

http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/rpart/html/rpart.control.html 

[8]  ZORRILLA, MARTA.  Análisis  de  Asociación.  [ONLINE]  [Consultado  el  15  de Mayo  de  2011]. Disponible en: 

http://personales.unican.es/zorrillm/PDFs/Doctorado/asociacion.pdf    

[9] SINNEXUS. Minería de datos. [ONLINE] [Consultado el 4 de Junio de 2011]. Disponible en: 

http://www.sinnexus.com/business_intelligence/datamining.aspx  

[10] JIMENEZ, CLAUDIA S. Minería de datos y aprendizaje estadístico. [Consultado el 4 de Junio de 2011].