descubrimiento de conocimiento en la base de datos...

13
1. Introducción La preocupación por el desempeño de los estudiantes de primer año de carrera universitaria, que surge de los desfavorables indicadores de deserción, abandono y bajo rendimiento académico, ha llevado a las universidades del país a investigar sobre las causas que subyacen en esta problemática. A raíz de ello, este proyecto abordó ese problema, por medio del análisis de los datos de la base académica de una institución de educación superior a través del adecuado uso de técnicas de minería de datos. La minería de datos puede ofrecer para esta problemática planteada una gran variedad de métodos estadísticos y computacionales para investigar la existencia de relaciones y patrones de comportamiento en los estudiantes de primer año de carrera universitaria. La primera etapa del desarrollo de este proyecto, consistió en el diseño e implementación de un Datawarehouse (almacén de datos) que integró toda la información sistematizada de 7215 estudiantes de la Institución, agrupados en 11 facultades y 41 programas. Tomando como atributos básicos: sexo, facultad, programa, colegio de procedencia, ciudad Vector 6 (2011) 7 - 19 ISSN 1909 - 7891 Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales Javier Hernández Cáceres a * a Magister en Educación. Docente Facultad de Ingeniería Industrial. Universidad Santo Tomás, Bucaramanga, Colombia. Recibido: 19 de diciembre de 2011. Aprobado: 1 de agosto de 2013. * Autor de correspondencia. E-mail: [email protected] (J.Hernández) Resumen Hoy, uno de los grandes retos de toda institución educativa es retener a sus estudiantes, sin perjuicio de la calidad académica. En las universidades las estadísticas muestran que los periodos académicos donde hay mayor índice de deserción estudiantil corresponden a los primeros semestres (Tello, 2007). Sobre este tema se han realizado varios estudios que entregan estadísticas de mortalidad académica y sobre los cuales se plantean posibles causas, tales como la deficiencia en conceptos básicos de educación media, en métodos de estudio, entre otros. En este sentido, el presente trabajo abordó esta problemática por medio del análisis de los datos de la base académica de una universidad, usando la técnica de minería de datos más conveniente para el estudio (de un screening realizado entre varias técnicas), que ofrece una variedad de métodos estadísticos y computacionales para investigar la existencia de relaciones y patrones “ocultos” de comportamiento en los estudiantes de primer año de carrera. Estas relaciones pueden sugerir explicaciones causales que puedan ser verificadas posteriormente o bien estrategias de acción para lograr ciertos objetivos de cambio y apoyo para la toma de decisiones. Para este caso, se planteó como objetivo principal el diseño de un prototipo software por medio de una red neuronal utilizando los mapas auto-organizativos de Kohonen, una técnica de inteligencia artificial. Palabras clave: minería de datos, KDD, redes neuronales, mapas de Kohonen, deserción estudiantil. Knowledge discovery in the academic database of a higher education institution using neural networks Abstract Nowadays, one of the greatest challenges of every educational institution is to retain students without prejudice to academic quality. In universities, statistics show that the academic periods where there is greater dropout rate correspond to the first semesters (Tello, 2007). On this topic several studies have been developed that provide dropout statistics and on which possible causes, such as deficiencies in basic concepts from secondary education and methods of study, among others are suggested. In this sense, this work addressed this issue through an analysis of data from a university academic basis using the data mining technique more suitable for the study (of screening conducted among various techniques) which offers a variety of statistical and computational methods to investigate the existence of relationships and ”hidden” behavior paerns in freshmen dtudents.. These relationships may suggest causal explanations that can be verified later or action strategies to achieve some objectives of change and support for decision making. For this case the design of a prototype software by means of a neural network using Kohonen self-organizational maps, and an artificial intelligence technique Key words: data mining, KDD, neural networks, Kohonen maps,dropout rate.

Upload: others

Post on 10-May-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

1. Introducción

La preocupación por el desempeño de los estudiantes de primer año de carrera universitaria, que surge de los desfavorables indicadores de deserción, abandono y bajo rendimiento académico, ha llevado a las universidades del país a investigar sobre las causas que subyacen en esta problemática. A raíz de ello, este proyecto abordó ese problema, por medio del análisis de los datos de la base académica de una institución de educación superior a través del adecuado uso de

técnicas de minería de datos. La minería de datos puede ofrecer para esta problemática planteada una gran variedad de métodos estadísticos y computacionales para investigar la existencia de relaciones y patrones de comportamiento en los estudiantes de primer año de carrera universitaria.

La primera etapa del desarrollo de este proyecto, consistió en el diseño e implementación de un Datawarehouse (almacén de datos) que integró toda la información sistematizada de 7215 estudiantes de la Institución, agrupados en 11 facultades y 41 programas. Tomando como atributos básicos: sexo, facultad, programa, colegio de procedencia, ciudad

Vector 6 (2011) 7 - 19ISSN 1909 - 7891

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior

usando redes neuronalesJavier Hernández Cáceresa*

a Magister en Educación. Docente Facultad de Ingeniería Industrial. Universidad Santo Tomás, Bucaramanga, Colombia.

Recibido: 19 de diciembre de 2011. Aprobado: 1 de agosto de 2013.

* Autor de correspondencia. E-mail: [email protected] (J.Hernández)

ResumenHoy, uno de los grandes retos de toda institución educativa es retener a sus estudiantes, sin perjuicio de la calidad académica. En las universidades las estadísticas muestran que los periodos académicos donde hay mayor índice de deserción estudiantil corresponden a los primeros semestres (Tello, 2007). Sobre este tema se han realizado varios estudios que entregan estadísticas de mortalidad académica y sobre los cuales se plantean posibles causas, tales como la deficiencia en conceptos básicos de educación media, en métodos de estudio, entre otros. En este sentido, el presente trabajo abordó esta problemática por medio del análisis de los datos de la base académica de una universidad, usando la técnica de minería de datos más conveniente para el estudio (de un screening realizado entre varias técnicas), que ofrece una variedad de métodos estadísticos y computacionales para investigar la existencia de relaciones y patrones “ocultos” de comportamiento en los estudiantes de primer año de carrera. Estas relaciones pueden sugerir explicaciones causales que puedan ser verificadas posteriormente o bien estrategias de acción para lograr ciertos objetivos de cambio y apoyo para la toma de decisiones.

Para este caso, se planteó como objetivo principal el diseño de un prototipo software por medio de una red neuronal utilizando los mapas auto-organizativos de Kohonen, una técnica de inteligencia artificial.

Palabras clave: minería de datos, KDD, redes neuronales, mapas de Kohonen, deserción estudiantil.

Knowledge discovery in the academic database of a higher education institution using neural networksAbstractNowadays, one of the greatest challenges of every educational institution is to retain students without prejudice to academic quality. In universities, statistics show that the academic periods where there is greater dropout rate correspond to the first semesters (Tello, 2007). On this topic several studies have been developed that provide dropout statistics and on which possible causes, such as deficiencies in basic concepts from secondary education and methods of study, among others are suggested. In this sense, this work addressed this issue through an analysis of data from a university academic basis using the data mining technique more suitable for the study (of screening conducted among various techniques) which offers a variety of statistical and computational methods to investigate the existence of relationships and ”hidden” behavior patterns in freshmen dtudents.. These relationships may suggest causal explanations that can be verified later or action strategies to achieve some objectives of change and support for decision making. For this case the design of a prototype software by means of a neural network using Kohonen self-organizational maps, and an artificial intelligence technique

Key words: data mining, KDD, neural networks, Kohonen maps,dropout rate.

Page 2: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Javier Hernández Cáceres / Vector 6 (2011) 7-19

[ 8 ]

de procedencia, edad, créditos ganados, promedio académico y créditos tomados. De igual manera, se implementaron y calcularon nuevas variables como: status, desempeño, retención y categoría; variables básicas para el objeto de estudio de esta investigación. Esta sabana de datos sirvió de base para la realización de un screening (selección) de la mejor técnica de minería de datos a implementar en el estudio de la base de datos de la universidad, entre técnicas comunes utilizadas como lo son el clustering, los algoritmos genéticos, los árboles de decisión y las redes neuronales; teniendo en cuenta los objetivos del estudio y la calidad, cantidad y características de los datos. Posteriormente y en vista de que las redes neuronales resultó ser la técnica más conveniente a implementar, se procedió a realizar el diseño del prototipo computacional para la institución educativa empleando los mapas auto-organizativos de Kohonen, una técnica de inteligencia artificial.

Finalmente, se obtuvieron las redes neuronales ganadoras por medio del prototipo computacional, permitiendo así la clasificación de la información y el descubrimiento de patrones nuevos de conocimiento, y aportando de esta manera valiosa información para las directivos de la institución.

1.1. Minería de datos

Es un procedimiento que emplea técnicas de análisis multivariado así como de inteligencia artificial en la extracción de nuevo conocimiento a partir de bases de datos; es considerado también, como una etapa del KDD, o descubrimiento de información a partir de una base de datos (Alcala y Lacruz, 2010). Estos nuevos conocimientos deben ser válidos, útiles y sobre todo comprensibles. Este nuevo conocimiento permite apoyar el proceso de toma de decisiones en casi todas las aéreas del conocimiento, como la ciencia, las finanzas y la industria.

Las dimensiones de las bases de datos grandes (montañas) y sus velocidades de crecimiento, hacen muy difícil para un humano su análisis y la extracción de alguna información importante. Aun con el uso de herramientas estadísticas clásicas esta tarea es casi imposible.

1.2. Selección de técnica de minería de datos (screening)

La minería de datos ofrece múltiples opciones y técnicas para diferentes tipos de proyectos (Garrido y Latorre, 2001), dependiendo de los objetivos del mismo y de la calidad, cantidad y características de los datos:

1.2.1. Clustering

Las técnicas de clustering permiten agrupar datos dentro de características preestablecidas de acuerdo a criterios de distancia o similitud. Su utilización ha generado resultados satisfactorios en reconocimiento de patrones o modelamiento de sistemas. No se considera pertinente el uso de clustering dentro de este estudio porque no se pretende determinar grupos o categorías a priori con el fin de no sesgar los resultados del mismo.

1.2.2. Algoritmos genéticos

Los algoritmos genéticos imitan la evolución de los seres vivos mediante la mutación, reproducción y selección. Debido a sus características, los algoritmos genéticos son ampliamente utilizados en problemas que requieren optimización de procesos o de algoritmos. Durante este proyecto no está concebida la posibilidad de realizar optimización de procesos o actividades. Se pretende generar un resultado que permita llegar a la optimización del proceso académico de la universidad. Los algoritmos genéticos pueden ser utilizados como un complemento que permita analizar mejor los resultados obtenidos.

1.2.3. Árboles de decisión

Se trata de una técnica de aprendizaje supervisado, en la cual deben conocerse los resultados esperados con el fin de identificar las decisiones y reglas necesarias para llegar a ellos. Los árboles de decisión son fáciles de usar, se comportan relativamente bien con datos discretos y sus resultados son de fácil interpretación. No se consideran una buena opción de generación de conocimiento en este caso, debido a que los datos no son lo suficientemente completos y en algunos casos se presentan dispersos.

1.2.4. Redes neuronales

Técnica de minería de datos ampliamente utilizada en problemas de detección de patrones y detección de características comunes en los datos. La principal característica de las redes neuronales es la capacidad de aprender y generar conocimiento a partir de datos incompletos e incluso paradójicos. Debido a la naturaleza de los datos con los que se cuenta, se considera a las redes neuronales como la técnica más adecuada para el presente estudio.

Page 3: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales

[ 9 ]

1.3. Redes Neuronales Artificiales (RNA)

Las RNA son sistemas de procesamiento de información, cuyo funcionamiento y estructura está basado en las redes neuronales biológicas. Se componen de un conjunto de elementos más simples denominados nodos o neuronas conectadas entre sí por un valor numérico modificable conocido como peso (Garrido y Latorre, 2001).

Debido a su fundamentación, las redes neuronales presentan grandes semejanzas con el cerebro. Por ejemplo, ambos son capaces de aprender de la experiencia, generalizar a partir de casos anteriores y casos nuevos, y abstraer características relevantes a partir de un gran número de entradas que representan información irrelevante.

Entre las principales características que identifican una red neuronal artificial (RNA) se encuentran su topología o la organización y disposición de sus neuronas formando una red, mecanismo de aprendizaje o el proceso mediante el cual una red neuronal cambia sus respuestas a una entrada (o estímulo externo), tipo de asociación entre las entradas y salidas y, por último, la forma de representación de la información.

1.3.1. Redes neuronales de Kohonen

Las redes de Kohonen, también conocidas como Mapas Auto-Organizativos (SOM por sus siglas en inglés), son sistemas de clasificación no supervisada que permiten encontrar individuos de una población que comparten características comunes (GeNeura, 2004; THALES, 2004). Esto los hace ideales para explorar espacios vectoriales en los que se desconoce la estructura de clasificación de los vectores.

Los SOMs son algoritmos no-supervisados. Esto quiere decir que no usan la etiqueta de los datos para el entrenamiento (GeNeura, 2004). Sin embargo, en la mayor parte de los casos se usa algún tipo de etiqueta para visualizar los datos correctamente. Se denominan también algoritmos competitivos porque en el entrenamiento se entrena una sola “neurona” cada vez, lo cual significa que la representación de cada zona del espacio de entrada está concentrada por neuronas, no distribuida como suele suceder en otras redes neuronales.

Las neuronas de una SOM se encuentran dispuestas en una rejilla de dos dimensiones que puede ser hexagonal o rectangular dependiendo del número de vecinos que tiene cada neurona (6 o 4). Cada neurona tiene asociado un vector de pesos (prototipo) de la misma dimensión que los datos de entrada (GeNeura, 2004; THALES, 2004). El entrenamiento se realiza

comparando la “similitud” entre el vector de entrada y el vector de pesos, siendo la neurona ganadora la más parecida al vector de entrada.

2. Materiales y Métodos

2.1. Metodología CRISP-DM

La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico, consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase, tarea genérica, tarea especializada, e instancia de procesos (Garrido y Latorre, 2001).

CRISP-DM se trata de un estándar que incluye un modelo y una guía, estructurados en seis fases algunas de las cuales son bidireccionales, lo cual indica que se puede dar una revisión parcial o total de fases anteriores (ver Figura 1).

2.1.1. Fases de la metodología CRISP

2.1.1.1. Comprensión del negocio

Se trata de la comprensión de los objetivos y requerimientos del negocio desde una perspectiva no técnica. Se debe realizar en 4 pasos fundamentales: se establecen los objetivos del negocio, contexto inicial, objetivos y criterios de éxito o aceptación, una evaluación de la situación actual, establecer los objetivos de realizar el proceso de minería de datos (criterios de éxito), y generación del plan del proyecto.

Figura 1. Metodología CRISP-DM para el desarrollo de un proyecto de minería de datos.

Page 4: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Javier Hernández Cáceres / Vector 6 (2011) 7-19

[ 10 ]

2.1.1.2. Comprensión de los datos

En esta fase se incluye: recopilación inicial de datos, descripción de los datos, exploración de los datos, y verificación de la calidad de los datos.

2.1.1.3. Preparación de los datos

Se debe generar una vista minable, la cual consiste en una sábana de datos en la forma atributo-valor, la cual es más pertinente para su análisis. Dicho de otra forma, la vista minable debe agrupar toda la información sobre la cual se va a aplicar la técnica de minería de datos seleccionada. Por lo tanto, el proceso de preparación involucra: selección de datos, limpieza de datos, construcción de datos, integración de datos, formateo de datos.

2.1.1.4. Modelado

En esta fase, varias técnicas de modelado son seleccionadas y aplicadas, y sus parámetros son calibrados a valores óptimos. Se trata de la fase de la metodología en la cual se aplica la técnica de minería de datos seleccionada sobre la vista minable, e incluye: selección de la técnica de modelado, diseño de la evaluación, construcción del modelo, evaluación del modelo.

2.1.1.5. Evaluación

Se trata de realizar un análisis del modelo planteado en las fases anteriores, y determinar si cubren satisfactoriamente las necesidades del negocio y los objetivos para los cuales se planteó el diseño. En el final de esta fase, una decisión en el uso de los resultados de minería de datos debería ser obtenida.

2.1.1.6. Despliegue o desarrollo

La creación del modelo no es generalmente el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento ganado tendrá que ser organizado y presentado en el modo en el que el cliente pueda usarlo. Ello a menudo implica la aplicación de modelos “vivos” dentro de un proceso de toma de decisiones de una organización, por ejemplo, en tiempo real la personalización de página Web o la repetida obtención de bases de datos de mercadeo. Se trata de integrar el modelo con las tareas de toma de decisiones de la necesidad para la cual fue solicitado. El proceso incluye: planificación de despliegue, planificación de la monitorización y

mantenimiento, y generación del informe final del proyecto.

2.2. Datawarehouse

Para la aplicación de las técnicas en minería de datos se procedió a la limpieza y preprocesamiento de los datos a emplear por medio del uso de software estadístico como el SPSS y el WEKA. Una vez detectados los casos atípicos se procedió a realizar la limpieza para diseñar e implementar un Datawarehouse (almacén de datos) que integró toda la información sistematizada de 7215 estudiantes de la Institución, agrupados en 11 facultades y 41 programas, tomando como atributos: sexo, facultad, programa, colegio de procedencia, ciudad de procedencia, edad, créditos ganados, promedio, créditos tomados. Esta sábana de datos sirvió de base para la aplicación de las técnicas de minería de datos y el diseño del prototipo computacional para la Institución. De igual manera, se implementaron y calcularon nuevas variables como: status, desempeño, retención y categoría; variables básicas para el objeto de estudio de esta investigación.

3. Resultados y Discusión

3.1. Prototipo software

Es evidente que se debe tener instalado el Java Runtime Environment (JRE), de no tenerlo instalado se adjunta el archivo jre-6u21-windows-i586-s.exe para hacer su instalación.

3.2. Funcionamiento

3.2.1. Carga de datos

Al dar inicio a la aplicación lo primero que hay que hacer es cargar los datos con los que se va a realizar el análisis de mapas auto-organizativo de Kohonen. Hecho esto, el programa automáticamente conducirá a la pestaña Kohonen para iniciar los análisis.

Es posible así observar las variables y sus respectivos datos, haciendo ‘clic’ sobre la pestaña Datos, en donde pueden realizarse cambios no permanentes en los datos con el fin de hacer algún tipo de experimentación en el análisis.

3.2.2. Entrenamiento

En la pestaña Kohonen del programa se tienen: de lado izquierdo los nombres de la diferentes variables del archivo CSV, y de lado derecho se encuentra una

Page 5: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales

[ 11 ]

lista de Neuronas de Entrenamiento (debe recordarse que la técnica de redes neuronales mapas auto-organizativos de Kohonen es una técnica que aprende a partir de sus neuronas de entrenamiento).

Entonces, seleccionando el nombre de las variables y haciendo uso de los botones de administración de variables, que son los que tienen iconos de flecha indicando la dirección de desplazamiento de las variables, se seleccionan las variables con las que se va a entrenar la red.

Los resultados del entrenamiento aparecerán en la pizarra de resultados haciendo ‘clic’ en el botón entrenar. Para este ejemplo, se ha realizado un entrenamiento utilizando todas las variables que se encontraban en el archivo incluyendo la variable

ID utilizada para contar el número de instancias, encontrándose en los resultados un porcentaje de error de 7,11%. Los resultados del entrenamiento son dos Current Error y Best Error. Estos resultados son los arrojados por la técnica luego de realizar las diferentes iteraciones ajustando de manera aleatoria los pesos de las variables con base en un factor de aprendizaje (ver Figura 2).

Realizando diferentes entrenamientos, se encontró que para este caso de estudio es necesario dejar de utilizar las variables ID que no representan nada para el caso de estudio, y la variable CRED_PGA que es la que hace que aparezca el porcentaje de error por encima de 0%.

Figura 2. Pestaña Kohonen, selección de variables.

3.2.3. Identificación

Continuando el análisis y utilizando las variables del caso en estudio, se desplaza la variable retención que es la variable que se quiere identificar en el mapa auto-organizativo de Kohonen, se da ‘clic’ en el botón de entrenar para que la red entrene con las variables que le quedan y posteriormente se hace ‘clic’ en el botón identificar. Encontrándose que en los resultados

además de los porcentajes de error aparece la neurona ganadora que es la variable de entrenamiento más correlacionada con la neurona a identificar, para este caso la variable es TOTAL_CRED_TOMADOS. De esta manera, es posible ir sacando las neuronas ganadoras para determinar un orden de relación entre las neuronas de entrenamiento, y las que se desean identificar dentro de ese mapa auto-organizativo de Kohonen.

Page 6: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Javier Hernández Cáceres / Vector 6 (2011) 7-19

[ 12 ]

3.3. Resultados y análisis

Tomando la variable retención estudiantil como variable dependiente, el prototipo software usando mapas auto-organizativos de Kohonen identificó

plenamente las neuronas ganadoras, en su orden de aparición fueron:

En primera instancia la neurona ganadora es: total créditos tomados (ver Figura 3 y Figura 4).

Figura 3. Neurona Total de créditos.

Figura 4. Total de créditos.

Se entiende por crédito académico la unidad que mide el tiempo estimado de actividad académica del estudiante en función de las competencias académicas y profesionales que se espera que cada programa

desarrolle. En segundo lugar, se ubica la neurona ganadora, créditos ganados, después del número de créditos tomados, razón por la cual un estudiante presentará un buen desempeño (ver Figura 5 y Figura 6).

Figura 5. Neurona Créditos ganados.

Page 7: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales

[ 13 ]

Figura 6. Créditos ganados.

En seguida, se ubica la neurona ganadora: edad (ver Figura 7 y Figura 8).

Figura 7. Neurona Edad.

Figura 8. Edad.

Con relación a la edad de los estudiantes, se aprecian las edades comprendidas entre 16-62 años. La mayor concentración de estudiantes es en edades 19-20 que es el básico de todo programa de una Universidad. A

mayor posicionamiento, mejor desempeño y madurez intelectual.

En seguida, se ubica la neurona ganadora: promedio académico (ver Figura 9 y Figura 10).

Page 8: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Javier Hernández Cáceres / Vector 6 (2011) 7-19

[ 14 ]

Figura 9. Neurona Promedio académico.

Figura 10. Promedio académico.

El promedio ponderado acumulado permite valorar en conjunto el alcance académico de un estudiante durante los semestres cursados. En seguida, se ubica

la neurona ganadora: desempeño (ver Figura 11 y Figura 12).

Figura 11. Neurona Desempeño.

Figura 12. Desempeño.

Page 9: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales

[ 15 ]

El desempeño estudiantil juega un papel importante en este momento. Cuando se observa el promedio académico, se puede hablar del rendimiento académico, pues, permite valorar en conjunto el alcance académico de un estudiante durante un período académico. También hace referencia al nivel de conocimiento,

expresado en una nota numérica, que obtiene un estudiante como resultado de la evaluación de su participación en un proceso de enseñanza-aprendizaje.

En seguida, se ubica la neurona ganadora: categoría (ver Figura 13 y Figura14).

Figura 13. Neurona Categoría.

Figura 14. Categoría.

Categoría permite clasificar los estudiantes en tres grupos: principiante, intermedio, y avanzado.

Según el cuadro estadístico, se tiene:Principiante: 429 estudiantes.Intermedio: 2041 estudiantes.

Avanzado: 4745 estudiantes.Número de estudiantes: 7215.

En seguida, se ubica la neurona ganadora: programa (ver Figura15 y Figura 16).

Figura 15. Neurona Programa.

Page 10: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Javier Hernández Cáceres / Vector 6 (2011) 7-19

[ 16 ]

Figura 16. Programa.

Figura 17 y Figura 18). Cuando hablamos de facultad en el sentido

educativo, hacemos referencia a aquella institución que cuenta con educación de nivel superior, es decir, para que una persona se faculte en algo. Para este estudio se contó con 11 facultades.

Se concibe al programa de estudios como la descripción de un conjunto de actividades de enseñanza y aprendizaje estructuradas de tal forma que conduzcan al estudiante a alcanzar una serie de objetivos de aprendizaje previamente determinados. Para este estudio se consideraron 41 programas. En seguida, se ubica la neurona ganadora: facultad (ver

Figura 17. Neurona Facultad.

Figura 18. Facultad.

En seguida, se ubica la neurona ganadora: colegio (ver Figura 19 y Figura 20).

Page 11: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales

[ 17 ]

Figura 19. Neurona Colegio.

Figura 20. Colegio.

Se utiliza el término colegio para definir a toda institución en el cual se imparte algún tipo de enseñanza, pudiendo darse esta de modo público o

privado. Para este estudio se contó con 728 colegios de todo el país. En seguida, se ubica la neurona ganadora: sexo (ver Figura 21 y Figura 22).

Figura 21. Neurona Sexo.

Figura 22. Sexo.

Page 12: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Javier Hernández Cáceres / Vector 6 (2011) 7-19

[ 18 ]

Por ejemplo, para este estudio se contó con 3993 mujeres y 3222 hombres distribuidos en 11 facultades y 41 programas académicos respectivamente, para

un total de 7215 estudiantes. Por último se ubica la neurona status (ver Figura 23 y Figura 24).

Figura 23. Neurona Status.

Figura 24. Status.

Status, permite clasificar los estudiantes en los siguientes grupos: activo 1, inactivo 0, desertor 2, egresado 3, fallecido 4, fuera de la Universidad por pérdida de cursos 5, graduado 6, reserva de cupo 7, retirado 8, suspendido 9.

Activos: 5386.Inactivos: 524.Desertores: 165.Egresados: 44.Fallecidos: 3.Fuera de la Universidad por pérdida de cursos: 45.Graduados: 135.Reserva de cupo: 367.Retirados: 543.Suspendidos: 9.Total: 7215 estudiantes.

El anterior fue el resultado generado por el prototipo software diseñado para esta tesis, el cual es una red neuronal utilizando los mapas auto-organizativos de Kohonen. Según el Ministerio de Educación Nacional (MEN), el riesgo de deserción en los estudiantes que asisten a instituciones públicas es de un 54% menor que en los que asisten a instituciones privadas (Barrios, 2008). Del SPADIES (Sistema para la Prevención de la Deserción en las Instituciones de Educación Superior), y de otros estudios realizados por grupos de investigación de universidades del Estado como privadas se desprende un conjunto de datos como referentes generales. Así se sabe que: a) el abandono voluntario ocurre durante los primeros meses posteriores al ingreso a la institución; b) cinco de cada diez estudiantes desertan al inicio del segundo año; c) cuatro de cada diez estudiantes que comienzan

Page 13: Descubrimiento de conocimiento en la base de datos ...vip.ucaldas.edu.co/vector/downloads/Vector6_2.pdf · Descubrimiento de conocimiento en la base de datos académica de una institución

Descubrimiento de conocimiento en la base de datos académica de una institución de educación superior usando redes neuronales

[ 19 ]

el cuarto año, no obtienen el título de profesional correspondiente; y d) el mayor abandono se da en carreras con baja demanda.

Como una respuesta al hecho de que buena parte del abandono escolar se presenta en los primeros años de Universidad, investigaciones señalan que la transición entre el nivel medio superior y la universidad debe ser objeto de análisis, ya que los estudiantes manifiestan serias dificultades para integrarse al medio académico y social de la Institución. Tales investigaciones, identifican como elementos explicativos: la edad y la madurez intelectual del estudiante, así como la falta de conocimientos y habilidades previas necesarias para realizar estudios superiores.

4. Conclusiones y Recomendaciones

Este estudio abarca solo el componente académico y el diseño de una herramienta computacional, por lo que se recomienda a la Institución, convocar a profesionales en psicología de la educación y afines con el fin de tener en cuenta el factor socioeconómico, factor potencial determinante en la deserción estudiantil. Lo anterior, con el fin de obtener más información y mejorar aquellos detalles que surjan con el paso del tiempo. Se recomienda analizar nuevas variables endógenas con el fin de determinar más patrones de comportamiento.

Referencias

Alcalá J.T., Lacruz B. (2010). Introducción a La Minería de Datos (Técnicas de Predicción y Clasificación). Departamento de Métodos Estadísticos, Universidad de Zaragoza. España.

Barrios Tous, Elias (2008). Deserción Universitaria. Informe Especial publicado en el periódico El Universal. Cartagena. Colombia.

Garrido LL., Latorre J.I. (2001). Aplicaciones Empresariales de Data Mining. Universidad de Barcelona. 10 p. Disponible en: http://upcommons.upc.edu/revistes/bitstream/2099/4161/4/article.pdf

GeNeura. (2004). Mapa Auto-Organizativo de Kohonen. Grupo Neura, Departamento de Arquitectura y Tecnología de Computadores. Universidad de Granada, España. Disponible en: http://geneura.ugr.es/~jmerelo/tutoriales/bioinfo/Kohonen.pdf [Visitada en mayo de 2011].

SPADIES, Sistema para la Prevención de la Deserción en las Instituciones de Educación Superior. Ministerio de Educación Nacional (MEN). Colombia. Disponible en: http://www.mineducacion.gov.co/sistemasdeinformacion/1735/w3-propertyname-2895.html

Tello S.T. (2007). Investigación Sobre Deserción en las Instituciones de Educación Superior en Colombia. Informe Técnico. Sistema para la Prevención de la Deserción de la Educación Superior. Universidad de los Andes. Bogotá. Disponible en: http://spadies.uniandes.edu.co/spadies2/recursos/CEDE_InformeTecnico.pdf

THALES. (2004). El Modelo de Kohonen. Sociedad Andaluza de Educación Matemática THALES. Disponible en: http://thales.cica.es/rd/Recursos/rd98/TecInfo/07/capitulo6.html [Visitada en marzo de 2011].