análisis de las pruebas saber 11, años 2017 y 2018
Post on 09-Jul-2022
4 Views
Preview:
TRANSCRIPT
Universidad de La Salle Universidad de La Salle
Ciencia Unisalle Ciencia Unisalle
Ingeniería Industrial Facultad de Ingeniería
4-15-2021
Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando
las variables determinantes en los bajos resultados y en la brecha las variables determinantes en los bajos resultados y en la brecha
existente entre los estudiantes de colegios categoría A y A+ existente entre los estudiantes de colegios categoría A y A+
versus los D en el sector público versus los D en el sector público
Angie Katherin Rodríguez Rodríguez Universidad de La Salle, Bogotá, angiekrodriguez39@unisalle.edu.co
Cesar Yesid Hernandez Cano Universidad de La Salle, Bogotá, chernandez27@unisalle.edu.co
Follow this and additional works at: https://ciencia.lasalle.edu.co/ing_industrial
Part of the Engineering Commons
Citación recomendada Citación recomendada Rodríguez Rodríguez, A. K., & Hernandez Cano, C. Y. (2021). Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando las variables determinantes en los bajos resultados y en la brecha existente entre los estudiantes de colegios categoría A y A+ versus los D en el sector público. Retrieved from https://ciencia.lasalle.edu.co/ing_industrial/170
This Trabajo de grado - Pregrado is brought to you for free and open access by the Facultad de Ingeniería at Ciencia Unisalle. It has been accepted for inclusion in Ingeniería Industrial by an authorized administrator of Ciencia Unisalle. For more information, please contact ciencia@lasalle.edu.co.
i
ANÁLISIS DE LAS PRUEBAS SABER 11, AÑOS 2017 Y 2018, IDENTIFICANDO LAS
VARIABLES DETERMINANTES EN LOS BAJOS RESULTADOS Y EN LA BRECHA
EXISTENTE ENTRE LOS ESTUDIANTES DE COLEGIOS CATEGORÍA A Y A+ VERSUS
LOS D EN EL SECTOR PÚBLICO.
ANGIE KATHERIN RODRIGUEZ RODRIGUEZ
CESAR YESID HERNANDEZ CANO
Directora
Ing. YAMILE ADRIANA JAIME ARIAS
UNIVERSIDAD DE LA SALLE
FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ D.C
2021
ii
ANÁLISIS DE LAS PRUEBAS SABER 11, AÑOS 2017 Y 2018, IDENTIFICANDO LAS
VARIABLES DETERMINANTES EN LOS BAJOS RESULTADOS Y EN LA BRECHA
EXISTENTE ENTRE LOS ESTUDIANTES DE COLEGIOS CATEGORÍA A Y A+ VERSUS
LOS D EN EL SECTOR PÚBLICO.
ANGIE KATHERIN RODRÍGUEZ RODRÍGUEZ
CESAR YESID HERNÁNDEZ CANO
Trabajo de grado presentado para optar por el título de:
Ingeniero Industrial
Directora
Ing. YAMILE ADRIANA JAIME ARIAS
UNIVERSIDAD DE LA SALLE
FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ D.C
2021
iii
Nota de Aceptación
Directora: Yamile Adriana Jaime Arias
Firma Jurado
iv
Agradecimientos
“Le damos gracias en primer lugar a Dios, por guiarnos y acompañarnos a lo largo de nuestras
vidas; a nuestras familias por estar siempre ahí, por el amor, los consejos y el apoyo cada
instante; a nuestra tutora Yamile Jaime por el apoyo, paciencia y la dedicación desde el primer
instante; por último, pero no menos importante, a la Universidad de La Salle por ser nuestra alma
mater y a todos los docentes por los conocimientos y acompañamiento a lo largo de nuestra
formación.”
Angie y Cesar
v
Resumen
Este trabajo se realizó entorno la información recopilada por el Instituto Colombiano para
la Evaluación de la Educación (ICFES) de las Pruebas Saber 11 para los años 2017 y 2018;
donde se encuentran variables relacionadas con información de contacto de los estudiantes,
información socioeconómica, información del colegio, datos de citación del examen y resultados.
Con el fin de determinar si alguna de estas variables tenía incidencia en los resultados de las
Pruebas Saber 11 y en la brecha existente entre colegios públicos, se analizaron las variables
haciendo uso del software R Studio y a través de un modelo de Random Forest, se determinó la
importancia de algunas de estas variables sobre el puntaje promedio obtenido por los estudiantes
en estas pruebas. El resultado del trabajo arrojó las variables que más influyen en el puntaje,
donde las tres más importantes son el acceso a internet, a un computador y el número de libros
en el hogar. Así mismo se comprobó que las diferencias respecto a dichas variables generan la
brecha existente entre las instituciones educativas públicas. Por último, se plantean tres
propuestas a partir de los resultados obtenidos las cuales tienen el propósito de mejorar la calidad
de la educación y los resultados de los estudiantes en las Pruebas Saber 11.
Palabras clave: Pruebas Saber 11, Educación, Brecha, Variable, Random Forest.
vi
Abstract
This work was carried out around the information collected by the Colombian Institute
for the Evaluation of Education (ICFES) from the Saber 11 tests for the years 2017 and 2018;
where variables related to student contact information, socioeconomic information, school
information, exam citation data and results are found. In order to determine whether any of these
variables had an impact on the results of the Saber 11 tests and on the existing gap between
public schools, the variables were analyzed using R Studio software and through a Random
Forest model, the importance of these variables on the average score obtained by students in
these tests was determined. The result of the work showed the variables that most influence the
score, where the three most important are access to internet, a computer, and the number of
books at home; it was also found that the differences with respect to these variables generate the
existing gap between public educational institutions. Finally, three proposals are raised from the
results obtained which are intended to improve the quality of education and the results of
students in the Saber 11 tests.
Key Words: Saber 11 tests, Education, Gap, Variable, Random Forest.
vii
CONTENIDO
Resumen ....................................................................................................................................................... v
Abstract ....................................................................................................................................................... vi
TABLA DE CONTENIDO ....................................................................................................................... vii
Lista de tablas .............................................................................................................................................. x
Lista de ilustraciones ................................................................................................................................. xi
INTRODUCCION .................................................................................................................................... xv
1. CAPITULO 1: GENERALIDADES DEL PROYECTO ................................................................. 1
1.1. Descripción de la problemática. ................................................................................................. 1
1.2. Formulación del problema. ........................................................................................................ 2
1.3. Objetivos del proyecto ................................................................................................................ 2
1.3.1. Objetivo general ................................................................................................................... 2
1.3.2. Objetivos específicos ............................................................................................................ 3
1.4. Justificación. ................................................................................................................................. 3
1.5. Alcance. ........................................................................................................................................ 4
1.6. Marco teórico. ............................................................................................................................. 6
1.7. Marco de Referencia. ................................................................................................................ 10
1.7.1. Antecedentes .......................................................................................................................... 10
1.7.2. Marco Conceptual ................................................................................................................. 14
1.7.3. Marco legal. ....................................................................................................................... 16
viii
1.8. Metodología ............................................................................................................................... 17
2. CAPITULO 2: CONSTRUCCIÓN DE LA BASE DE DATOS. ...................................................................... 20
2.1. Recolección de la información ........................................................................................................ 20
2.2. Construcción de la base de datos. ................................................................................................. 21
2.3. Procesamiento y limpieza. ............................................................................................................ 26
2.3.1. Eliminación de datos faltantes. ........................................................................................ 26
2.3.2. Aplicación de filtros. ......................................................................................................... 26
2.3.3. Eliminación de caracteres especiales. .............................................................................. 27
2.3.4. Eliminación de variables. ................................................................................................. 27
3. CAPITULO 3: IDENTIFICACIÓN DE VARIABLES CON MAYOR INFLUENCIA EN LOS
RESULTADOS DE LAS PRUEBAS SABER 11 Y LA INFLUENCIA DE ESTAS EN LA BRECHA
ENTRE COLEGIOS CATEGORÍA A+ Y A VS LOS D ...................................................................... 33
3.1. Identificación de variables y grado de influencia ................................................................... 33
3.1.1. Análisis exploratorio de los datos .................................................................................... 33
3.1.2. Análisis de los datos de variables del colegio y variables socio económicas de los
estudiantes ......................................................................................................................................... 58
3.2. Métodos Machine Learning ..................................................................................................... 60
3.2.1. Algoritmo Random Forest ................................................................................................. 61
3.2.2. Ventajas Random Forest .................................................................................................... 61
3.3. Grado de influencia de variables utilizando un modelo de Random Forest ........................ 62
3.3.1. Librerías utilizadas: .......................................................................................................... 64
ix
3.3.2. División del conjunto de datos en train/test .................................................................... 64
3.3.3. Preprocesamiento de datos ............................................................................................... 65
3.3.4. Configurar el modelo de Machine Learning .................................................................. 65
3.3.5. Definir el flujo de trabajo ................................................................................................. 66
3.3.6. Calibración de parámetros ............................................................................................... 67
3.3.7. Resultados Selección de parámetros................................................................................ 68
3.4. Modelo final ............................................................................................................................... 72
3.5. Comparación colegios categoría A y A+ vs la categoría D .................................................... 76
3.5.1. Modulo información personal .......................................................................................... 77
3.5.2. Modulo información socioeconómica .............................................................................. 78
3.5.3. Modulo información del colegio ....................................................................................... 85
4. CAPITULO 4: PROPUESTAS DE MEJORA ............................................................................................. 87
4.1. Ampliar cobertura del PAE y capacitaciones a padres de familia ....................................... 87
4.2. Crear hábitos de lectura mediante actividades didácticas. ...................................................... 91
4.3. Aumentar acceso a internet y a computadores en colegios públicos. ................................... 94
5. CAPITULO 5. CONCLUSIONES Y TRABAJO FUTURO. ........................................................ 98
5.1. Conclusiones generales ............................................................................................................. 98
5.2. Trabajo futuro ........................................................................................................................... 99
ANEXOS .................................................................................................................................................. 102
Referencias............................................................................................................................................... 103
x
Lista de tablas
Tabla 1 Estudios previos relacionados con la brecha y la desigualdad en la educación ............................ 10
Tabla 2 Clasificación Instituciones según Rango del Índice ...................................................................... 15
Tabla 3 Descripción base de datos resultados prueba Saber 11. ................................................................ 20
Tabla 4 Descripción base de datos clasificación de los planteles. ............................................................. 21
Tabla 5 Variables información personal base de datos resultados prueba Saber 11. ................................. 22
Tabla 6 Variables información de contacto base de datos resultados prueba Saber 11. ............................ 22
Tabla 7 Variables información socioeconómica base de datos resultados prueba Saber 11. ..................... 23
Tabla 8 Variables información del colegio base de datos resultados prueba Saber 11. ............................. 23
Tabla 9 Variables datos citación del examen base de datos resultados prueba Saber 11. .......................... 24
Tabla 10 Variables resultados base de datos resultados prueba Saber 11. ................................................. 24
Tabla 11 Variables base de datos clasificación de los planteles. ............................................................... 25
Tabla 12 Grado de relación según coeficiente de correlación.................................................................... 28
Tabla 13 Variables descartadas para el análisis. ........................................................................................ 28
Tabla 14 Variables seleccionadas para el análisis. .................................................................................... 30
Tabla 15 Puntaje promedio de acuerdo con la educación del padre........................................................... 36
Tabla 16 Puntaje promedio de acuerdo con la educación de la madre ....................................................... 37
Tabla 17 Puntaje promedio de acuerdo con el estrato de la vivienda ........................................................ 39
Tabla 18 Puntaje promedio global dependiendo del trabajo laboral del padre .......................................... 50
Tabla 19 Puntaje promedio global dependiendo del trabajo laboral de la madre ...................................... 50
Tabla 20 Puntaje global dependiendo la jornada del colegio. .................................................................... 57
Tabla 21 Variables a incluir en el modelo Random Forest ....................................................................... 63
Tabla 22 Importancia de las variables del modelo ..................................................................................... 73
xi
Lista de ilustraciones
Ilustración 1 Panorama del rendimiento de Colombia en lectura, matemáticas y ciencias........... 1
Ilustración 2 Porcentaje de estudiantes Pruebas Saber 11 2017 por tipo de colegio ..................... 5
Ilustración 3 Porcentaje de estudiantes Pruebas Saber 11 2018 por tipo de colegio .................... 6
Ilustración 4 Metodología de la investigación. ........................................................................... 19
Ilustración 5 Distribución del puntaje global .............................................................................. 34
Ilustración 6 Puntaje global de acuerdo con el género del estudiante ......................................... 34
Ilustración 7 Puntaje global de acuerdo si el estudiante tiene etnia. .......................................... 35
Ilustración 8 Puntaje global de acuerdo con la educación del padre ........................................... 36
Ilustración 9 Puntaje global de acuerdo con la educación de la madre ....................................... 37
Ilustración 10 Puntaje global de acuerdo con el estrato de la vivienda del estudiante................ 38
Ilustración 11 Puntaje global de acuerdo con el número de personas en el hogar ...................... 40
Ilustración 12 Puntaje global de acuerdo con el número de cuartos en el hogar ........................ 40
Ilustración 13 Puntaje global de acuerdo con si la familia cuenta con computador o no. .......... 41
Ilustración 14 Puntaje global dependiendo si la familia tiene internet........................................ 42
Ilustración 15 Puntaje global de acuerdo con si tiene lavadora o no .......................................... 42
Ilustración 16 Puntaje global de acuerdo de si se tiene servicio de tv en la familia ................... 43
Ilustración 17 Puntaje global de acuerdo si se tiene automóvil en la familia ............................. 44
Ilustración 18 Puntaje global de acuerdo si se tiene motocicleta en el hogar ............................. 44
Ilustración 19 Puntaje global de acuerdo si tiene consola de videojuegos .................................. 45
Ilustración 20 Puntaje promedio de acuerdo con el número de libros que tiene la familia......... 46
xii
Ilustración 21 Puntaje promedio de acuerdo con el número de veces que se comen derivados de
la leche en la semana..................................................................................................................... 47
Ilustración 22 Puntaje global de acuerdo con el número de veces que se come carne, pescado y
huevo en la semana ....................................................................................................................... 48
Ilustración 23 Puntaje global de acuerdo con el número de veces que se come cereal, frutos y
legumbres ...................................................................................................................................... 49
Ilustración 24 Puntaje promedio de acuerdo con la dedicación de lectura diaria ....................... 51
Ilustración 25 Puntaje global de acuerdo con la dedicación diaria a navegar en internet ........... 52
Ilustración 26 Puntaje promedio de acuerdo con las horas a la semana que trabaja el estudiante.
....................................................................................................................................................... 53
Ilustración 27 Puntaje promedio global dependiendo del género del colegio ............................. 54
Ilustración 28 Puntaje promedio global dependiendo si el colegio es bilingüe .......................... 54
Ilustración 29 Puntaje global dependiendo del carácter del colegio ........................................... 55
Ilustración 30 Puntaje global dependiendo el área de ubicación del colegio .............................. 56
Ilustración 31 Puntaje global dependiendo la jornada del colegio .............................................. 57
Ilustración 32 Puntaje promedio dependiendo de las horas trabajas en la semana y la jornada . 58
Ilustración 33 Proporción de estudiantes dependiendo de la educación del padre y del área de
ubicación del colegio .................................................................................................................... 59
Ilustración 34 Proporción de estudiantes dependiendo de la educación de la madre y del área de
ubicación del colegio .................................................................................................................... 59
Ilustración 35 Configuración del modelo de Machine Learning ................................................. 66
Ilustración 36 Flujo de trabajo del modelo Random Forest ........................................................ 67
Ilustración 37 Valores de selección para las métricas ................................................................. 68
xiii
Ilustración 38 Resultado validación cruzada con división de datos 80/20 ................................ 69
Ilustración 39 Resultado validación cruzada con división de datos 75/25 .................................. 69
Ilustración 40 Resultado validación cruzada con división de datos 70/30 .................................. 70
Ilustración 41 RMSE en función del mtry y el número de arboles ............................................. 71
Ilustración 42 MAE en función del mtry y el número de arboles ............................................... 71
Ilustración 43 Modelo final de Random Forest ........................................................................... 72
Ilustración 44 Importancia de variables del modelo ................................................................... 76
Ilustración 45 Proporción de estudiantes que tienen internet dependiendo de la categoría del
colegio. .......................................................................................................................................... 77
Ilustración 46 Proporción de estudiantes que tienen etnia dependiendo de la categoría del
colegio. .......................................................................................................................................... 78
Ilustración 47 Proporción de estudiantes que tienen internet dependiendo de la categoría del
colegio. .......................................................................................................................................... 78
Ilustración 48 Proporción de estudiantes que tienen computador dependiendo de la categoría del
colegio. .......................................................................................................................................... 79
Ilustración 49 Proporción de estudiantes que no tienen computador dependiendo del estrato de
la vida. ........................................................................................................................................... 80
Ilustración 50 Proporción de estudiantes dependiendo de si tienen servicio de televisión y de la
categoría del colegio. .................................................................................................................... 81
Ilustración 51 Proporción de estudiantes dependiendo de la dedicación diaria a internet y de la
categoría del colegio. .................................................................................................................... 81
Ilustración 52 Proporción de estudiantes dependiendo del número de libros en la familia y de la
categoría del colegio. .................................................................................................................... 82
xiv
Ilustración 53 Proporción de estudiantes dependiendo la dedicación a la lectura diaria y de la
categoría del colegio. .................................................................................................................... 83
Ilustración 54 Proporción de estudiantes dependiendo del consumo de lácteos en la semana y la
categoría del colegio. .................................................................................................................... 84
Ilustración 55 Proporción de estudiantes dependiendo del consumo de proteínas en la semana y
la categoría del colegio. ................................................................................................................ 84
Ilustración 56 Proporción de estudiantes dependiendo del consumo de cereales frutos y
legumbres en la semana y de la categoría del colegio. ................................................................. 85
Ilustración 57 Proporción de estudiantes dependiendo del área de ubicación y la categoría del
colegio. .......................................................................................................................................... 86
Ilustración 58 Cobertura nacional PAE 2016 .............................................................................. 89
Ilustración 59 Cobertura nacional PAE 2017 .............................................................................. 89
Ilustración 60 Cobertura nacional PAE 2018 .............................................................................. 90
Ilustración 61 Puntaje promedio de acuerdo con la dedicación diaria de lectura. ...................... 91
Ilustración 62 Porcentaje de estudiantes según la dedicación diaria a la lectura. ....................... 92
Ilustración 63 Número de sedes conectadas 2019 ....................................................................... 95
Ilustración 64 Número de sedes conectadas 2020 ....................................................................... 95
Ilustración 65 Número de estudiantes promedio por computador .............................................. 96
xv
INTRODUCCION
La educación colombiana, en cuanto a las pruebas realizadas a nivel internacional, como
las pruebas del Programme for International Student Assessment (PISA), evidencia una seria
problemática. Desde la primera vez, en el 2006, que Colombia participó en estas pruebas no se ha
visto una notable mejoría y en todas las ocasiones se ha ubicado por debajo del promedio respecto
a los resultados del resto de países; al igual que en las pruebas Progress in International Reading
Literacy Study (PIRLS) que miden la compresión lectora, en 2011 evidenciaron que seis de cada
diez estudiantes colombianos tienen problemas para entender e interpretar textos complejos,
además de que en esta ocasión el país también se ubicó por debajo de la media y estuvo entre los
10 países con menores resultados (MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE.,
2012). A su vez, también se puede notar el estancamiento que se tiene en los resultados de las
Pruebas Saber 11, publicados por el Instituto Colombiano para la Evaluación de la Educación
(ICFES), en donde el resultado promedio nacional desde el año 2014 oscila alrededor de 250
puntos de 500 posibles; esto permite evidenciar los problemas que se vienen presentando en el
sistema educativo colombiano; por lo tanto, se considera de suma importancia analizar los datos
que posee el ICFES para conocer los motivos por los cuales está fallando.
En el presente proyecto investigativo se orienta hacia realizar un análisis de las variables
incluidas en las bases de datos publicadas por el ICFES de los resultados de las Pruebas Saber 11
de los colegios públicos de Colombia durante los años 2017 y 2018, para identificar cuáles son las
variables que tienen mayor incidencia en los resultados obtenidos. Cabe resaltar que, no solo es
importante conocer las variables sino también observar cuales son las diferencias entre los
estudiantes de colegios con altos resultados y aquellos que se encuentran rezagados, esto hace que
sea necesario hacer una comparación entre los estudiantes de los colegios categoría A y A+ con
xvi
los colegios categoría D; de manera que se puedan esclarecer los factores causantes de la brecha
existente en los resultados de las Pruebas Saber 11. El análisis exploratorio de los datos y la
comparación de variables se lleva a cabo mediante el software R-Studio, el cual brinda la facilidad
para analizar y procesar los datos.
1
1. CAPITULO 1: GENERALIDADES DEL PROYECTO
1.1. Descripción de la problemática.
Colombia es uno de los países con bajos índices de desempeño en cuanto a educación,
según las pruebas PISA, en las cuales no se han tenido buenos resultados y por lo general se ha
ubicado por debajo del promedio en pruebas de matemáticas, lectura y ciencias, según el informe
publicado por La Organización para la Cooperación y el Desarrollo Económicos (OCDE) en el
año 2019. El hecho de tener estos resultados bajos, como se observa en la Ilustración 1 y no mejorar
en ellos, evidencia que el sistema educativo colombiano está fallando y se tienen cosas por
solucionar. Adicional a estos resultados, se le suma que Colombia es uno de los países con mayor
desigualdad en América latina, por lo que no todos los estudiantes que presentan las Pruebas Saber
11 cuentan con las mismas condiciones, ni con el mismo entorno de desarrollo (Regional, s.f.).
Ilustración 1 Panorama del rendimiento de Colombia en lectura, matemáticas y ciencias.
Fuente: Program for International Student Assessment (PISA) Results from PISA 2018
2
Las Pruebas Saber 11, están a cargo del ICFES, quienes recolectan, procesan y custodian
información relacionada con la institución educativa, el estudiante que presenta la prueba y el
entorno del estudiante. Esta información es expresada a través de 94 variables, que bajo un enfoque
de analítica de datos pueden ser estudiados a profundidad, teniendo en cuenta que no se sabe con
claridad y certeza, si alguna de estas variables afecta el desempeño del estudiante en la prueba. Por
lo tanto, se presenta la oportunidad de realizar un análisis que permita identificar cuáles de las
variables resultan determinantes en los resultados de los estudiantes que presentan las Pruebas
Saber 11. Además, si bien es importante conocer que variables tienen influencia en los resultados,
también es necesario saber cuáles son las diferencias de estas variables entre los estudiantes de
colegios que tienen un mejor desempeño (categoría A y A+) y aquellos que están rezagados
(categoría D) de modo que se entienda qué condiciones específicas son responsables de la brecha
existente actualmente entre los estudiantes de estos colegios.
1.2. Formulación del problema.
¿Cuáles son las variables más representativas en los resultados de los años 2017 y 2018 de
las Pruebas Saber 11, la importancia de estas en la brecha existente entre colegios de categoría A+
y A versus la categoría D, y cómo afectan el desempeño de los estudiantes?
1.3.Objetivos del proyecto
1.3.1. Objetivo general
Analizar las variables reportadas en los resultados de las Pruebas Saber 11 de los colegios públicos
de Colombia durante los años 2017 y 2018, identificando la incidencia de estas en los bajos
resultados obtenidos, y su importancia con la brecha existente entre los estudiantes de los colegios
con altos y bajos resultados.
3
1.3.2. Objetivos específicos
• Construir la base de datos con las variables de las Pruebas Saber 11 de los
años 2017 y 2018 publicadas por el ICFES.
• Identificar las variables con mayor influencia en los resultados de las Pruebas
Saber 11 y la importancia que estas tienen en la brecha que hay entre colegios
de categoría A+ y A vs los D, aplicando herramientas de Ingeniería Industrial.
• Desarrollar propuestas de mejora basados en las variables determinantes que
diferencian a los colegios categoría A+ y A de los colegios categoría D.
1.4. Justificación.
Uno de los desafíos a los que Colombia se enfrenta es el de mejorar la calidad de la
educación con el fin de poder acelerar su crecimiento económico y, además, poder ofrecer mayores
posibilidades de bienestar a sus habitantes. En los últimos años el país ha logrado avances en
materia de disminución de pobreza, del 2018 al 2019 la pobreza multidimensional a nivel nacional
disminuyo en 1,6 puntos porcentuales (DANE, 2019); a pesar de esto el país sigue siendo uno de
más desiguales de América latina. Entre los factores que explican esta situación se destaca la escasa
capacidad del sistema educativo de aumentar el capital humano. (OECD, 2013)
A lo largo del tiempo se ha destacado el grado de influencia que algunas características
como el contexto familiar, sexo, nivel educativo de los padres o raza, entre otras, ha tenido en el
logro educativo de un individuo; también se ha destacado la importancia de desarrollar y evaluar
políticas públicas que permitan de algún modo nivelar las condiciones para los individuos con
situaciones menos favorables. (Carneiro, 2008)
4
Al existir una diferencia en la calidad de la educación entre los estudiantes de educación
media, quienes reciben una educación de menor calidad se ven afectadas a mediano y largo plazo,
pues al no desarrollar ciertas capacidades que estaría dejando esta diferencia, el ingreso a la
educación superior es menos probable y en cuanto al mercado laborar su desempeño es menor, lo
que limita la capacidad de generar ingresos. El hecho que existan diferencias de calidad en la
educación recibida ocasiona brechas en la calidad de vida de la población. La educación brindada
de esta forma, en lugar de ayudar a cerrar brechas y reducir las diferencias entre los estudiantes
del país, lo que está haciendo es profundizarlas y perpetuarlas. (Sarmiento, Becerra, & González,
2000)
Las brechas, en cuanto a calidad educativa, son un problema de eficacia escolar y se definen
como la incapacidad del sistema educativo de lograr que la población con menores condiciones
socioeconómicas incorpore efectivamente los conocimientos y competencias que puede necesitar
para participar de una manera adecuada en la sociedad. (Celis, Jiménez, & Jaramillo, 2015)
1.5. Alcance.
Este proyecto se enmarca en el análisis de los registros con los resultados obtenidos en las
Pruebas Saber 11 de los estudiantes de colegios públicos de Colombia calendario A, de los años
2017 y 2018, publicados por el ICFES y que pertenezcan a colegios categorizados ya sean A+,
A, B, C o D; con el fin de determinar cuáles de estas variables tienen mayor incidencia en los
resultados de los estudiantes y la importancia de estas en la brecha que hay entre colegios de
categoría A+ y A versus los D; estos hallazgos permitirán desarrollar propuestas basadas en los
resultados, que de ser aplicadas, puedan mejorar el desempeño de los estudiantes de colegios
públicos en las Pruebas Saber 11. Para dar una mayor claridad de la población de estudio, a
continuación, se presentan algunos datos que permiten observar la dimensión de dicha población.
5
En el Ilustración 2 se observa el total de estudiantes que presentaron las Pruebas Saber 11
en el año 2017 de colegios públicos y que se encuentran en colegios categorizados por el ICFES
en uno de los siguientes tipos A+, A, B, C, D siendo A+ los colegios con mejores puntajes, y D
aquellos con los puntajes más bajos. Es importante resaltar que del total de estudiantes que
presentaron la prueba Saber 11 reportados por el ICFES, el 12% pertenecían a colegios que no
estaban categorizados, por lo tanto, el total de estudiantes mostrados en la ilustración excluye
estos estudiantes. En la ilustración también se puede observar el porcentaje de estudiantes por
tipo de colegió, donde en la categoría A+ se ubican el 3,51% de los estudiantes (13.500
estudiantes), en la categoría A se encuentran el 17,74% de los estudiantes (6.8247 estudiantes),
en la categoría B se encuentran el 36,81% de los estudiantes(14.1573 estudiantes), en la
categoría C se encuentran el 22,48% de los estudiantes(8.6466 estudiantes) y por último en la
categoría D se encuentran el 19,46% de los estudiantes(74.834 estudiantes).
Ilustración 2 Porcentaje de estudiantes Pruebas Saber 11 2017 por tipo de colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
La cantidad de estudiantes de colegios públicos de Colombia que presentaron la prueba
Saber 11 en el año 2018, se presenta en la ilustración 3. En ella se observa el porcentaje de
estudiantes según el tipo de colegio al que pertenecen teniendo en cuenta los tipos A+, A, B, C y
D, perteneciendo al tipo A+ los colegios que tienen mejores resultados con un 4.22% de los
6
estudiantes (17.292) y D aquellos con desempeños más bajos con un 19,6% de los estudiantes
(66.460). Es importante resaltar que en este número de estudiantes se excluyen los registros de
colegio privado y aquellos que aparecen sin categorización.
Ilustración 3 Porcentaje de estudiantes Pruebas Saber 11 2018 por tipo de colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
1.6. Marco teórico.
Según lo dispuesto por el Decreto 869 de 2010, publicado por el ICFES en su sitio web
oficial, la prueba SABER 11° evalúa el nivel de la Educación Media y además de ser una
herramienta que retroalimenta al Sistema Educativo la prueba tiene por objetivos, los siguientes:
• Comprobar el grado de desarrollo de las competencias de los estudiantes que están por
finalizar el grado undécimo de la educación media.
• Proporcionar elementos al estudiante para la realización de su autoevaluación y el
desarrollo de su proyecto de vida.
• Proporcionar a las instituciones educativas información pertinente sobre las
competencias de los aspirantes a ingresar a programas de educación superior, así como
7
sobre las de quienes son admitidos, que sirva como base para el diseño de programas
de nivelación académica y prevención de la deserción en este nivel.
• Monitorear la calidad de la educación de los establecimientos educativos del país, con
fundamento en los estándares básicos de competencias y los referentes de calidad
emitidos por el Ministerio de Educación Nacional.
• Proporcionar información para el establecimiento de indicadores de valor agregado,
tanto de la educación media como de la educación superior.
• Servir como fuente de información para la construcción de indicadores de calidad de la
educación, así como para el ejercicio de la inspección y vigilancia del servicio público
educativo.
• Proporcionar información a los establecimientos educativos que ofrecen educación
media para el ejercicio de la autoevaluación y para que realicen la consolidación o
reorientación de sus prácticas pedagógicas.
• Ofrecer información que sirva como referente estratégico para el establecimiento de
políticas educativas nacionales, territoriales e institucionales. (ICFES, 2010)
Las pruebas SABER se basan en el enfoque de la calidad en los resultados, la cual es
medible a través de la observación del grado de desarrollo de algunas competencias en los
estudiantes. Su “prototipo es el de las llamadas pruebas objetivas, las cuales establecen diferencias
entre los individuos a partir de un patrón único considerado válido para toda la población, la cual
se supone homogénea desde el punto de vista de la capacidad que se pretende medir” (Jiménez &
Pinzón, 1998). Estas pruebas proveen información para comparar, dentro de cada una de ellas, a
los distintos individuos o grupos, lo que las habilita para desarrollar el objetivo de determinar
8
cuáles son las diferencias en la calidad educativa y qué factores influyen en un mayor o menor
logro. (Celis, Jiménez, & Jaramillo, 2015)
En 1998, Piñeros y Rodríguez destacaron dos elementos sobre la manera en que se
determina el logro de los estudiantes. El primero es la naturaleza multinivel del proceso en el que
predominan cuatro grupos de factores: la organización escolar, el nivel de clase, el contexto y el
desempeño individual del estudiante. Además, los autores advierten la necesidad de reconocer la
interdependencia entre los distintos grupos de factores. El segundo aspecto destacado es la
importancia del contexto, este condiciona en gran medida los resultados de la escuela, de allí que
se vea la institución educativa “un sistema en interacción con el ambiente” (Jiménez & Pinzón,
1998).
Lo anterior es coherente con el planteamiento de la teoría histórico cultural, la cual niega
la idea de que el rendimiento de la educación pueda separarse de los contextos sociales, culturales
e históricos en los que participan los individuos, pues “las funciones mentales superiores humanas
están mediadas por la interacción social significativa y la actividad” (Pedro R. Portes, 2014).
Algunos aspectos que pueden afectar el aprendizaje escolar se pueden caracterizar en: (a) lo que
llevan los estudiantes a la institución educativa, es decir, características individuales; (b) el apoyo
que reciben del hogar, como las condiciones familiares sociales y económicas; (c) los elementos
de la escuela o plantel educativo, como la eficacia de los profesores y las características de
infraestructura; y (d) aspectos institucionales como la administración de los sistemas escolares
(BANCO MUNDIAL, 2008)
Según (Celis, Jiménez, & Jaramillo, 2015), dichos factores generan una brecha en los
resultados, la cual puede entenderse como la diferencia entre el puntaje que obtiene el estudiante
y aquel puntaje que debería obtener dadas sus características personales, familiares y de
9
contexto. Adicionalmente, la definición de brecha suele emplearse, en términos comparativos,
como una diferencia de puntajes entre el grupo observado y otro de referencia, este es el caso del
estudio que hizo (Rivera, 2010) para medir la brecha de los estudiantes de Barranquilla frente a
sus pares de Bogotá y Bucaramanga.
Con el fin de analizar la brecha existente menciona anteriormente se debe analizar
puntualmente el efecto que tienen distintos factores en el logro educativo de los estudiantes, se
deben reconocer al menos cuatro grupos de características que influyen en el rendimiento de los
estudiantes. Estas son:
a. Las institucionales o geográficas que corresponden a elementos estructurales del
sistema educativo, su administración y la región donde el estudiante accede al servicio.
b. Las condiciones socioeconómicas, familiares y del entorno en que vive el estudiante
que afectan su aprendizaje a través de los procesos de socialización primaria y secundaria y
por la reproducción de prácticas culturales heredadas.
c. Las características de las instituciones educativas que se manifiestan en su dotación
de recursos físicos y humanos, las relaciones entre los actores que forman parte ellas y en la
existencia de externalidades producidas por las características de estos, cuya influencia
comúnmente se denomina efecto plantel.
d. Las condiciones individuales como el esfuerzo y la salud física y mental. Para el
propósito de este estudio las características individuales se consideran inobservables; las
características de los planteles y las socioeconómicas son variables determinantes de la calidad
educativa, incluidas en un modelo multinivel y las características geográficas agregan los
resultados obtenidos. (Jiménez & Pinzón, 1998)
10
1.7. Marco de Referencia.
1.7.1. Antecedentes
A continuación, en la tabla 1 se presentan estudios técnicos, trabajos de grado e investigaciones
realizadas previamente relacionadas con el objeto de estudio del presente proyecto, con su
respectivo título, autor, objetivo y resultados.
Tabla 1 Estudios previos relacionados con la brecha y la desigualdad en la educación
ESTUDIOS PREVIOS RELACIONADOS CON LA BRECHA Y LA DESIGUALDAD EN
LA EDUCACIÓN
TITULO DEL
PROYECTO
AUTORES OBJETIVO
RESULTADOS
Factores
académicos de
incidencia en la
generación de
desigualdades
educativas en el
colegio seminario
San Juan Apóstol y
el Liceo Hermano
Miguel La Salle
desde los
resultados de las
Pruebas Saber 11
2015-2017
(Pineda,
Bernal, &
Páez, 2019)
Describir los factores
académicos que
generan desigualdad
educativa y afectan la
calidad de la
educación en las
instituciones
educativas Colegio
Seminario San Juan
Apóstol de Facatativá
y el Liceo Hermano
Miguel La Salle, de
Bogotá D.C.
Las desigualdades educativas
entre los contextos rurales y
urbanos se logran identificar por
diferentes factores, tales como
aspectos sociales, culturales y
familiares. Adicionalmente,
cuando los estudiantes no tienen
formal y/o legalmente, las
mismas posibilidades
educativas y planes de
mejoramiento hacia la calidad
de la educación se fragmentan
los procesos de evaluación.
La brecha de
rendimiento
académico de
Barranquilla
(Rivera, 2010)
Analiza las brechas
correspondientes al
rendimiento
académico en
Barranquilla, Bogotá y
Bucaramanga,
revisando la calidad
educativa y las
pruebas Saber
Los resultados enfatizan la
relevancia que tienen en el
rendimiento académico el que
los padres se involucren en la
formación de capital humano de
sus hijos menores (como
presumiblemente lo hacen los
padres más educados). Padres
más y mejor educados exponen
a sus hijos a un ambiente mucho
más propicio para la
acumulación de capital humano,
que al final se traduce en mayor
productividad y mayor bienestar
11
económico. En cualquier caso,
solo a través de la inversión en
mejores colegios, mejores
profesores y recursos
disponibles para los estudiantes
barranquilleros se podrá crear
un círculo virtuoso en el que la
mayor educación de los
estudiantes de hoy, que son los
padres del mañana, repercuta en
las brechas educativas de la
ciudad en el futuro.
¿Cuál es la brecha
de la calidad
educativa en
Colombia en la
educación media y
en la superior?
(Celis,
Jiménez, &
Jaramillo,
2015)
Con el objetivo de
encontrar cuál es la
brecha de la calidad
de la educación
colombiana en los
niveles medio y
superior, se
examinaron los
resultados de las
Pruebas Saber 11 y
SABER PRO a través
de modelos
jerárquicos en los que
se contrastaron
factores individuales,
familiares y del
plantel asociados con
el puntaje obtenido.
Los resultados permiten
concluir que existen brechas
educativas en la educación
media y en la educación
superior asociadas a problemas
de eficacia escolar. Sin
embargo, existen diferencias en
la dinámica educativa de ambos
niveles analizados. En la
educación media se ratifica la
importancia de las condiciones
socioeconómicas y los
antecedentes familiares; en la
educación superior se destaca la
importante de las IES en el
puntaje obtenido por los
estudiantes.
Análisis de
eficiencia de la
educación en
Colombia
(Iregui, Melo,
& Ramos,
2007)
Medir el impacto de
diversos factores aso-
ciados con el colegio
y con el entorno
socioeconómico de los
estudiantes en el
rendimiento
académico, y se
estiman los niveles de
eficiencia técnica de
una muestra de 4.542
colegios públicos y
privados en el 2002
Los resultados indican que las
variables asociadas con la
infraestructura de los colegios y
con el entorno socioeconómico
de los estudiantes tienen un
impacto positivo y significativo
en el logro académico. En
términos de eficiencia, los
resultados muestran que los
colegios privados se podrían
estar beneficiando de
condiciones de entorno más
favorables, si se tiene en cuenta
que ´estos, en promedio,
atienden alumnos de mayores
ingresos. No obstante, cuando
12
se asumen entornos
equivalentes, no existen grandes
diferencias en las medidas de
eficiencia entre colegios
públicos y privados.
Variables asociadas
al desempeño
escolar.
(Bareño, 2015)
Determinar si existe
relación entre las
variables contextuales
(nivel educativo de los
padres e ingreso en el
hogar) y el desempeño
escolar, reflejado en
los resultados de las
Pruebas Saber 11, de
las instituciones
educativas con
puntajes superiores e
inferiores.
El resultado parece indicar que
padres con mayor nivel
educativo, brindan la
posibilidad de apoyar de una
forma más efectiva el proceso
de enseñanza de sus hijos,
facilitando el aprendizaje y que
se refleja en los resultados en
las pruebas. De la misma
manera, padres con niveles
mayores de educación, asumen
la educación como un valor
importante y estarían
presentando mayores
expectativas sobre sus hijos,
influenciando a su vez en el
desempeño.
Desigualdad de
oportunidades en el
sistema de
educación pública
en Bogotá,
Colombia
(López,
Virgüez, Silva,
& Sarmiento,
2017)
Realizar un análisis
comparativo sobre la
desigualdad de
oportunidades en los
resultados de la
prueba Saber 11 de
2012 entre dos
modelos de educación
pública en Bogotá:
tradicional y por
concesión. Se utilizó
la técnica Propensity
Score Matching para
escoger el grupo de
estudiantes de
colegios públicos
tradicionales a
comparar con los de
colegios en concesión.
Los resultados indican que los
estudiantes de colegios
concesionados presentan un
menor grado de desigualdad de
oportunidades en el logro
educativo que los estudiantes de
los colegios públicos
tradicionales.
Análisis de la
evolución de la
igualdad de
oportunidades en
educación media,
(Gamboa,
2012)
El trabajo provee una
medición del nivel de
desigualdad de
oportunidades en el
logro educativo en
Se encuentra que el género es la
circunstancia que menos
desigualdad de oportunidades
(inequidad) genera y que el tipo
de colegio evidencia altos
13
en una perspectiva
internacional. El
caso de Colombia.
educación básica para
Colombia, y su
situación respecto a
otros países de
América Latina.
niveles de inequidad tanto para
Colombia como para el resto de
los países incluidos en el
análisis. Por otro lado, se
encuentra una modesta
reducción en los niveles de
inequidad en el tiempo que han
modificado los ordenamientos
entre países más inequitativos.
Calidad de la
Educación Básica y
Media en
Colombia:
Diagnóstico y
Propuestas
(Barrera,
Maldonado, &
Rodríguez.,
2012)
Este trabajo hace una
propuesta de política
educativa para
Colombia que
permitirá mejorar la
calidad de la
educación básica,
secundaria y media y
así convertirla en una
herramienta efectiva
de movilidad social.
Se muestra que Colombia ha
tenido avances importantes en
cuanto a cobertura. Sin
embargo, las mejoras en
términos de calidad han sido
marginales e inequitativas. Las
propuestas de política son:
• Fortalecimiento de la
evaluación de la calidad de la
educación.
• Fortalecimiento de la
capacidad institucional de los
colegios públicos.
• Implementación de la
jornada escolar completa.
• Implementación de una
política de docentes que permita
atraer mejores profesionales y
mejorar los instrumentos de
evaluación de los docentes.
• Participación del sector
privado en la provisión de
educación.
Inequidad en los
aprendizajes
escolares en
América Latina
(Duarte &
María Soledad
Bos, 2009)
Analizar las
diferencias en los
aprendizajes de los
estudiantes
latinoamericanos a
partir de las
condiciones
socioeconómicas de
sus familias.
Se confirma que existe una
relación positiva y significativa
entre la condición
socioeconómica de
los estudiantes y los resultados
en el Segundo Estudio Regional
Comparativo y Explicativo
(SERCE), tanto para la región
en general como para cada país
participante en particular. Fuente: Elaboración propia.
14
1.7.2. Marco Conceptual
Para tener una correcta compresión del desarrollo de este proyecto se hace necesario tener
claro algunos temas mencionados y especificados a continuación.
Categorización de establecimientos y sedes: En las características para la clasificación
de establecimientos y sedes, no se especifica el cálculo del índice por medio del cual se hace la
asignación de la categoría, ya que esta se encuentra realizada por el ICFES, teniendo en cuenta
que:
• Se genera después de cada aplicación de SABER 11°, es decir, dos veces al año.
• Se produce por separado para los grados 11° y 26° (ciclo de adultos), tanto para
establecimientos como para sedes.
• Se realiza con base en los resultados de los estudiantes de los últimos tres años.
• Para ser clasificado se requiere que los estudiantes con resultados válidos sean al menos 9
y al menos el 80% de los matriculados registrados en Sistema Integrado de Matrícula
(SIMAT).
• La clasificación se hace con base en los puntajes obtenidos en las cinco pruebas del examen
y depende no solamente de los promedios sino también de la varianza, es decir, de qué tan
grandes son en cada prueba las diferencias de puntajes entre los estudiantes. Entre más
altos y más homogéneos sean los puntajes de estudiantes en una institución, más alta resulta
su clasificación.
• En cada una de las cinco pruebas del examen: Lectura Crítica, Sociales y Ciudadanas,
Matemáticas, Ciencias Naturales e Inglés, solo se tienen en cuenta los resultados del 80%
de matriculados con puntajes más altos. Entre el 20% que se excluyen se cuentan, además
15
de los matriculados que no tienen resultados válidos (por ejemplo, no presentar el examen
completo), o aquellos que tienen los puntajes más bajos en esa prueba.
• No se usan los resultados de estudiantes repitentes que hayan presentado anteriormente
el examen, ni los de los estudiantes discapacitados (salvo que el colegio solicite
expresamente su inclusión).
• La clasificación se realiza en cinco categorías: A+, A, B, C, D; a partir de un índice
general calculado para cada establecimiento o sede. El índice general está compuesto a
su vez de los índices de resultados de cada una de las cinco pruebas del examen.
• Las categorías para cada establecimiento son asignadas teniendo en cuenta los
siguientes puntos de corte. (ICFES, 2014)
Tabla 2 Clasificación Instituciones según Rango del Índice
IG: Índice General
Fuente: Instituto Colombiano para la Evaluación de la Educación
Educación media académica: Es el nivel de formación que profundiza en un campo
específico de las ciencias, las artes o las humanidades, y que le permite al estudiantado al culminar
en el nivel de enseñanza media (grados 10 y 11) acceder a la educación superior. En la educación
media académica son obligatorias y fundamentales las mismas áreas de la educación básica en un
nivel más avanzado, además de las ciencias económicas, políticas y la filosofía. (DANE, 2018)
Educación media técnica: Es el nivel de formación que profundiza en un campo
específico de formación calificada en especialidades tales como: agropecuaria, comercio,
16
industria, entre otras, y que le permite al estudiantado, al culminar el nivel de enseñanza media
(grados 10 hasta 11), acceder a la educación superior. (DANE, 2018)
Base de datos: Es una colección organizada de información estructurada, o datos,
típicamente almacenados electrónicamente en un sistema de computadora, usualmente controlada
por un sistema de gestión de base de datos (DBMS). En conjunto, los datos y el DBMS, junto con
las aplicaciones que están asociados con ellos, se conocen como un Sistema de Base de Batos, que
a menudo se denomina solo base de datos. (ORACLE, s.f.)
Correlación: La correlación expresa el grado de asociación entre dos variables, esta puede
ser lineal o curvilínea, positiva o directa, negativa o inversa o funcional; cuando no se observa una
relación entre las variables y los datos están distribuidos al azar se dice que no están
correlacionadas. (Barrera M. A., 2014)
1.7.3. Marco legal.
• Decreto 869 del 17 marzo de 2010: “Por el cual se reglamenta el Examen de Estado de
Educación Media, ICFES – SABER 11”. (Ministerio de Educación Nacional, 2010)
• Decreto único reglamentario 1075 de 2015 nivel nacional: “Por medio del cual se expide
el Decreto Único Reglamentario del Sector Educación”. (Presidencia de La Republica de
Colombia, 2015)
• Decreto 218 de 14 de febrero de 2020: “Por el cual se establece la estructura interna de la
Unidad Administrativa Especial de alimentación escolar – Alimentos para aprender”
(Ministerio de Educación Nacional, 2020)
• Ley 1450 de 2011, parágrafo 4, en donde se traslada el Programa de Alimentación Escolar
(PAE) del Instituto Colombiano de Bienestar Familiar (ICBF) al Ministerio de Educación
17
Nacional (MEN), la orientación, ejecución y articulación del programa, sobre la base de
estándares mínimos de obligatorio cumplimiento para su prestación, de manera
concurrente con las entidades territoriales. (El Congreso de Colombia, 2011)
• La constitución política de Colombia: establece a través del Artículo 67 que la educación
es un derecho de la persona, además que con ella se busca el acceso al conocimiento.
“Corresponde al Estado regular y ejercer la suprema inspección y vigilancia de la
educación con el fin de velar por su calidad, por el cumplimiento de sus fines y por la mejor
formación moral, intelectual y física de los educandos; garantizar el adecuado cubrimiento
del servicio y asegurar a los menores las condiciones necesarias para su acceso y
permanencia en el sistema educativo. La Nación y las entidades territoriales participarán
en la dirección, financiación y administración de los servicios educativos estatales, en los
términos que señalen la Constitución y la ley” (Constitución Política de Colombia, 1991)
1.8.Metodología
El presente proyecto se desarrolló en tres fases, para de esta formar darles cumplimiento a
los objetivos. En la ilustración 4, se enlistan las actividades que se realizaron en cada una de las
fases establecidas, a continuación, se resume cada una de estas actividades:
• Fase 1 – Construcción de la base de datos. Esta fase corresponde al desarrollo del
primer objetivo específico, en la cual se genera la base de datos; dentro de las actividades
correspondientes a esta fase se tiene, en primer lugar la recolección de la información, la cual se
obtiene de cuatro bases de datos publicadas por el ICFES, denominadas “Clasificación planteles
2017”, “Clasificación planteles 2018”, “Resultados prueba Saber 11- 2017-2” y “Resultados
prueba Saber 11- 2018-2”, donde se encuentra información relacionada con los estudiantes, su
18
entorno, el de los colegios y los resultados para los años 2017 y 2018; como segunda actividad se
crea la base de datos, haciendo uso del software Excel, a partir de allí se genera un archivo que
relaciona las cuatro bases de datos mencionadas anteriormente y en la tercera actividad se realiza
el procesamiento y limpieza de los datos, seleccionando las variables que se utilizaran para el
estudio.
• Fase 2 – Análisis de las variables. Esta fase corresponde al segundo objetivo
específico, en la cual se desarrolla el análisis de la base de datos obtenida en la fase anterior, para
determinar las variables que tienen mayor influencia en los resultados de las Pruebas Saber 11 en
los años 2017 y 2018. Partiendo de allí, en primer lugar, se hace un análisis exploratorio de datos
comparando cada una de las variables seleccionadas con el promedio del puntaje de los resultados
en las pruebas. En segundo lugar, se determina el grado de influencia de cada una de ellas, para
realizar la comparación de cada variable con las categorías de estudio A+ y A vs D, evidenciando
así cuales podrían estar siendo las variables que afectan positiva o negativamente el desempeño de
los estudiantes en la prueba. Finalmente, se desarrolla la visualización de este proceso, permitiendo
presentar los resultados obtenidos en cada una de las actividades previas.
• Fase 3 – Propuestas. Esta fase corresponde al desarrollo del tercer objetivo
específico, en la cual se hace una revisión detallada de los resultados obtenidos en la fase 2 y,
teniendo en cuenta las variables que más influencia tienen sobre la prueba Saber 11, se procede a
plantear propuestas que permitan mejorar el resultado de los estudiantes de dichas pruebas y
ayuden a disminuir la brecha entre colegios públicos en Colombia.
19
Ilustración 4 Metodología de la investigación.
Fuente: Los autores.
20
2. CAPITULO 2: CONSTRUCCIÓN DE LA BASE DE DATOS.
En este capítulo se desarrolla el objetivo específico 1, el cual consiste en: Construir la
base de datos con las variables de las Pruebas Saber 11 de los años 2017 y 2018 publicadas por
el ICFES.
2.1. Recolección de la información
Para dar inicio al desarrollo de la primera fase del presente proyecto denominada
“construcción”, se inició con la primera actividad que tuvo como objetivo la recolección de la
información, para esto fue necesario ingresar a las bases de datos del ICFES, de donde se
descargaron las bases de datos de los resultados de las Pruebas Saber 11 y la clasificación de los
planteles para los años 2017 y 2018, para el año 2017 se tuvo inicialmente un total de 546.261
registros y para el 2018 de 549.934. Cada base de datos contaba con un total de 82 variables
dentro de las que se encuentra información personal del estudiante, información de contacto,
información socioeconómica, información del colegio, datos de citación del examen y resultados.
(Ver Anexo A)
A continuación, en la tabla 3, se presenta una breve descripción de las variables halladas en la
base de datos de los resultados pruebas Saber 11, agrupadas por módulos.
Tabla 3 Descripción base de datos resultados prueba Saber 11.
Modulo Descripción
INFORMACIÓN PERSONAL
Consta de diez variables, en las cuales se
encuentra información personal de la
persona que presenta la prueba.
INFORMACIÓN DE CONTACTO
Consta de cuatro variables, que permiten
ubicar en que parte del país se ubica la
persona que presenta la prueba.
21
INFORMACIÓN SOCIECONOMICA
Consta de veinticuatro variables, que
permiten identificar las condiciones en las
que vive y algunos de los hábitos que se
tienen dentro del hogar.
INFORMACIÓN DEL COLEGIO
Consta de dieciséis variables, que permiten
identificar las características del colegio y
la ubicación.
DATOS DE CITACIÓN DEL EXAMEN
Consta de cinco variables, que permiten
identificar si la persona que presenta se
encuentra privada de la libertad y donde
será aplicada la prueba
RESULTADOS
Consta de veinticuatro variables, en las
cuales se puede apreciar los resultados de
cada área y a nivel global, el estado de los
resultados de la prueba y si es beneficiario
de los programas ofrecidos por el gobierno
para acceder a la educación superior. Fuente: Elaboración propia.
De la base de datos de clasificación de los planteles, se obtuvieron 9.071 registros para el
año 2017 y 9.150 para el año 2018. Cada una de estas bases de datos contaba con 22 variables
relacionadas con información de los colegios. (Ver Anexo B)
En la tabla 4, se presenta una breve descripción de lo que se encuentra en la base de
datos.
Tabla 4 Descripción base de datos clasificación de los planteles.
Modulo Descripción
INFORMACIÓN
COLEGIO
En esta base de datos se encuentran veintidós variables, que permiten
identificar las características e información sobre el establecimiento;
además, se obtienen los índices en cada área de evaluación y la
categoría según los rangos anteriormente mencionados.
Fuente: Elaboración propia.
2.2. Construcción de la base de datos.
Esta actividad consiste en la construcción de la base de datos con la que se desarrolla el
proyecto. Es importante tener en cuenta que en esta actividad hace referencia solo a la construcción
22
inicial, la cual se hizo mediante la relación de las bases de datos ya presentadas en el numeral 2.1,
de manera tal que estuviera la información en un solo archivo, esta relación se hizo en el software
Excel, haciendo la unión de los registros de 2017 y 2018 y utilizando la función BUSCAR.SI para
asignar la categoría de los colegios a cada uno de los registros, esta variable categoría se encontraba
en las bases de datos de clasificación plateles de 2017 y 2018, y se utilizó como llave el código
DANE de la sede (COLE_COD_DANE_SEDE y CODIGO_DANE_SEDE). Cabe aclarar que las
bases de datos tenían variables en común, por lo que al unirlas quedaron un total de 94 variables.
En la tabla 5, se muestran las variables de información personal; en la tabla 6 se presentan las
variables de información de contacto; La tabla 7 tiene las variables de información
socioeconómica; La tabla 8 contiene las variables relacionadas con la información del colegio, en
la tabla 9 se muestran las variables correspondientes a los datos de citación al examen; en la 10 se
encuentran las variables relacionadas con los resultados de la prueba y en la tabla 11 se presentan
las variables relacionadas con la clasificación de los planteles.
Tabla 5 Variables información personal base de datos resultados prueba Saber 11.
Información Personal
ESTU_TIPODOCUMENTO
ESTU_NACIONALIDAD
ESTU_GENERO
ESTU_FECHANACIMIENTO
PERIODO
ESTU_CONSECUTIVO
ESTU_ESTUDIANTE
ESTU_PAIS_RESIDE
ESTU_TIENEETNIA
ESTU_ETNIA
Fuente: Elaboración propia.
Tabla 6 Variables información de contacto base de datos resultados prueba Saber 11.
Información de contacto
23
ESTU_DEPTO_RESIDE
ESTU_COD_RESIDE_DEPTO
ESTU_MCPIO_RESIDE
ESTU_COD_RESIDE_MCPIO Fuente: Elaboración propia.
Tabla 7 Variables información socioeconómica base de datos resultados prueba Saber 11.
Información socioeconómica
FAMI_EDUCACIONPADRE
FAMI_EDUCACIONMADRE
FAMI_ESTRATOVIVIENDA
FAMI_PERSONASHOGAR
FAMI_CUARTOSHOGAR
FAMI_TIENECOMPUTADOR
FAMI_TIENELAVADORA
FAMI_TIENEHORNOMICROOGAS
FAMI_TIENEINTERNET
FAMI_TIENESERVICIOTV
FAMI_TIENEAUTOMOVIL
FAMI_TIENEMOTOCICLETA
FAMI_TIENECONSOLAVIDEOJUEGOS
FAMI_NUMLIBROS
FAMI_COMELECHEDERIVADOS
FAMI_COMECARNEPESCADOHUEVO
FAMI_COMECEREALFRUTOSLEGUMBRE
FAMI_TRABAJOLABORPADRE
FAMI_TRABAJOLABORMADRE
FAMI_SITUACIONECONOMICA
ESTU_DEDICACIONLECTURADIARIA
ESTU_DEDICACIONINTERNET
ESTU_HORASSEMANATRABAJA
ESTU_TIPOREMUNERACION
Fuente: Elaboración propia.
Tabla 8 Variables información del colegio base de datos resultados prueba Saber 11.
Información del colegio
COLE_CODIGO_ICFES
COLE_COD_DANE_ESTABLECIMIENTO
COLE_NOMBRE_ESTABLECIMIENTO
24
COLE_GENERO
COLE_NATURALEZA
COLE_CALENDARIO
COLE_BILINGUE
COLE_CARACTER
COLE_COD_DANE_SEDE
COLE_NOMBRE_SEDE
COLE_SEDE_PRINCIPAL
COLE_AREA_UBICACION
COLE_JORNADA
COLE_COD_MCPIO_UBICACION
COLE_MCPIO_UBICACION
COLE_COD_DEPTO_UBICACION
COLE_DEPTO_UBICACION
Fuente: Elaboración propia.
Tabla 9 Variables datos citación del examen base de datos resultados prueba Saber 11.
Datos de citación del examen
ESTU_PRIVADO_LIBERTAD
ESTU_COD_MCPIO_PRESENTACION
ESTU_MCPIO_PRESENTACION
ESTU_DEPTO_PRESENTACION
ESTU_COD_DEPTO_PRESENTACION
Fuente: Elaboración propia.
Para el módulo de resultados es importante aclarar que para el año 2017 se manejó la
variable “ESTU_PILOPAGA” y para el 2018 cambió esta variable por
“ESTU_GENERACION_E”; debido al cambio de programa que permite a los estudiantes
bachilleres con mejores puntajes en las Pruebas Saber 11 obtener becas para acceder a la educación
superior, según los proyectos del Ministerio de Educación Nacional.
Tabla 10 Variables resultados base de datos resultados prueba Saber 11.
Resultados
PUNT_LECTURA_CRITICA
PERCENTIL_LECTURA_CRITICA
DESEMP_LECTURA_CRITICA
25
PUNT_MATEMATICAS
PERCENTIL_MATEMATICAS
DESEMP_MATEMATICAS
PUNT_C_NATURALES
PERCENTIL_C_NATURALES
DESEMP_C_NATURALES
PUNT_SOCIALES_CIUDADANAS
PERCENTIL_SOCIALES_CIUDADANAS
DESEMP_SOCIALES_CIUDADANAS
PUNT_INGLES
PERCENTIL_INGLES
DESEMP_INGLES
PUNT_GLOBAL
PERCENTIL_GLOBAL
ESTU_INSE_INDIVIDUAL
ESTU_NSE_INDIVIDUAL
ESTU_NSE_ESTABLECIMIENTO
ESTU_ESTADOINVESTIGACION
ESTU_PILOPAGA
ESTU_GENERACION_E
Fuente: Elaboración propia.
Tabla 11 Variables base de datos clasificación de los planteles.
Clasificación planteles
PERIODO
COLE_COD_DANE
COLE_INST_NOMBRE
CODIGO_DANE_SEDE
SEDE_NOMBRE
COLE_CODMPIO_COLEGIO
COLE_MPIO_MUNICIPIO
COLE_COD_DEPTO
COLE_DEPTO_COLEGIO
COLE_NATURALEZA
COLE_GRADO
COLE_CALENDARIO_COLEGIO
COLE_GENEROPOBLACION
MATRICULADOS_ULTIMOS_3
EVALUADOS_ULTIMOS_3
26
INDICE_MATEMATICAS
INDICE_C_NATURALES
INDICE_SOCIALES_CIUDADANAS
INDICE_LECTURA_CRITICA
INDICE_INGLES
INDICE_TOTAL
COLE_CATEGORIA
Fuente: Elaboración propia.
2.3. Procesamiento y limpieza.
El procesamiento y limpieza de datos constituyen una etapa importante a la hora de analizar
datos, dado que de esto depende un óptimo resultado, además de asegurar la calidad de los datos
y evitar información errónea; teniendo la precaución de no empobrecer la base y evitando
introducir sesgos (Romero, Ventura, Pechenizkiy, & Baker, 2011). A continuación, se describen
los pasos realizados dentro de la actividad.
2.3.1. Eliminación de datos faltantes.
En la eliminación de los datos faltantes se buscan aquellos registros que contenían casillas
en blanco las cuales no permiten que se realice un correcto análisis. Las variables que más tenían
registros en blanco son la educación del padre y de la madre donde en promedio tenían el 5% de
los registros con datos faltantes, este proceso se realizó para cada una de las variables, después de
este paso quedaron 801.141 registros de los 1’096.195 que se tenían inicialmente.
2.3.2. Aplicación de filtros.
Teniendo en cuenta el objetivo del proyecto, se filtra inicialmente la variable
COLE_NATURALEZA, la cual indica la naturaleza del establecimiento ya sea oficial o no oficial;
de manera tal que solo queden los registros de los estudiantes pertenecientes a los colegios oficiales
27
del país, del total de registros del paso anterior se retiraron 181.170 pertenecientes a los colegios
no oficiales quedando con 619.971 registros de los colegios oficiales.
En segundo lugar, se filtra la variable ESTU_NACIONALIDAD, con el fin de que solo
quedaran los estudiantes de nacionalidad colombiana. La decisión es tomada ya que al incluir
estudiantes de nacionalidad extranjera se puede ver afectado el resultado del estudio, debido que
no se tiene información previa de si estos estudiantes solo han estudiado en Colombia; además,
esta población representa solo el 0.04% del total de registros, que corresponde a 256 registros, por
lo que se considera irrelevante.
2.3.3. Eliminación de caracteres especiales.
Debido a que el análisis se realizó en el software R Studio, fue necesario eliminar los
caracteres especiales tales como tildes y virgulillas, de manera que el software no generara errores
a la hora de analizar los datos.
2.3.4. Eliminación de variables.
Dado que algunas de las variables mencionadas en la actividad dos (2) correspondiente a
la construcción de la base de datos, se consideran irrelevantes para el objetivo del estudio, se
deciden eliminarlas de manera tal que sea más ágil realizar el análisis, evitando datos sin
relevancia.
La interpretación de los valores se ha expresado por diversos autores en diferentes escalas a lo
largo de la historia, sin embargo, una de las más utilizadas es la que se presenta en la tabla 12.
28
Tabla 12 Grado de relación según coeficiente de correlación.
Rango Relación
-0.91 a-1.00 Correlación negativa perfecta
-0.76 a-0.90 Correlación negativa muy fuerte
-0.51 a-0.75 Correlación negativa considerable
-0.11 a-0.50 Correlación negativa media
-0.01 a-0.10 Correlación negativa débil
0.00 No existe correlación
+0.01 a+0.10 Correlación positiva débil
+0.11 a+0.50 Correlación positiva media
+0.51 a+0.75 Correlación positiva considerable
+0.76 a+0.90 Correlación positiva muy fuerte
+0.91 a+1.00 Correlación positiva perfecta
Fuente: Elaboración propia, basada en Hernández Sampieri & Fernández Collado, 1998.
A continuación, en la tabla 13 se muestran las variables descartadas y el motivo.
Tabla 13 Variables descartadas para el análisis.
Descartada Motivo
ESTU_FECHANACIMIENTO
Irrelevante dado que la mayoría de la
población de estudio está en el mismo rango
de edad.
ESTU_CONSECUTIVO Esta variable pertenece al código del inscrito
la cual no brinda información relevante.
ESTU_ETNIA Se descarto ya que el 94% de los registros
tenían datos faltantes en esta variable.
ESTU_PAIS_RESIDE
Solo se utilizó procesamiento y limpieza fue
necesaria, para filtrar a los estudiantes de
Colombia.
ESTU_PRIVADO_LIBERTAD
La cantidad de estudiantes privados de la
libertad es mínima por lo que se puede
descartar.
ESTU_PILOPAGA Irrelevantes ya que son variables que dependen
del resultado de la prueba y no de ellas el
resultado. ESTU_GENERACION_E
ESTU_NACIONALIDAD Irrelevante, se filtró y se dejaron solo
estudiantes colombianos.
ESTU_INSE_INDIVIDUAL Se utiliza la estratificación socioeconómica.
ESTU_NSE_INDIVIDUAL
29
ESTU_NSE_ESTABLECIMIENTO
ESTU_ESTADOINVESTIGACION Irrelevante, solo presenta el estado de los
resultados.
ESTU_ESTUDIANTE Irrelevante, se filtró y se dejaron solo
estudiantes.
FAMI_SITUACIONECONOMICA
Irrelevante, ya que esta variable es una
percepción económica del año de presentación
respecto a los años anteriores.
ESTU_COD_RESIDE_DEPTO
Estas variables permiten hacer la
geolocalización del estudiante y del colegio,
por ende, no son relevantes para el estudio.
ESTU_MCPIO_RESIDE
ESTU_COD_RESIDE_MCPIO
COLE_COD_MCPIO_UBICACION
COLE_COD_DEPTO_UBICACION
ESTU_COD_MCPIO_PRESENTACION
ESTU_COD_DEPTO_PRESENTACION
ESTU_MCPIO_PRESENTACION
ESTU_DEPTO_PRESENTACION
COLE_MCPIO_UBICACION
COLE_CODIGO_ICFES
No brindan información de relevancia para el
estudio, porque son variables únicas para cada
colegio.
COLE_COD_DANE_SEDE
COLE_SEDE_PRINCIPAL
COLE_NOMBRE_SEDE
COLE_NOMBRE_ESTABLECIMIENTO
COLE_COD_DANE
COLE_COD_DANE_ESTABLECIMIENTO
COLE_GRADO Todos los estudiantes de grado 11.
COLE_NATURALEZA
Se filtró y se dejaron solo colegios oficiales,
después se eliminó la variable, ya que no
aportaba nada al estudio
COLE_CALENDARIO Irrelevante, todos los resultados del 2017-2 y
2018-2 pertenecen al calendario A.
MATRICULADOS_ULTIMOS_3
Irrelevante, solo muestra el número de
estudiantes matriculados en los últimos tres
años en cada institución.
EVALUADOS_ULTIMOS_3
Irrelevante, solo muestra el número de
estudiantes que presentan la prueba Saber 11
en los últimos tres años en cada institución.
PERCENTIL_LECTURA_CRITICA Estas variables se consideran irrelevantes, ya
que la hace la correlación de los resultados por DESEMP_LECTURA_CRITICA
30
PERCENTIL_MATEMATICAS área con el puntaje global se comprobó que
están fuertemente relacionadas. DESEMP_MATEMATICAS
PERCENTIL_C_NATURALES
DESEMP_C_NATURALES
PERCENTIL_SOCIALES_CIUDADANAS
PERCENTIL_GLOBAL
DESEMP_SOCIALES_CIUDADANAS
PERCENTIL_INGLES
INDICE_MATEMATICAS
INDICE_C_NATURALES
INDICE_SOCIALES_CIUDADANAS
INDICE_LECTURA_CRITICA
INDICE_INGLES
INDICE_TOTAL
PUNT_LECTURA_CRITICA
PUNT_MATEMATICAS
PUNT_C_NATURALES
PUNT_SOCIALES_CIUDADANAS
PUNT_INGLES
DESEMP_INGLES
Fuente: Elaboración propia.
Del total de variables inicial, quedaron descartadas cincuenta y ocho (58), ya que no
representaban mayor relevancia para el estudio.
A continuación, en la tabla 14 se presentan las variables seleccionadas para el análisis:
Tabla 14 Variables seleccionadas para el análisis.
Utilizada
ESTU_TIPODOCUMENTO
ESTU_GENERO
PERIODO
ESTU_TIENEETNIA
ESTU_DEPTO_RESIDE
FAMI_EDUCACIONPADRE
FAMI_EDUCACIONMADRE
31
FAMI_ESTRATOVIVIENDA
FAMI_PERSONASHOGAR
FAMI_CUARTOSHOGAR
FAMI_TIENECOMPUTADOR
FAMI_TIENELAVADORA
FAMI_TIENEHORNOMICROOGAS
FAMI_TIENEINTERNET
FAMI_TIENESERVICIOTV
FAMI_TIENEAUTOMOVIL
FAMI_TIENEMOTOCICLETA
FAMI_TIENECONSOLAVIDEOJUEGOS
FAMI_NUMLIBROS
FAMI_COMELECHEDERIVADOS
FAMI_COMECARNEPESCADOHUEVO
FAMI_COMECEREALFRUTOSLEGUMBRE
FAMI_TRABAJOLABORPADRE
FAMI_TRABAJOLABORMADRE
ESTU_DEDICACIONLECTURADIARIA
ESTU_DEDICACIONINTERNET
ESTU_HORASSEMANATRABAJA
ESTU_TIPOREMUNERACION
COLE_GENERO
COLE_BILINGUE
COLE_CARACTER
COLE_AREA_UBICACION
COLE_JORNADA
COLE_DEPTO_UBICACION
PUNT_GLOBAL
COLE_CATEGORIA
Fuente: Elaboración propia.
En total quedaron seleccionadas treinta y seis (36) variables, con las que se inició la fase
dos (2) correspondiente a la identificación de las variables con mayor influencia en los resultados
de las Pruebas Saber 11 y la importancia que estas tienen en la brecha que hay entre colegios de
categoría A+ y A vs los D.
32
En este capítulo se presentó el paso a paso para la construcción de la base de datos, a dicha
construcción se le dio inició con la creación de una relación entre la base de datos de clasificación
de planteles y la de los resultados de las Pruebas Saber 11, con el fin de obtener una sola base de
datos, terminada esta actividad se dio inicio al procesamiento y limpieza, asegurando la calidad de
los datos a trabajar en el análisis. De acuerdo con lo anterior, se da cumplimiento al primer objetivo
del presente proyecto.
33
3. CAPITULO 3: IDENTIFICACIÓN DE VARIABLES CON MAYOR
INFLUENCIA EN LOS RESULTADOS DE LAS PRUEBAS SABER 11 Y LA
INFLUENCIA DE ESTAS EN LA BRECHA ENTRE COLEGIOS CATEGORÍA A+
Y A VS LOS D
En este capítulo se llevó a cabo el desarrollo del objetivo específico 2: Identificar las
variables con mayor influencia en los resultados de las Pruebas Saber 11 y la importancia que
estas tienen en la brecha que hay entre colegios de categoría A+ y A vs los D, aplicando
herramientas de Ingeniería Industrial.
Para dar cumplimiento al objetivo se hace uso del software R- Studio, dado que permite
hacer el análisis y procesamiento de los datos de una manera adecuada.
3.1. Identificación de variables y grado de influencia
3.1.1. Análisis exploratorio de los datos
Para empezar con el análisis y la identificación de las variables con mayor influencia en
los resultados de las pruebas 11, se realiza un análisis exploratorio de los datos, donde se pudo
observar de manera gráfica la influencia de cada una de las variables seleccionadas en el numeral
2.3 sobre el resultado global de las pruebas.
Con relación a la variable PUNT_GLOBAL que hace referencia al puntaje global, en la
ilustración 5, se observa la distribución de los datos de la muestra, acumulados entre un puntaje de
150 y 380 con una media de 252.64.
34
Ilustración 5 Distribución del puntaje global
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En cuanto a la variable ESTU_GENERO, que tiene valores {F, M}, en donde de género
femenino se encuentran 55.9% y de género femenino 44.1% del total de estudiantes, de la
ilustración 6 se puede concluir que los estudiantes de género masculino tienen un puntaje promedio
mayor que el género femenino, donde el género femenino obtiene un puntaje promedio de 248.9,
y el género masculino un puntaje promedio de 257.4.
Ilustración 6 Puntaje global de acuerdo con el género del estudiante
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
35
Por otra parte, para la variable ESTU-TIENEETNIA, donde los estudiantes con etnia
representan el 6% y los que no tienen etnia el 93%, los estudiantes que tienen etnia obtienen un
puntaje promedio menor que los estudiantes que no tienen, donde el puntaje promedio de los
estudiantes que no tienen etnia es de 254,4 versus el puntaje promedio de los estudiantes que, si la
tienen, para ellos el resultado promedio es de 228,1, lo que se ve reflejado en la ilustración 7.
Ilustración 7 Puntaje global de acuerdo si el estudiante tiene etnia.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Con relación a la variable FAMI_EDUCACIONPADRE en ilustración 8 y en la tabla 15,
se concluye que el nivel de estudio del padre influye en el resultado de la prueba Saber 11, ya que
en general a medida que el nivel de estudio del padre aumenta también lo hace el puntaje del hijo
en la prueba, adicional a esto, en cuanto a las categorías más frecuentes son la de primaria
incompleta, donde el 23% de los estudiantes tienen padres con ese grado de educación y
secundaria completa con 22% de estudiantes que tienen padres con ese grado de educación.
36
Ilustración 8 Puntaje global de acuerdo con la educación del padre
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Tabla 15 Puntaje promedio de acuerdo con la educación del padre
Fuente: Elaboración propia en el software R Studio a partir de la información del ICFES de las Pruebas Saber 11.
Al igual que sucede con la educación del padre, la variable FAMI_EDUCACIONMADRE
influye en el resultado de los estudiantes como se observa en la ilustración 9 y la tabla 16, ya que
se observa un comportamiento similar, en general a medida que el nivel de estudio de la madre
aumenta, también lo hace el puntaje del hijo en la prueba. Esta información se puede comprobar
en la ilustración 10 y en la tabla 15, donde los estudiantes que tienen el puntaje promedio más alto
con 290.94, el nivel de educación de su madre es posgrado y en último lugar se encuentran los
37
hijos de las madres que no tuvieron ninguna educación 221.73. Además, la secundaria completa
tiene la mayor frecuencia con 26.77% seguido por primaria incompleta con 17.97%, en cuanto a
las categorías con menores frecuencias son no aplica 0.15% y postgrado 0.87%.
Ilustración 9 Puntaje global de acuerdo con la educación de la madre
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Tabla 16 Puntaje promedio de acuerdo con la educación de la madre
Fuente: Elaboración propia en el software R Studio a partir de la información del ICFES de las Pruebas Saber 11.
38
En la variable FAMI_ESTRATOVIVIENDA para el estrato de la vivienda del estudiante,
se evidencia la influencia en el resultado en la tabla 16 y en la ilustración 10, sin embargo, no es
una relación directamente proporcional, esto quiere decir que no por tener el estrato más alto se
tendrá mayor puntaje, ya que los estudiantes pertenecientes al estrato 3 son quienes obtienen mayor
puntaje con 263.05, seguidos por los estudiantes con estrato 2 con 257.9, en tercer lugar se tienen
los estudiantes con estrato 4 con puntaje promedio de 248.92, seguidos por los estudiantes estrato
1 con 246.24. En los tres últimos lugares se encuentran el estrato 5, sin estrato y estrato 6 con
229.39, 218.88 y 217.02 respectivamente. Adicionalmente en la tabla 17, se puede observar la
frecuencia de cada una de las categorías. Una duda que surge como trabajo futuro es investigar
¿Por qué los estudiantes estrato 5 y 6 quienes cuenta con mayor condición socioeconómica y quizás
mejores recursos obtienen de los resultados más bajos?
Ilustración 10 Puntaje global de acuerdo con el estrato de la vivienda del estudiante
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
39
Tabla 17 Puntaje promedio de acuerdo con el estrato de la vivienda
Fuente: Elaboración propia en el software R Studio a partir de la información del ICFES de las Pruebas Saber 11.
Con relación entre el puntaje global vs el número de personas en el hogar, en la ilustración
11, se observa que cuando el número de personas en el hogar es 3 o 4 el resultado promedio del
estudiante es 257.53 con una frecuencia de 46.42%, resultado que es más que alto que cuando se
convive con menos o más personas; cuando conviven 5 a 6 personas el resultado promedio es de
251.05 con frecuencia de 33.96%; en el caso de los que el número de personas en el hogar es de 1
a 2 el puntaje promedio es de 250.96 con frecuencia de 6.87%, en cuarto lugar se tienen aquellos
estudiantes que conviven en su hogar de 7 a 8 personas con puntaje promedio de 241.63 con
frecuencia de 9.18% y en último lugar los hogares con 9 o más personas con 235.56 con frecuencia
de 3.56% . Se observa una tendencia decreciente después de estas 3 o 4 personas, lo que indica
que a mayor número de personas en el hogar después de 3 o 4, menores son los resultados,
obteniendo así que aquellos estudiantes que en sus hogares conviven 9 o más personas, sus
resultados son los más bajos, además los resultados de familias de 1 o 2 personas son similares a
los de estudiantes con familias de 5 a 6 personas.
40
Ilustración 11 Puntaje global de acuerdo con el número de personas en el hogar
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Ahora, en la ilustración 12, correspondiente a la variable FAMI_CUARTOSHOGAR, que
tiene los valores 1, 2, 3, 4, 5 y 6 o más, con un porcentaje de frecuencia de 5.67%, 37.67%, 38.08%,
12.72%, 3.86% y 1.98% respectivamente, se puede concluir que los estudiantes que cuentan con
tres habitaciones en el hogar son quienes mayor puntaje promedio obtienen con 255.74, después y
antes de tres habitaciones los puntajes promedio tienden a disminuir, siendo los estudiantes con
una y con seis o más habitaciones los que menores puntajes promedio obtienen con 241.31.
Ilustración 12 Puntaje global de acuerdo con el número de cuartos en el hogar
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
41
En cuanto a la variable que mide si los estudiantes tienen computador o no y como esto
afecta el desempeño en las Pruebas Saber 11, observando la ilustración 13 se puede afirmar que
tener un computador en casa permite a los estudiantes obtener mejores resultados, ya que el
promedio de los estudiantes que tienen computador es de 261.77 vs los que no con un 241.90,
donde el 54% de los estudiantes tienen computador y el 46% no lo tienen.
Ilustración 13 Puntaje global de acuerdo con si la familia cuenta con computador o no.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11
Los estudiantes que cuentan con internet en sus hogares representan el 52% del total de
estudiantes de este estudio, frente a un 48% que no cuenta con internet, donde los estudiantes que
si tienen internet obtienen mejores resultados, logrando un puntaje promedio de 262.35, lo que
significa alrededor de 20 puntos por encima de los que no cuentan con este recurso y obtienen en
promedio 242.26, esto se puede ver reflejado en la ilustración 15.
42
Ilustración 14 Puntaje global dependiendo si la familia tiene internet.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 15, correspondiente a la variable que mide la influencia de tener lavadora
en el hogar en los resultados de las pruebas; arroja que tenerla permite obtener un mejor resultado,
ya que en promedio los estudiantes que tienen lavadora obtuvieron un puntaje de 255.4597 vs
245.4099 los que no, con una frecuencia del 72% para los que sí cuentan con este electrodoméstico
y un 28% para los que no.
Ilustración 15 Puntaje global de acuerdo con si tiene lavadora o no
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
43
En la ilustración 16, correspondiente a la variable que mide la influencia de tener
televisor en la casa muestra que en promedio un estudiante que si tiene televisor obtiene como
resultado 255.03 y una frecuencia del 73%, y los que no tienen, obtienen un resultado promedio
de 246.10 con una frecuencia del 27, lo que significa que quienes cuentan con este aparato
electrónico obtienen alrededor de 9 puntos más que quienes no lo tienen.
Ilustración 16 Puntaje global de acuerdo de si se tiene servicio de tv en la familia
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
De la ilustración 17, que mide la influencia de tener automóvil en el hogar respecto al
puntaje global, se pudo observar que en promedio los estudiantes que tienen automóvil en sus
hogares obtienen 261.44 con una frecuencia de 16.4% versus los que no tienen, que obtuvieron en
promedio 250.90 con una frecuencia de 83.6%.
44
Ilustración 17 Puntaje global de acuerdo si se tiene automóvil en la familia
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la variable que mide influencia de tener motocicleta en el desempeño en las Pruebas
Saber 11, se observa que a diferencia de tener automóvil en este caso tienen mejor desempeño
aquellos que no tienen motocicleta con un puntaje promedio de 254.87 y una frecuencia de 58%
versus los que si tienen con un puntaje de 249.6 y una frecuencia de 42%, esto se puede observar
en la ilustración 18.
Ilustración 18 Puntaje global de acuerdo si se tiene motocicleta en el hogar
45
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 19, se observa el promedio de puntaje global respecto a si en su hogar
cuenta con consola de videojuegos, obteniendo así un puntaje promedio de 258.96 y una frecuencia
de 17% los estudiantes que si tienen versus un puntaje 251.36 y una frecuencia de 83% para los
que no tienen consola.
Ilustración 19 Puntaje global de acuerdo si tiene consola de videojuegos
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
La variable que mide si contar en el hogar con libros y la cantidad de estos influencian en el
desempeño de los estudiantes en las Pruebas Saber 11, arroja que esta cantidad si tiene una
influencia positiva en este resultado, obteniendo así que a mayor cantidad de libros mayor es el
resultado. Los estudiantes que tienen más de 100 libros en su hogar obtuvieron en promedio un
puntaje 269.92 como resultado y representan el 5.4% del total de estudiantes, aquellos que tienen
de 26 a 100 libros obtuvieron un puntaje promedio de 268.99 con una frecuencia de 18.9%, los
que tienen de 11 a 25 libros sacaron un puntaje promedio de 254.64 y una frecuencia de 31.5%
46
para esta categoría y quienes tienen de 0 a 10 libros obtuvieron un puntaje promedio de 242.05
con una frecuencia de 44% , esta información se puede observar en la ilustración 20.
Ilustración 20 Puntaje promedio de acuerdo con el número de libros que tiene la familia.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 21, se mide la influencia de la cantidad de veces que se consumen
semanalmente derivados de la leche en el hogar del estudiante, se observa una tendencia
decreciente que evidencia que a menor cantidad de consumo menor resultado en la prueba, ya que
quienes consumen todos o casi todos los días obtienen mejores resultados con 262.51 con una
repetibilidad de 26.53% , seguidos por quienes consumen de 3 a 5 veces a la semana con 258.49 y
frecuencia de 26.12%, en tercer lugar están quienes consumen 1 o 2 veces por semana con 246.11
y repetición de 37.61% y en último lugar se encuentran los estudiantes que nunca o rara vez
consumen con 235.25 como resultado y frecuencia de 9.72%.
47
Ilustración 21 Puntaje promedio de acuerdo con el número de veces que se comen derivados de
la leche en la semana.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Respecto a la variable que mide la influencia de la cantidad de consumo de proteína
semanalmente en el rendimiento de los estudiantes en las Pruebas Saber 11, en la ilustración 22 se
puede apreciar que esta variable tiene una tendencia decreciente ya que se evidencia que a medida
que hay menos consumo de proteína menor es el resultado en la prueba, como resultado se tiene
que los estudiantes que consumen todos o casi todos los días proteína obtienen como puntaje
promedio 259.49 con una frecuencia de 36.33%, seguidos por quienes consumen 3 a 5 veces por
semana con 254.84 con reiteración de 31.57%, en tercer lugar se tienen aquellos que consumen de
1 a 2 veces por semana con 244.21 con una repetición de 27.17% y en último lugar los que nunca
o rara vez consumen con 234.51 y repetibilidad de 4.92%.
48
Ilustración 22 Puntaje global de acuerdo con el número de veces que se come carne, pescado y
huevo en la semana
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 23, se observa la relación entre la variable del número de veces que come
cereales, frutos o legumbre y el puntaje promedio de los estudiantes que presentaron las Pruebas
Saber 11 en los años de estudio; como resultado se tiene que los dos grupos de estudiantes que
más consumen cereales, frutos y legumbres semanalmente obtienen mejores resultados que
quienes lo hacen en menos ocasiones. Los estudiantes que consumen de 3 a 5 veces por semana
obtuvieron en promedio 259.67 con frecuencia de 29.09%, para aquellos que consumen todos o
casi todos los días su puntaje promedio fue de 255.33 y frecuencia de 14.75%, mientras que para
los estudiantes que consumen 1 o 2 veces por semana fue de 250.52 con frecuencia de 14.05% y
por último aquellos que nunca o rara vez consumen es de 242.23 con frecuencia de 15.09%.
49
Ilustración 23 Puntaje global de acuerdo con el número de veces que se come cereal, frutos y
legumbres
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
La tabla 18, presenta la variable relacionada con el trabajo del padre, se evidencia que los
hijos de padres que tienen un trabajo como profesionales tienen un mayor puntaje promedio en los
resultados de las Pruebas Saber 11, luego siguen los hijos de padres con cargos como operarios,
de tipo auxiliar administrativo, propietarios de negocios pequeños, trabajadores por cuenta propia
o pensionados, los cuales tienen puntajes promedios entre 257 y 259, por último los puntajes más
bajos están relacionados con los hijos de padres cuyos trabajos son de tipo agricultor, pesquero,
jornalero trabaja en el hogar, no trabaja o estudia. En la tabla 1 también se puede encontrar la
frecuencia de padres con cada categoría de trabajos donde los trabajos que más resaltan son los de
agricultor, pesquero o jornalero (16.9%), trabajos por cuenta propia (12.1%) y operarios (10.9%).
De igual modo esta variable está relacionada con la variable del nivel educativo del padre, donde
a mayor nivel educativo mayor oportunidad de obtener un mejor empleo profesional, lo que
aumenta la probabilidad de que sus hijos obtengan mejores resultados.
50
Tabla 18 Puntaje promedio global dependiendo del trabajo laboral del padre
FAMI_TRABAJOLABORPADRE promedio porcentaje
Trabaja como profesional (por ejemplo, medico, abogado, ingeniero) 274.119 4.845
Pensionado 259.297 2.167
Es operario de máquinas o conduce vehículos (taxi, chofer) 258.812 10.992
Tiene un trabajo de tipo auxiliar administrativo (por ejemplo,
secretario o asistente) 258.547 4.254
Es propietario de un negocio pequeño (tiene pocos empleados o no
tiene, por ejemplo, tienda, papelería, etc. 258.477 7.749
Trabaja por cuenta propia (por ejemplo, plomero, electricista) 257.196 12.186
No sabe 253.828 9.625
No aplica 252.996 8.918
Es vendedor o trabaja en atención al publico 251.313 6.208
Trabaja como personal de limpieza, mantenimiento, seguridad o
construcción 250.831 8.368
Es propietario de un negocio grande, tiene un cargo de nivel directivo
o gerencial 249.235 1.352
Es agricultor, pesquero o jornalero 241.790 16.938
Trabaja en el hogar, no trabaja o estudia 234.652 6.397 Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11
Al igual que en la variable anterior los puntajes promedios más altos pertenecen a hijos de
madres con empleos profesionales, y los más bajos a hijos de madres con trabajos como agricultor
pesquero o jornalero, y el trabajo más representativo es el de trabaja en el hogar, no trabaja o
estudia (45.1%), como se puede observar en la tabla 19.
Tabla 19 Puntaje promedio global dependiendo del trabajo laboral de la madre
FAMI_TRABAJOLABORMADRE promedio porcentaje
Trabaja como profesional (por ejemplo, medico, abogado, ingeniero) 276.3063 4.963024
Tiene un trabajo de tipo auxiliar administrativo (por ejemplo,
secretario o asistente) 264.5566 7.594616
Es operario de máquinas o conduce vehículos (taxista, chofer) 261.1821 1.631111
Es propietario de un negocio pequeño (tiene pocos empleados o no
tiene, por ejemplo, tienda, papelería, etc. 258.2203 8.444246
Trabaja por cuenta propia (por ejemplo, plomero, electricista) 256.7908 3.046819
Es vendedor o trabaja en atención al publico 255.2171 7.672353
51
Trabaja como personal de limpieza, mantenimiento, seguridad o
construcción 253.1699 9.448323
Pensionado 250.0902 0.537483
Trabaja en el hogar, no trabaja o estudia 248.9993 45.15778
Es propietario de un negocio grande, tiene un cargo de nivel
directivo o gerencial 245.0175 0.849459
No aplica 241.8933 4.984256
No sabe 241.0517 2.442044
Es agricultor, pesquero o jornalero 236.4326 3.228491 Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11
Ahora, se presenta la variable de dedicación diaria de lectura del estudiante, en la
ilustración 24 se observa una tendencia ascendente, lo que confirma que a mayor cantidad de
lectura diaria mejor es el resultado, ya que aquellos estudiantes que dedican más de dos horas
diarias de lectura obtienen los mejores resultados con un promedio de 270.61 y frecuencia de
4.21%, seguidos de aquellos que dedican entre 1 y 2 horas con 261.06 con repetibilidad de 11.74%,
en tercer lugar se encuentran aquellos que leen entre 30 y 60 minutos con 259.40 y frecuencia de
28.09%, seguidos por los estudiantes que dedican entre 30 minutos o menos con un promedio de
246.62 y frecuencia 39.79% y en último lugar se encuentran aquellos estudiantes que no leen por
entretenimiento con un puntaje de 244.94 y frecuencia de 16.17%.
Ilustración 24 Puntaje promedio de acuerdo con la dedicación de lectura diaria
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
52
En la ilustración 25, se puede observar la relación entre la dedicación diaria de internet y
el resultado promedio de los estudiantes, donde se evidencia que a medida que aumenta el tiempo
de navegación en internet tiende a aumentar el resultado promedio de los estudiantes a excepción
de aquellos estudiantes que dedican más de 3 horas a esta actividad, ya que se observa un mínimo
decrecimiento en el resultado. Los estudiantes que no navegan en internet representan el 6.9% del
total, los que navegan 30 minutos o menos representan el 20%, los que navegan entre 30 y 60
minutos representan el 27.3%, los que navegan entre 1 y 3 horas representan el 28.3% y los que
navegan más de 3 horas representan el 13.4%, de manera que los estudiantes que mejor puntaje
obtienen son los que mayor representación tienen y son aquellos que navegan en internet entre 1
y 3 horas.
Ilustración 25 Puntaje global de acuerdo con la dedicación diaria a navegar en internet
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En cuanto a la variable que mide la influencia de las horas que trabaja semanalmente el
estudiante en el resultado de las prueba Saber 11, se observa en la ilustración 26, que entre más
horas trabaja a la semana su resultado tiende a ser menor, ya que aquellos que no trabajan son los
que mejores puntajes promedio obtienen con 257.57 y frecuencia de 67.53%, seguidos por los que
trabajan entre 11 y 20 horas con un puntaje promedio de 243.85 y frecuencia de 7.88% , en tercer
53
lugar estas aquellos que trabajan menos de 10 horas con un puntaje promedio de 243.84 y
frecuencia 19.09%, los estudiantes que dedican entre 21 y 30 horas obtienen en promedio 241.40
con frecuencia de 2.67% y en último lugar se encuentran aquellos que trabajan más de 30 horas
que obtienen en promedio 229.43 con frecuencia 2.83%.
Ilustración 26 Puntaje promedio de acuerdo con las horas a la semana que trabaja el
estudiante.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 27, se mide la influencia del género del colegio en los resultados de las
Pruebas Saber 11, se pudo observar que el promedio en los resultados fue más alto en los colegios
femeninos con 279.71 con una frecuencia del 2.3% de total de los estudiantes, seguido por los
colegios masculinos con 274.93 con una frecuencia de 0.38% y en último lugar se encuentran los
colegios mixtos con 251.90 con una frecuencia de 97%.
54
Ilustración 27 Puntaje promedio global dependiendo del género del colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
A continuación, en la ilustración 28 se presenta la variable que permite reconocer si el
colegio es bilingüe o no, se observa que tienen mayor resultado promedio aquellos estudiantes que
no pertenecen a colegio bilingüe con un puntaje promedio de 252.77 y repetibilidad de 99.05%
versus 238.61 y frecuencia de 0.95% de los estudiantes pertenecientes a colegio bilingüe.
Ilustración 28 Puntaje promedio global dependiendo si el colegio es bilingüe
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
55
En la ilustración 29, se observa el puntaje promedio global dependiendo del carácter del
colegio, a partir de la Ilustración se puede concluir que los colegios con mejor desempeño son
aquellos que su carácter es técnico/académico con 255.66, seguido por los colegios de carácter
académico con 250.77, en tercer lugar se encuentran los colegios de carácter técnico con 248.40 y
en último lugar los colegios que no aplican para algún carácter con 215.64, lo que podría indicar
que evidentemente tiene influencia en el resultado de los estudiantes el pertenecer a algún carácter
de los anteriormente mencionados. Además, los colegios técnicos y técnico/académicos presentan
resultados similares.
Ilustración 29 Puntaje global dependiendo del carácter del colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Los colegios urbanos tienen una superioridad en cuanto al resultado de las Pruebas Saber
11, esto se observa en la ilustración 30, en donde los colegios urbanos obtienen en promedio 255.66
vs 236.27 que obtienen en promedio los estudiantes de colegio rural, además la frecuencia para
colegio rural es de 94.44% contra 15.56% de los colegios rurales.
56
Ilustración 30 Puntaje global dependiendo el área de ubicación del colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 31, se observa la influencia de la jornada del centro educativo en el
resultado de la prueba Saber 11, lo que evidencia que los colegios con jornada única son quienes
mejores resultados tienen con 259.73, seguidos por los jornada completa 256.75, en tercer lugar,
se encuentra la jornada mañana con 256.03, seguido de la jornada de la tarde con 255.92, el
quinto lugar es para la jornada de la noche con 216.73 y en último lugar se encuentra la jornada
sabatina con 213.84; además, se puede evidenciar que las jornadas noche y sabatina presentan
puntajes promedios inferiores respecto a las otras cuatro jornadas, las cuales tienen puntajes muy
similares.
57
Ilustración 31 Puntaje global dependiendo la jornada del colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la tabla 20 se observan las frecuencias según la jornada del colegio, donde la jornada de la
mañana es la jornada con frecuencia más alta con 57.253%, seguida por la jornada de la tarde
con 15.472%, en tercer lugar, se encuentra la jornada única con 9.319%, seguida por la jornada
completa 8.642%, en los dos últimos lugares se encuentran la jornada noche con 5.183% y
sabatina con 4.131%.
Tabla 20 Puntaje global dependiendo la jornada del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
58
3.1.2. Análisis de los datos de variables del colegio y variables socio económicas de
los estudiantes
En la ilustración 32, se puede observar la relación entre las horas trabajadas a la semana y
la jornada del colegio con respecto al puntaje promedio global obtenido por los estudiantes,
donde se puede resaltar que las jornadas noche y sabatina sacan mejores resultados aquellos
estudiantes que trabajan entre 21 y 30 horas y aquellos que trabajan más de 30 horas, en el resto
de las jornadas los mejores puntajes los obtienen los estudiantes que no trabajan.
Ilustración 32 Puntaje promedio dependiendo de las horas trabajas en la semana y la jornada
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En las ilustraciones 33 y 34, podemos observar de manera clara las proporciones de los tipos de
educación de los padres en el área rural y urbana, se evidencia que en el área rural predominan los
padres con nivel educativo de primaria incompleta en el caso de los padres corresponde al 35.7%
y en las madres el 28.9%, por otro lado, en el área urbana predominan los padres y madres con
nivel educativo de secundaria completa con el 23.6% y 27.9% respectivamente, adicional a esto el
59
grado de educación menos frecuente en el área urbana y rural es el postgrado tanto para madres
como padres.
Ilustración 33 Proporción de estudiantes dependiendo de la educación del padre y del área de
ubicación del colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Ilustración 34 Proporción de estudiantes dependiendo de la educación de la madre y del área
de ubicación del colegio
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
60
3.2. Métodos Machine Learning
Machine Learning puede ser ampliamente definida como métodos computacionales que usan la
experiencia para mejorar el desempeño de las predicciones, logrando ser estas más precisas.
Cuando nos referimos a experiencias hablamos específicamente de la información histórica
recolectada que se utiliza para los procesos de entrenamiento. (Mohri, Rostamizadeh, &
Talwalkar, 2012)
Machine Learning puede ser aplicada en tareas de:
• Clasificación: en este caso la idea central de la aplicación de la técnica es
identificar a que clase pertenece una nueva entrada, tales ejemplos se aplican en la
clasificación de documentos, imágenes, diagnóstico médico, etc.
• Regresión: predice un valor real para cada ítem, por ejemplos la predicción de la
demanda, stocks de inventarios, variables económicas, tasas, etc.
• Ranking: utilizada para ordenar ítems basado en algún criterio, por ejemplo, la
búsqueda web.
• Clustering: este tipo de aplicaciones son fuertemente utilizadas en procesos
comerciales para segmentar clientes y productos de esta forma facilitar los
procesos de decisiones referentes a que vender y a quienes.
• Reducción de Dimensionalidad: Transforma la representación de los ítems inicial
en una representación de baja dimensionalidad, perseverando las propiedades de
la inicial representación. Un ejemplo de esto lo encontramos en el
reprocesamiento de imágenes digitales. (Cabrera, 2014)
61
3.2.1. Algoritmo Random Forest
El algoritmo Random Forest es una combinación de árboles predictores tal que cada árbol
depende de los valores de un vector aleatorio muestreado independientemente y con la misma
distribución de todos los árboles del bosque, utilizado para la regresión y la clasificación. Los
árboles utilizan un método determinado de cruce para representar los posibles resultados que
ocasionaría la toma de una decisión. En estos modelos cada nodo representa una prueba en una
variable específica y las ramas muestran los resultados que deja dicha prueba como producto.
(Breiman, 2001)
El error de generalización de un bosque depende de la fuerza de los árboles individuales y
la correlación entre ellos. Las estimaciones internas supervisan el error, fuerza, y la correlación,
se utilizan para demostrar la respuesta al aumento del número de características utilizadas en la
división. También se utilizan estimaciones internas para medir la importancia de cada predictor
sobre la variable a predecir. (Breiman, 2001)
3.2.2. Ventajas Random Forest
Se presentan las ventajas principales por las cuales se escogió un modelo Random Forest
para el desarrollo de la investigación, donde se resaltan la facilidad para aplicarse tanto a
problemas de regresión como clasificación, en este caso se utiliza para regresión ya que se quiere
analizar e intentar predecir un valor en específico el cual es el puntaje global obtenido por los
estudiantes del estudio en las pruebas saber 11, además que permite identificar de manera rápida
y eficiente las variables predictoras más importantes.
62
• Los árboles son fáciles de interpretar aun cuando las relaciones entre predictores son
complejas.
• Los árboles pueden, en teoría, manejar tanto predictores numéricos como categóricos sin
tener que crear variables dummy o one-hot-encoding. En la práctica, esto depende de la
implementación del algoritmo que tenga cada librería.
• Al tratarse de métodos no paramétricos, no es necesario que se cumpla ningún tipo de
distribución específica.
• Si para alguna observación, el valor de un predictor no está disponible, a pesar de no
poder llegar a ningún nodo terminal, se puede conseguir una predicción empleando todas
las observaciones que pertenecen al último nodo alcanzado. La precisión de la predicción
se verá reducida, pero al menos podrá obtenerse.
• Son muy útiles en la exploración de datos, permiten identificar de forma rápida y
eficiente las variables (predictores) más importantes.
• Son capaces de seleccionar predictores de forma automática.
• Pueden aplicarse a problemas de regresión y clasificación. (Rodrigo, 2017)
3.3.Grado de influencia de variables utilizando un modelo de Random Forest
Si bien en el análisis exploratorio anterior se observó cómo unas variables influyen más
que otras en el resultado de los estudiantes en las Pruebas Saber 11 de los años de estudio, es
importante tener claridad de cuáles son las variables más importantes, por lo tanto, se decide
utilizar algoritmos de aprendizaje de máquina o machine learning los cuales a través de un modelo
de Random Forest intentará predecir el resultado global de un estudiante en la prueba Saber 11
63
teniendo en cuenta que lo que se pretende buscar con este modelo es la determinación del nivel
de importancia de cada variable incluida en el mismo sobre el puntaje global del estudiante.
Las variables a incluir en el modelo se presentan en la tabla 21 , de las variables
seleccionadas para el estudio, se excluyeron las variables ESTU_DEPTO_RESIDE,
COLE_DEPTO_UBICACION, COLE_JORNADA, ESTU_TIPOREMUNERACION,
ESTU_TRABAJO_LABORAL PADRE, ESTU_TRABAJO LABORAL MADRE , debido a
que el número de categorías de estas variables es grande, se hace imposible correr el modelo con
dicha cantidad y los equipos que se tienen a disposición. Además, también se excluyeron las
variables ESTU_TIENEHORNOMICROOGAS, ESTU_TIENEAUTOMOVIL,
ESTU_TIENEMOTOCICLETA con la intención de reducir el peso del modelo y teniendo en
cuenta que estas variables van relacionadas con la variable estrato la cual se está teniendo en
cuenta.
Tabla 21 Variables a incluir en el modelo Random Forest
VARIABLE
FAMI_TIENEINTERNET
FAMI_TIENECOMPUTADOR
ESTU_DEDICACIONLECTURADIARIA
ESTU_GENERO
FAMI_NUMLIBROS
ESTU_TIENEETNIA
COLE_AREA_UBICACION
FAMI_COMELECHEDERIVADOS
FAMI_TIENESERVICIOTV
FAMI_COMECEREALFRUTOSLEGUMBRE
FAMI_COMECARNEPESCADOHUEVO
ESTU_DEDICACIONINTERNET
FAMI_TIENECONSOLAVIDEOJUEGOS
COLE_CARACTER
FAMI_CUARTOSHOGAR
FAMI_PERSONASHOGAR
64
FAMI_ESTRATOVIVIENDA
FAMI_EDUCACIONPADRE
ESTU_HORASSEMANATRABAJA
FAMI_EDUCACIONMADRE
COLE_GENERO
COLE_BILINGUE
PUNT_GLOBAL Fuente: Elaboración propia.
A continuación, se presentan cada uno de los pasos realizados para la ejecución del modelo,
empezando por las librerías utilizadas.
3.3.1. Librerías utilizadas
• rsample: Sirve para dividir el conjunto de datos en entrenamiento/prueba (train/test).
• recipe: Para el preprocesamiento de las variables (estandarización, conversión, variables
dummy, entre otros).
• parsnip: Para especificar el modelo o algoritmo de machine learning.
• yardstick: Para evaluar el modelo utilizando diferentes métricas (MSE, RMSE).
• tune: Utilizada para calibrar los parámetros de los modelos y algoritmos.
• workflows: Para integrar todas las tareas que se realizan para entrenar los modelos y
algoritmos.
• Ranger: Utilizada para la implementación del modelo Random Forest, permite acelerar el
proceso al correr el modelo.
3.3.2. División del conjunto de datos en train/test
Como primer paso se dividió el conjunto de datos en dos grupos, como se acostumbra en
este tipo de experimentos:
65
train: para entrenar los modelos y algoritmos de machine learning.
test: para validar la capacidad predictiva del modelo entrenado.
Para esta división se utilizaron tres proporciones 80/20, 75/25 y 70/30 con el fin de
encontrar los mejores parámetros para el modelo que presenten un menor error. Las proporciones
indican que para el entrenamiento se utilizaran grupos del 80%, 75% y 70% de total de los datos
y para el test grupos de 20%, 25% y 30% respectivamente, los resultados de estas divisiones se
encuentran en el apartado calibración de parámetros que se encuentra en los siguientes pasos.
3.3.3. Preprocesamiento de datos
El procesamiento permitió hacer los ajustes y transformaciones necesarias a los datos, para
que quedaran listos para entrenar los modelos.
Las tareas ejecutadas para este modelo son:
step_dummy (): convierte las variables categóricas en variables booleanas. Las variables
categóricas contienen un número finito de categorías o grupos. Por ejemplo: la variable
ESTU_GENERO tiene dos categorías {F, M} las cuales convierte en dos variables, F= {0,1} 1 si
es género femenino 0 de lo contrario y M= {0,1} 1 si es género masculino 0 de lo contrario. Se
crean tantas variables como categorías tenga el factor. Este proceso se realiza para todas las
variables de la tabla 21 a excepción del PUNT_GLOBAL que es una variable numérica y además
es la variable para predecir por lo que no se le puede hacer ninguna transformación.
3.3.4. Configurar el modelo de Machine Learning
66
Tipo de modelo: Se definió el modelo que como se mencionó con anterioridad es un
Random Forest, utilizando la función rand_forest() que permite especificar el tipo de modelo a
utilizar.
Los argumentos: los valores de los parámetros del modelo, establecidos usando la función
set_args(), la cual toma permite definir los parámetros que se utilizan en el modelo.
La implementación: Se utiliza la librería ranger para la implementación del Random
Forest, por lo cual se hizo uso de la función set_engine() para configurar los parámetros de dicho
modelo.
El modo de aprendizaje: El tipo de predicción que se realizó es por medio de regresión
(predicción continua), la configuración se hizo utilizando la función set_mode ().
Ilustración 35 Configuración del modelo de Machine Learning
Fuente: Elaboración propia en el software R Studio.
3.3.5. Definir el flujo de trabajo
67
En la ilustración 36 se muestra el flujo de trabajo para el modelo Random Forest el cual
permite integrar todas las tareas que se están desarrollando y que se han mencionado en los pasos
anteriores, de manera que se pueda entrenar el modelo de machine learning.
Ilustración 36 Flujo de trabajo del modelo Random Forest
Fuente: Elaboración propia en el software R Studio.
3.3.6. Calibración de parámetros
Para calibrar los parámetros se utilizó el método de validación cruzada. Este procedimiento
tuvo como propósito encontrar los parámetros óptimos del modelo o algoritmo. La Validación
Cruzada o k-fold Cross Validation consiste en tomar los datos originales y crear a partir de ellos
dos conjuntos separados: un primer conjunto de entrenamiento (y prueba), y un segundo conjunto
de validación, realizando iteraciones con los valores de los parámetros ingresados de manera que
se seleccione los valores que menor error generen.
68
• mtry: Este parámetro se encarga de decidir el número de variables que se consideran en
cada nodo para conseguir la mayor información posible, es uno de los parámetros más
importantes en el desarrollo del Random forest.
• trees: número de árboles utilizados en el modelo con el fin de estabilizar el error.
Para esta regresión y con el fin de encontrar los mejores parámetros se usaron las siguientes
métricas.
La raíz del Error cuadrático medio (Root Mean Square Error) rmse: es la desviación estándar
de los residuos (errores de predicción). Los residuos son una medida de qué tan lejos están los
puntos de datos de la línea de regresión; RMSE es una medida de la dispersión de estos residuos.
Error Medio Absoluto (Mean Absolute Error) mae: mide el error o desviación, en valor
absoluto, entre el valor real de y el valor estimado por el modelo.
3.3.7. Resultados Selección de parámetros
Para la selección de los parámetros más adecuados para el modelo se hicieron pruebas con las tres
divisiones de conjuntos mencionadas con anterioridad, dando posibles valores a los parámetros de
manera que se seleccionaran los que mostraran valores más bajos en las métricas.
La ilustración 37 muestra los valores de selección asignados a las métricas, donde para mtry se
asignaron tres posibles valores 3, 5 y 9 y para el parámetro trees se asignaron los valores 300 y
500. Los posibles valores de las métricas se asignaron después de realizar varias pruebas e
identificar que entre estos valores se encontraban los parámetros más adecuados.
Ilustración 37 Valores de selección para las métricas
69
Fuente: Elaboración propia en el software R Studio.
Resultados división de datos 80/20
En la ilustración 38 podemos observar el resultado de la validación cruzada para la división de
datos 80/20, donde el 0.8 hace referencia a que se tomaran el 80% de los datos para entrenamiento,
para este caso los mejores parámetros son mtry=5 y trees=500.
Ilustración 38 Resultado validación cruzada con división de datos 80/20
Fuente: Elaboración propia en el software R Studio.
Resultados división de datos 75/25
Los mejores parámetros con la división datos 75/25 son mtry=5 y trees= 500 como se puede
observar en la ilustración 39.
Ilustración 39 Resultado validación cruzada con división de datos 75/25
70
Fuente: Elaboración propia en el software R Studio.
Resultados división de datos 70/30
Con la división de datos 70/30 se encuentra que los mejores parámetros son mtry=5 y trees=500
como se puede observar en la ilustración 40.
Ilustración 40 Resultado validación cruzada con división de datos 70/30
Fuente: Elaboración propia en el software R Studio.
De las ilustraciones 38, 39 y 40 podemos concluir que los resultados de la validación cruzada son
los mismos para las tres divisiones del conjunto de datos, entonces los mejores parámetros para el
modelo son mtry=5 y trees= 500.
Las ilustraciones 41 y 42, permiten identificar, de forma más clara, los parámetros adecuados para
el modelo. Se presentan los valores de las métricas en función del mtry y el número de árboles y
71
se escoge la combinación de parámetros que generen un menor error, el cual se encuentra en los
puntos de inflexión.
Ilustración 41 RMSE en función del mtry y el número de arboles
Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11.
Ilustración 42 MAE en función del mtry y el número de arboles
Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11
72
3.4. Modelo final
A continuación, en la ilustración 43, se presenta el modelo final donde se incluyen todas las
tareas realizadas con anterioridad.
Ilustración 43 Modelo final de Random Forest
Fuente: Elaboración propia mediante el software R Studio.
Cabe aclarar que este modelo no permite predecir de manera precisa el resultado que va a
tener un estudiante en las Pruebas Saber 11, ya que hay muchas otras variables que afectan el
desempeño del estudiante, y que para este modelo no se están incluyendo, tal es el caso del
coeficiente intelectual de cada estudiante, el apoyo que reciben del hogar, los elementos de la
escuela o plantel educativo como la eficacia de los profesores y las características de
infraestructura (BANCO MUNDIAL, 2008), no obstante, el objetivo principal del modelo es
identificar la importancia de cada una de las variables incluidas en el mismo sobre el puntaje global
obtenido en las Pruebas Saber 11.
73
Importancia de las variables del modelo
Dado que las variables categóricas se convirtieron en variables booleanas para la correcta
ejecución del modelo , este arroja la importancia de cada categoría de todas las variables. El valor
de la importancia mostrado en la tabla 22 corresponde a un valor asignado por el modelo que
permite identificar el grado de importancia de cada variable sobre el puntaje global. Esta
importancia puede darse debido a que la variable contribuye a puntajes altos o por el contrario a
puntajes bajos, como por ejemplo el hecho de tener un computador el cual hace que se obtengan
mejores puntajes y por el contrario no tenerlo contribuye a obtener resultados más bajos.
Tabla 22 Importancia de las variables del modelo
VARIABLE IMPORTANCIA
FAMI_NUMLIBROS_X0.A.10.LIBROS 19527365.4
ESTU_HORASSEMANATRABAJA_X0 14883402.9
FAMI_TIENEINTERNET_Si 14085737.4
FAMI_TIENEINTERNET_No 13839901.0
FAMI_NUMLIBROS_X26.A.100.LIBROS 13411134.8
FAMI_TIENECOMPUTADOR_Si 12441143.8
FAMI_TIENECOMPUTADOR_No 12412894.8
ESTU_DEDICACIONLECTURADIARIA_X30.minutos.o. menos 9447835.9
FAMI_EDUCACIONMADRE_Tecnica.o.tecnologica.completa 9367075.0
FAMI_EDUCACIONMADRE_Primaria.incompleta 9312629.0
ESTU_GENERO_M 8982280.9
ESTU_GENERO_F 8747854.7
FAMI_PERSONASHOGAR_X3.a.4 8628750.0
FAMI_ESTRATOVIVIENDA_Estrato.1 8510814.3
ESTU_DEDICACIONLECTURADIARIA_No.leo.por.entretenimient
o
8496946.2
ESTU_TIENEETNIA_No 8232539.1
FAMI_EDUCACIONPADRE_Primaria.incompleta 8181236.4
ESTU_DEDICACIONLECTURADIARIA_Entre.30.y.60.minutos 8073816.6
FAMI_COMELECHEDERIVADOS_X1.o.2.veces.por.semana 8035184.1
FAMI_CUARTOSHOGAR_Dos 8031922.7
FAMI_COMECEREALFRUTOSLEGUMBRE_X3.a.5.veces.por.sem
ana
7981748.6
COLE_CARACTER_TECNICO.ACADEMICO 7963268.8
74
FAMI_COMELECHEDERIVADOS_Todos.o.casi.todos.los.dias 7962803.8
FAMI_CUARTOSHOGAR_Tres 7943536.9
FAMI_ESTRATOVIVIENDA_Estrato.2 7940874.3
ESTU_DEDICACIONINTERNET_Entre.1.y.3.horas 7918974.9
ESTU_TIENEETNIA_Si 7894187.0
COLE_CARACTER_ACADEMICO 7859950.9
FAMI_COMECARNEPESCADOHUEVO_Todos.o.casi.todos.los.dias 7786231.8
FAMI_COMECARNEPESCADOHUEVO_X1.o.2.veces.por.semana 7576792.6
COLE_AREA_UBICACION_URBANO 7574140.3
FAMI_COMECEREALFRUTOSLEGUMBRE_X1.o.2.veces.por.sem
ana
7543879.5
COLE_AREA_UBICACION_RURAL 7360873.1
ESTU_DEDICACIONINTERNET_X30.minutos.o.menos 7346903.8
ESTU_DEDICACIONINTERNET_Entre.30.y.60.minutos 7277319.0
FAMI_PERSONASHOGAR_X5.a.6 7068613.5
FAMI_COMECARNEPESCADOHUEVO_X3.a.5.veces.por.semana 7026248.3
FAMI_EDUCACIONMADRE_Secundaria..Bachillerato..completa 6969358.1
FAMI_COMELECHEDERIVADOS_X3.a.5.veces.por.semana 6939036.8
FAMI_EDUCACIONPADRE_Ninguno 6842008.6
FAMI_EDUCACIONPADRE_Secundaria..Bachillerato..completa 6828389.6
FAMI_TIENESERVICIOTV_Si 6789201.8
FAMI_TIENESERVICIOTV_No 6761143.0
FAMI_NUMLIBROS_X11.A.25.LIBROS 6689437.9
FAMI_ESTRATOVIVIENDA_Sin.Estrato 6629957.7
FAMI_COMELECHEDERIVADOS_Nunca.o.rara.vez.comemos.eso 6583648.0
FAMI_EDUCACIONMADRE_Educacion.profesional.completa 6314948.9
FAMI_COMECEREALFRUTOSLEGUMBRE_Todos.o.casi.todos.los
.dias
6289670.4
FAMI_ESTRATOVIVIENDA_Estrato.3 6239878.9
FAMI_CUARTOSHOGAR_Cuatro 6231931.8
FAMI_EDUCACIONPADRE_Secundaria..Bachillerato..incompleta 6225239.1
FAMI_COMECEREALFRUTOSLEGUMBRE_Nunca.o.rara.vez.com
emos.eso
6209482.7
FAMI_EDUCACIONMADRE_Secundaria..Bachillerato..incompleta 6187736.8
FAMI_EDUCACIONPADRE_Tecnica.o.tecnologica.completa 6168692.5
ESTU_DEDICACIONLECTURADIARIA_Entre.1.y.2.horas 6131364.3
COLE_CARACTER_TECNICO 6069364.2
ESTU_DEDICACIONINTERNET_MAS.de.3.horas 6065682.5
FAMI_EDUCACIONMADRE_Primaria.completa 5797208.1
FAMI_EDUCACIONPADRE_Primaria.completa 5688918.4
FAMI_TIENECONSOLAVIDEOJUEGOS_Si 5643019.2
FAMI_TIENECONSOLAVIDEOJUEGOS_No 5630488.9
75
ESTU_HORASSEMANATRABAJA_Menos.de.10.horas 5615965.5
ESTU_DEDICACIONLECTURADIARIA_MAS.de.2.horas 5515294.2
FAMI_PERSONASHOGAR_X7.a.8 5203319.2
FAMI_EDUCACIONPADRE_Educacion.profesional.completa 5178521.7
FAMI_NUMLIBROS_MAS.DE.100.LIBROS 4695379.7
ESTU_DEDICACIONINTERNET_No.Navega.Internet 4694459.8
FAMI_EDUCACIONPADRE_No.sabe 4543430.0
FAMI_PERSONASHOGAR_X1.a.2 4464965.1
FAMI_EDUCACIONMADRE_Ninguno 4425711.5
FAMI_COMECARNEPESCADOHUEVO_Nunca.o.rara.vez.comemo
s.eso
4401069.6
FAMI_CUARTOSHOGAR_Uno 4375455.2
COLE_GENERO_MIXTO 4270491.5
ESTU_HORASSEMANATRABAJA_Entre.11.y.20.horas 4073130.7
ESTU_HORASSEMANATRABAJA_MAS.de.30.horas 3946561.3
FAMI_PERSONASHOGAR_X9.o.MAS 3780201.5
FAMI_CUARTOSHOGAR_Cinco 3629433.9
FAMI_ESTRATOVIVIENDA_Estrato.4 3559650.9
COLE_GENERO_FEMENINO 3418899.2
FAMI_EDUCACIONMADRE_Tecnica.o.tecnologica.incompleta 3084845.1
FAMI_EDUCACIONMADRE_Postgrado 2920022.2
FAMI_EDUCACIONMADRE_Educacion.profesional.incompleta 2767893.3
FAMI_EDUCACIONPADRE_Educacion.profesional.incompleta 2681083.0
FAMI_CUARTOSHOGAR_Seis.o.mas 2592593.7
FAMI_EDUCACIONPADRE_Tecnica.o.tecnologica.incompleta 2435599.3
ESTU_HORASSEMANATRABAJA_Entre.21.y.30.horas 2434935.9
FAMI_EDUCACIONPADRE_Postgrado 2367046.9
FAMI_EDUCACIONMADRE_No.sabe 2298433.2
FAMI_EDUCACIONPADRE_No.Aplica 1847840.8
FAMI_ESTRATOVIVIENDA_Estrato.5 1730497.2
FAMI_ESTRATOVIVIENDA_Estrato.6 1321961.3
COLE_BILINGUE_N 1149938.8
COLE_BILINGUE_S 1140861.8
COLE_GENERO_MASCULINO 829326.2
FAMI_EDUCACIONMADRE_No.Aplica 459230.0
COLE_CARACTER_NO.APLICA 111360.5
Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11.
76
Al tener los resultados de esta manera genera confusión a la hora de interpretar la
importancia de cada variable, por lo tanto, se decide agrupar cada variable por sus categorías,
obteniendo la siguiente clasificación de las variables dada su importancia.
En la Ilustración 44 se puede observar las variables incluidas en el modelo con su grado de
importancia, el cual se obtuvo promediando la importancia de las categorías de cada variable,
donde la variable referente a si la familia tiene internet en la casa es la que más influye en resultado
de la prueba Saber 11.
Ilustración 44 Importancia de variables del modelo
Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11
3.5. Comparación colegios categoría A y A+ vs la categoría D
Para este punto ya se identificaron las variables de mayor importancia en el puntaje
obtenido en las Pruebas Saber 11, pero con el fin de recopilar más información relacionada con
0,00 4000000,00 8000000,00 12000000,00 16000000,00
COLE_BILINGUECOLE_GENERO
FAMI_EDUCACIONMADREFAMI_EDUCACIONPADREFAMI_ESTRATOVIVIENDA
FAMI_CUARTOSHOGARCOLE_CARACTER
FAMI_TIENECONSOLAVIDEOJUEGOSFAMI_PERSONASHOGAR
ESTU_HORASSEMANATRABAJAESTU_DEDICACIONINTERNET
FAMI_TIENESERVICIOTVFAMI_COMECEREALFRUTOSLEGUMBRE
FAMI_COMECARNEPESCADOHUEVOFAMI_COMELECHEDERIVADOS
COLE_AREA_UBICACIONESTU_TIENEETNIA
ESTU_GENEROESTU_DEDICACIONLECTURADIARIA
FAMI_NUMLIBROSFAMI_TIENECOMPUTADOR
FAMI_TIENEINTERNET
Importancia
77
cómo mejorar estos resultados, se realiza una comparación entre los colegios categoría (A y A+)
versus los colegios de categoría D, para observar las diferencias en las 11 variables con mayor
importancia que llevan a los colegios categoría (A+ y A) a tener mejores puntajes e identificar
algunas de las causas de la brecha existente en los resultados de las pruebas saber 11 entre colegios
públicos.
A continuación, se presenta la comparación agrupando las variables según el módulo al
que pertenecen de acuerdo con los establecidos en la recolección de la información del capítulo
dos.
3.5.1. Modulo información personal
En la ilustración 45, se observa la comparación entre los colegios categoría A+ y A vs la
categoría D de acuerdo con el género del estudiante, donde se puede observar que no hay una
diferencia significativa en esta variable, ya que la proporción de estudiantes de género masculino
y femenino son muy similares en las categorías comparadas, donde en la categoría A+ y A el
57.7% son mujeres y el 42.2% hombres y en la categoría D 54.2 % son mujeres y el 45.7 %
hombres.
Ilustración 45 Proporción de estudiantes que tienen internet dependiendo de la categoría del
colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
78
Ahora, en la ilustración 46, se presenta la proporción de estudiantes que tienen etnia
dependiendo de la categoría del colegio, se evidencia una diferencia de los estudiantes que tienen
etnia en los colegios categoría A+ y A y la categoría D, donde en los colegios categoría A+ y A
la proporción de estudiantes que tienen etnia es de 1.65% respecto 23.9% de los colegios
categoría D.
Ilustración 46 Proporción de estudiantes que tienen etnia dependiendo de la categoría del
colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
3.5.2. Modulo información socioeconómica
En la ilustración 47, podemos observar la diferencia que hay entre los colegios categoría
A+ y A y la categoría D con relación a la proporción de estudiantes que tienen acceso a internet
en su casa, se observa que es mayor la proporción de estudiantes que tienen internet en los
colegios A+ y A con 71.6% vs 27.58% los que cuentan con este recurso en los colegios categoría
D, lo que podría estar influyendo en que estos estudiantes tengan mejores resultados en las
Pruebas Saber 11.
Ilustración 47 Proporción de estudiantes que tienen internet dependiendo de la categoría del
colegio.
79
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
La proporción de estudiantes que tienen computador es mayor en los colegios categoría
A+ y A con 71% vs 33% los estudiantes de la categoría D, debido a que esta es una de las
variables más influyentes en los resultados de las Pruebas Saber 11, podría explicar el por qué
los estudiantes que tienen computador obtienen mejores resultados, esta proporción se puede
observar en la ilustración 48.
Ilustración 48 Proporción de estudiantes que tienen computador dependiendo de la categoría
del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
80
Para tener mayor certeza de cómo influye el estrato para poseer computador se presenta la
ilustración 49, en la que se observa que del total de estudiantes que no tienen computador el 51%
pertenecen al estrato 1, el 29% al estrato 2 y va disminuyendo hasta llegar al estrato 6 con 0.6%.
Ilustración 49 Proporción de estudiantes que no tienen computador dependiendo del estrato de
la vida.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la ilustración 50, se puede observar la diferencia que hay en la proporción de
estudiantes que tienen servicio de televisión entre los colegios categoría A+ y A y los colegios
categoría D, donde en la categoría A+ y A la proporción de estudiantes que tienen este servicio
llega hasta el 80.7% y en los colegios categoría D llega al 64%.
81
Ilustración 50 Proporción de estudiantes dependiendo de si tienen servicio de televisión y de la
categoría del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la comparación de los colegios categoría A+ y A vs los colegios categoría D respecto
al tiempo que dedican los estudiantes a navegar en internet en el día, en la Ilustración 51 se puede
observar que en los colegios categoría A+ y A los estudiantes suelen navegar por más tiempo en
internet, en especial en un lapso entre 1 y 3 horas en el cual están el 33.7% de los estudiantes de
colegios categoría A+ y A y el 22.8% de la categoría D.
Ilustración 51 Proporción de estudiantes dependiendo de la dedicación diaria a internet
y de la categoría del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
82
En la Ilustración 52, se observa que los estudiantes de colegios categoría D tienen menor
cantidad de libros en el hogar, donde el 54.7% de los estudiantes tienen entre 0 y 10 libros, y en
los colegios categoría A+ y A esta proporción es menor con un 32% y a medida que aumentan el
número de libros es mayor la proporción en los colegios categoría A+ y A que en los D, lo que
favorece a estos estudiantes, ya que como se pudo ver con anterioridad a mayor cantidad de
libros mayor es el puntaje promedio en la prueba Saber 11.
Ilustración 52 Proporción de estudiantes dependiendo del número de libros en la familia
y de la categoría del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
En la Ilustración 53, respecto a la lectura diaria no se puede ver una diferencia clara ya que
los estudiantes de ambas categorías A+ y A versus D suelen dedicar casi el mismo tiempo a la
lectura daría.
83
Ilustración 53 Proporción de estudiantes dependiendo la dedicación a la lectura diaria y de la
categoría del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Con relación al tipo de alimentación, las ilustraciones 54, 55 y 56 permiten observar que
los estudiantes de colegios categoría A+ y A suelen tener una mejor alimentación ya que consumen
derivados de la leche, carnes, pescado, huevos, cereales, frutos y legumbres con mayor frecuencia
a la semana que los estudiantes de colegios categoría D; además, en el análisis exploratorio de los
datos se mostró que a mayor consumo de estos alimentos mayor puntaje se obtenía en las Pruebas
Saber 11;esto nos ayuda a entender porque los estudiantes de colegios categoría A+ y A obtiene
mejores resultados, ya que los resultados van relacionados con una buena alimentación que le
permite al estudiante desempeñarse de la mejor manera tanto en la adquisición de conocimiento
como en el día de la prueba Saber 11.
84
Ilustración 54 Proporción de estudiantes dependiendo del consumo de lácteos en la semana y la
categoría del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Ilustración 55 Proporción de estudiantes dependiendo del consumo de proteínas en la semana y
la categoría del colegio.
85
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Ilustración 56 Proporción de estudiantes dependiendo del consumo de cereales frutos y
legumbres en la semana y de la categoría del colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
3.5.3. Modulo información del colegio
La ilustración 57, permite observa que la mayoría de los estudiantes de colegios categoría
A+ y A son de área urbana con un 95% con respecto al 64.6% de los colegios categoría D; si se
analiza a fondo los estudiantes del área urbana suele tener mayor facilidad a internet y un
computador que como ya vimos en este trabajo son las variables que más influyen a obtener
mejores puntajes en las Pruebas Saber 11.
86
Ilustración 57 Proporción de estudiantes dependiendo del área de ubicación y la categoría del
colegio.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Como conclusión de este capítulo se puede afirmar el cumplimiento del segundo objetivo,
en primer lugar se logró identificar cuáles de las variables incluidas en las bases de datos de los
resultados de las Pruebas Saber 11 tienen mayor influencia en el puntaje obtenido por los
estudiantes; esto a través de un modelo de Random Forest, el cual arrojo el grado de importancia
de cada una de las variables incluidas sobre la variable determinante, que en este caso es el
promedio del puntaje global obtenido en la prueba. Se pudo observar que las dos variables más
importantes son el acceso a internet (FAMI_TIENEINTERNET) y al acceso a un computador en
el hogar (FAMI_TIENECOMPUTADOR), lo que indica que la falta de conectividad a nivel
nacional en los colegios está influyendo en estos resultados; en segundo lugar se compararon las
categorías de los colegios A+ y A con los colegios categoría D, respecto a las 11 variables más
importantes arrojadas por el modelo aplicado; donde se encontraron las principales diferencias en
las variables analizadas que hacen que los estudiantes de los colegios categoría A+ y A tengan
mejores resultados respecto a los estudiantes de categoría D y que además contribuyen a la brecha
existente entre estas categorías de colegios.
87
4. CAPITULO 4: PROPUESTAS DE MEJORA
En este capítulo se llevó a cabo el desarrollo del objetivo específico 3 que consiste en
desarrollar propuestas de mejora basadas en las variables determinantes que diferencian a los
colegios categoría A+ y A de los colegios categoría D.
Teniendo en cuenta los resultados del capítulo 3, se plantean 3 propuestas de mejora a partir
de las variables más influyentes, con el fin de que los resultados de los estudiantes de Colombia
en las Pruebas Saber 11 mejoren, especialmente los resultados de aquellos estudiantes que
pertenecen a colegios de categoría D, los cuales presentan los resultados más bajos.
4.1. Ampliar cobertura del PAE y capacitaciones a padres de familia
Uno de los factores que tiene mayor incidencia en el desempeño escolar de los estudiantes
es la alimentación. Esto se comprobó en el análisis desarrollado en el capítulo tres, en el que se
evidenció que aquellos estudiantes que semanalmente se alimentan de una mejor manera obtienen
mejores resultados en las Pruebas Saber 11 para los años en los que se realizó el estudio, respecto
a aquellos estudiantes que no se alimentan de forma adecuada.
Se considera alimentación saludable aquella que aporta todos los nutrientes que necesita el
cuerpo para mantener un óptimo funcionamiento del organismo, un buen desarrollo físico,
personal y psicológico minimizando el riesgo de enfermedades en el corto y largo plazo,
asegurando un mejor crecimiento y desarrollo. Para lograrlo es necesario el consumo de frutas,
verduras, cereales, legumbres, leche, carnes, pescado, aves y aceite vegetal en cantidades
adecuadas y variadas. (MINSALUD, s.f.)
88
En la vida escolar es importante que los padres y educadores aporten sus conocimientos a
los niños y adolescentes acerca de los estilos de vida saludables, asociados a una buena nutrición
y a hábitos alimentarios adecuados. (Aured & Pinilla, 2007)
Teniendo en cuenta lo anterior, se propone que el Ministerio de Educación Nacional, a
través de su programa de alimentación escolar (PAE) que tiene como objetivo “Contribuir con el
acceso y la permanencia escolar de los niños, niñas y adolescentes en edad escolar, que están
registrados en la matrícula oficial, fomentando estilos de vida saludables y mejorando su capacidad
de aprendizaje, a través del suministro de un complemento” (MINEDUCACIÓN, s.f.), se garantice
que los estudiantes de colegios oficiales de todo el país cuenten con dicho suministro alimentario,
ya que aunque es un compromiso del Gobierno Nacional el alcanzar la cobertura universal del
PAE en educación prescolar, básica y media (Artículo 136, numeral 4, Parágrafo 4° de la Ley 1450
de 2011), no se da el cumplimiento de esto como se puede observar en las ilustraciones 58, 59 y
60 aunque se observa una mejoría con el pasar de los años, no cumplen su compromiso en un
100%, esto por diferentes irregularidades tales como el no informe por parte de las entidades
territoriales de la cobertura del programa, el beneficio a individuos no registrados en el sistema
integrado de matrícula (SIMAT),la falta de organización y la no adecuada regulación del programa
en sí. (Ardila, Flórez, Ricciulli, Domínguez, & Segura, 2017)
89
Ilustración 58 Cobertura nacional PAE 2016
Fuente: Ministerio Nacional de Educación.
Ilustración 59 Cobertura nacional PAE 2017
Fuente: Ministerio Nacional de Educación.
90
Ilustración 60 Cobertura nacional PAE 2018
Fuente: Ministerio Nacional de Educación.
Además, que MINEDUCACIÓN y las unidades administrativas de educación de cada
región, teniendo en cuenta la población de cada institución educativa, brinden capacitaciones a
directivos, profesores, personal administrativo y padres de familia, en las que se les enseñe acerca
de la importancia de una óptima alimentación y una orientación de como suplir dicha alimentación
en casa, teniendo en cuenta los alimentos propios del entorno y buscando aprovechar de la mejor
manera los recursos existentes, que en muchas ocasiones son muy limitados, por la precaria
situación económica de las familias.
91
4.2. Crear hábitos de lectura mediante actividades didácticas.
En el desarrollo del proyecto se evidenció que la lectura tiene un papel fundamental en el
resultado de la prueba Saber 11. Como se observa en la Ilustración 61, los estudiantes que dedican
mayor tiempo diario a la lectura obtienen mejores resultados en la prueba, por lo que se puede
concluir que la lectura diaria influye en el puntaje global promedio.
Ilustración 61 Puntaje promedio de acuerdo con la dedicación diaria de lectura.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Marisela Vital carrillo profesora de la Universidad Autónoma de Hidalgo, menciona que
es importante que los adolescentes lean un libro por lo menos una vez al mes, ya que esta actividad
les permite estimular fácilmente su imaginación y su función cerebral. Además, la lectura
contribuye con la mejora del vocabulario, a desarrollar mejor las habilidades del cerebro para poder
comprender mejor los argumentos de varias líneas y personajes. También, menciona que la falta
de capacidad lectora puede influir en el bajo rendimiento escolar, debido a la falta de interés en las
investigaciones escolares, el poco vocabulario que tiene, la dificultad para comprender y analizar
92
textos y sobre todo el no entender cuando alguien le explica de un determinado tema. (Carrillo,
2018)
En la parte asociada a la dedicación a la lectura por parte de los estudiantes incluidos en
este proyecto, la ilustración 62, evidencia el porcentaje de estudiantes según la dedicación a la
lectura diaria, donde el 39,79 % de los estudiantes leen 30 minutos o menos; el 28 % leen entre 30
y 60 minutos; el 16% no leen por entretenimiento; el 11,7 % leen entre 1 y 2 horas y el 4.2% leen
más de 2 horas. Dicho lo anterior si se une los estudiantes que no leen por entretenimiento y los
que leen 30 minutos o menos se tiene que más de la mitad de los estudiantes leen muy poco o nada.
Ilustración 62 Porcentaje de estudiantes según la dedicación diaria a la lectura.
Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.
Con base en lo anterior lo anterior se plantean las siguientes sugerencias para incentivar y
mejorar el hábito de lectura en los colegios públicos de Colombia, con el fin de contribuir con la
mejora en los resultados de las Pruebas Saber 11.
• En primer lugar, se propone manejar un canon de libro por periodo y
teniendo en cuenta el Catálogo de Textos escolares creado por MINEDUCACION con el
93
fin de elevar el valor social de los libros de texto (para que los diferentes actores entiendan
la importancia de este dentro del proceso educativo) (MinEducación), el cual se debe
ajustar a los requerimientos exigidos para el año en curso. Además, la lectura de este se
evaluará exigiendo en cada área una actividad; es importante tener en cuenta que las
instituciones deben asegurar que los estudiantes tengan la facilidad de acceso al libro, bien
sea proporcionando las copias de manera gratuita o a un bajo costo para cada estudiante, la
facilidad de descarga en línea o alianza con bibliotecas cercanas que sirvan como medio
para que todos tengan acceso a los libros seleccionados.
• En segundo lugar, programar donaciones de libros en las secretarias de
educación del país y en las instituciones de tal manera que cuenten con suficientes libros.
Se considera importante que estos libros no solo sean de carácter académico, sino que se
maneje una amplia gama de géneros para que los estudiantes se interesen por la lectura
según sus gustos e intereses.
• En la investigación realizada por Trujillo (s.f), denominada “Formación de hábitos de
lectura en niños en edad escolar” se recalca la importancia de las bibliotecas, ya que se
demostró que en las escuelas que cuentan con una, hay un 46% de alumnos que pueden ser
clasificados como lectores, mientras que un 28% de los alumnos en las escuelas sin
bibliotecas aparecen en esa categoría. (Trujillo, s.f); por lo que se propone la adecuación
de las bibliotecas en las instituciones educativas, con el fin de que los estudiantes tengan
espacios adecuados para leer.
Es importante que en este espacio de igual forma se incentive la lectura, mediante
actividades a lo largo de la semana en los espacios extracurriculares. Dentro de estas actividades
94
se pueden programar talleres, charlas, conversatorios, etc., teniendo en cuenta las edades y etapas
de los estudiantes.
4.3. Aumentar acceso a internet y a computadores en colegios públicos.
Como se pudo observar en el desarrollo de este trabajo, las dos variables más influyentes
en el desempeño de los estudiantes en las Pruebas Saber 11 en los años para los cuales se realizó
este estudio son el acceso a internet (FAMI_TIENEINTERNET) y el acceso a un computador
(FAMI_TIENECOMPUTADOR). De igual manera, al observar la comparación de estas variables
entre los colegios categoría A+ y A con los colegios categoría D, es posible afirmar que los
estudiantes que tienen acceso a internet y a un computador superan el 70%, mientras que de los
estudiantes de colegios categoría D solo alrededor del 30 %, tienen acceso a estos recursos, esto
contribuye a que los estudiantes de colegios categoría A+ y A puedan tener un mejor desempeño
en estas pruebas.
Se reconoce por parte del Ministerio de Tecnologías de la Información y las
Comunicaciones (MinTic), su interés por brindar equidad social, educativa y económica en el país,
por medio de proyectos como el de implementar Centros digitales, donde escuelas, puestos de
salud, comunidades indígenas, etc., de las zonas rurales del país cuenten con servicio de internet
sin costo hasta 2031 (Ministerio de Tecnologías de la Información y las Comunicaciones, 2021);
sin embargo, en materia de conectividad para los colegios y acceso a computadores queda mucho
por hacer a nivel nacional para reducir la brecha.
A continuación, en las ilustraciones 63 y 64, se muestran el número de sedes conectadas
del total de sedes oficiales a nivel nacional para los años 2019 y 2020. El término conectadas hace
referencia a las sedes en las que los alumnos pueden usar internet como ayuda pedagógica. En
95
ambas ilustraciones se observa que la mayoría de las sedes están desconectadas, por lo que es
posible indicar que los estudiantes no tienen acceso a internet desde sus instituciones.
Adicionalmente, se observa que para el año 2020 este dato disminuye aún más, esto podría estar
asociado a la crisis ocasionada por la pandemia del covid-19.
Ilustración 63 Número de sedes conectadas 2019
Fuente: Ministerio Nacional de Educación.
Ilustración 64 Número de sedes conectadas 2020
96
Fuente: Ministerio Nacional de Educación.
En la ilustración 65, se observa el número promedio de estudiantes por computador hasta
el año 2019, donde si bien con el paso de los años se ha logrado disminuir este número, aún sigue
siendo alto y combinado con la falta de conectividad hace que el aprendizaje de los estudiantes
tenga serias complicaciones, llevando así a obtener bajos resultados en las Pruebas Saber 11.
Ilustración 65 Número de estudiantes promedio por computador
Fuente: Ministerio Nacional de Educación.
97
Dadas estas circunstancias, y viendo la importancia del acceso a internet y a un computador
para los estudiantes del país, se plantean dos propuestas.
• Se recomienda hacer un esfuerzo mayor por parte del Gobierno en compañía del MinTic
que permita mejorar el acceso a internet y a computadores en todos los colegios oficiales
del país, donde en cada institución se designe un espacio en el cual los estudiantes puedan
tener acceso a estos recursos, no solo en los horarios de clase sino también extra-clase, que
les permita apoyarse en sus procesos formativos, logrando así una mejora en la educación
en el país. Se propone que en el corto plazo se garantice el acceso a estos recursos en las
instituciones educativas y progresivamente incorporarlo en los hogares, ya que esta parte
requiere un esfuerzo más complejo.
• Dado que dotar a todos los colegios públicos del país con computadores e internet es un
gran desafío y algo que tomara bastante tiempo, sobre todo en las zonas rurales donde cada
institución tiene varias sedes, se propone que se designen centros de experiencia para
estudiantes; ubicados en puntos estratégicos y/o centrales, que se encuentren dotados de
equipos de cómputo, red wifi y espacios adecuados para el desarrollo de actividades,
contando con la asesoría de personal capacitado que verifique que hagan uso de estos
recursos de una manera adecuada.
Se considera importante resaltar que el Gobierno mediante sus entes de control deben verificar
y garantizar el cumplimiento de los proyectos actuales relacionados con la conectividad en las
instituciones educativas.
98
5. CAPITULO 5. CONCLUSIONES Y TRABAJO FUTURO.
5.1. Conclusiones generales
1. A pesar de que en un principio se contaba con una gran cantidad de
variables, al analizar y detallar a fondo, se observó que muchas de estas no
presentaban mayor relevancia para el desarrollo del objetivo del proyecto, por lo que
para el modelo solo se incluyeron las variables que, a partir de análisis exploratorio
de datos, demostraban que tenían alguna influencia significativa sobre el resultado de
los estudiantes en las pruebas saber 11.
2. El modelo Random Forest permitió encontrar de manera clara las variables
que tienen mayor influencia en los resultados de las Pruebas Saber 11 en los años de
estudio, ya que este es un modelo que se ajusta mejor a la realidad, prediciendo de
una mejor manera los resultados, esto gracias a la versatilidad de funciones que se
pueden utilizar y que permiten detectar la importancia de cada uno de los predictores
sobre la variable de a predecir, que este caso era el puntaje global de los estudiantes.
3. Se encontró que de las variables analizadas las tres que tienen mayor
influencia en los resultados obtenidos por los estudiantes en las Pruebas Saber 11, son
el acceso a internet, el acceso a un computador y el número de libros en el hogar,
estas variables están relacionadas con la información socioeconómica de los
estudiantes. Teniendo en cuenta que estos resultados de los estudiantes que se
analizaron son de los años 2017 y 2018, se evidencia que desde ese entonces la
importancia de tener acceso a instrumentos de consulta juega un papel fundamental
en el aprendizaje de los estudiantes y más ahora que la educación a raíz de la
pandemia ocasionada por el Covid 19, se ha orientado hacia un aprendizaje remoto.
99
4. La brecha existente entre los colegios públicos de Colombia en los
resultados de las Pruebas Saber 11, se genera en gran parte por las diferencias que hay
en las variables de mayor relevancia entre los colegios más sobresalientes (Categoría
A+ y A) y aquellos más rezagados (Categoría D), donde en la categoría A+ y A la
mayoría de los estudiantes cuentan con conexión a internet, acceso a un computador y
una mayor cantidad de libros en la casa, situación que no se presenta en los colegios
categoría D, esto genera que los estudiantes de estos colegios tengan una menor
oportunidad de acceder a la educación superior y menos competencias para la vida
laboral.
5. A pesar de que el software R Studio es especializado para el manejo y
procesamiento de datos, se debe contar con un equipo de cómputo con características
de gama alta, ya que correr un modelo de Random Forest con grandes cantidades de
datos genera demasiado estrés en el equipo. El equipo manejado en el estudio contaba
con las siguientes características: Intel Core i5 de 8th Gen, Con memoria Ram de 8
Gb y disco duro de 1 TB. Con las características mencionadas el modelo tardó un
tiempo considerable (12 horas) en correr y ya que se tenían que plantear varios
escenarios para determinar los mejores parámetros para el modelo, este proceso
requirió bastante tiempo que con un equipo con mejores características pudo
reducirse.
5.2. Trabajo futuro
Teniendo en cuenta la investigación desarrollada y las posibles mejoras, a continuación,
se presentan las recomendaciones para trabajos futuros:
100
• Debido a la complejidad de algunas variables y por falta de amplio
conocimiento en algunos temas, no se pudieron realizar propuestas en torno a variables
como la etnia, el género de los estudiantes, genero del colegio, entre otras; queda abierta
la posibilidad de seguir profundizando en el tema en un futuro, con expertos que
contribuyan con ideas y orientación sobre como intervenir en estas variables en pro de
una mejor calidad educativa y de mejorar los resultados de las Pruebas Saber 11.
• Teniendo en cuenta las políticas de Estado actuales, en cuanto a garantizar
mediante el PAE alimento a los niños en etapa escolar y los programas del MINTIC, en
donde se propone garantizar el acceso a internet de los estudiantes del país, se sugiere
como trabajo futuro verificar el cumplimiento de dichas políticas y aquellas que se
encuentren relacionadas.
• En el modelo de Random Forest, se excluyeron algunas variables, como el
trabajo del padre y la madre, debido al gran número de categorías que cada una de ellas
tenía y dada la falta de un equipo de cómputo más avanzado no fue posible correr el
modelo incluyendo esas variables, pero a futuro contando con un mejor equipo se podrían
incluir y así obtener un modelo más completo.
• En cuanto a la variable que mide la influencia que tiene ser parte de una
etnia, se propone como trabajo futuro investigar ¿Qué factores causan que estos
estudiantes presenten menores resultados y como poder solucionar esta problemática?
Esto se propone ya que en este estudio no se cuenta con la información necesaria para
resolver estos interrogantes,
• Respecto a la variable correspondiente al estrato del estudiante y la
influencia de esta, se plantea como trabajo futuro la investigación de ¿Por qué los
101
estudiantes estrato 5 y 6 quienes cuenta con mayor condición socioeconómica y quizás
mejores recursos obtienen de los resultados más bajos en las pruebas Saber 11?
102
ANEXOS
ANEXO A. Diccionario de variables saber 11 periodo 20142 – 20182.
ANEXO B. Diccionario clasificación de planteles.
103
Referencias
Ardila, M. V., Flórez, M. A., Ricciulli, C. M., Domínguez, V. H., & Segura, V. H. (2017).
EVALUACION DEL PROGRAMA DE ALIMENTACIÓN ESCOLAR (PAE) 2016.
Aured, M. L., & Pinilla, M. F. (2007). SEDCA. Obtenido de
http://www.nutricion.org/publicaciones/pdf/Guía AP-DietéticaWeb.pdf
BANCO MUNDIAL. (2008). La calidad de la educacion en Colombia : un análisis y algunas
opciones para un programa de política.
Bareño, M. I. (2015). Variables asociadas al desempeño escolar. Bogotá D.C.
Barrera, F., Maldonado, D., & Rodríguez., C. (2012). Calidad de la Educación Básica y Media
en Colombia : Diagnóstico y Propuestas.
Barrera, M. A. (2014). USO DE LA CORRELACIÓN DE SPEARMAN EN UN ESTUDIO DE
INTERVENCIÓN EN FISIOTERAPIA.
Cabrera, F. P. (2014). Desarrollo de un modelo basado en Machine Learning para la predicción
de la demanda de.
Carneiro, P. (2008). Equality of opportunity and educational achievement in Portugal.
Portuguese Economic Journal, 17-41.
Carrillo, M. V. (2018). UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO. Obtenido
de https://www.uaeh.edu.mx/scige/boletin/prepa4/n10/e5.html
104
Celis, M. T., Jiménez, Ó. A., & Jaramillo, J. F. (2015). ¿Cuál Es La Brecha De La Calidad
Educativa En Colombia En La Educación Básica Y En La Superior? Saber Investigar.
Constitución Política de Colombia. (1991). Constitución Política de Colombia. Artículo 67.
DANE. (2018). Manual de conceptos. Obtenido de
https://www.dane.gov.co/files/censo2018/informacion-tecnica/cnpv-2018-glosario.pdf
DANE. (2019). DANE. Obtenido de https://www.dane.gov.co/index.php/estadisticas-por-
tema/pobreza-y-condiciones-de-vida/pobreza-y-desigualdad/pobreza-monetaria-y-
multidimensional-en-colombia-2019
Duarte, J., & María Soledad Bos, M. M. (2009). Inequidad en los aprendizajes escolares en
América Latina.
El Congreso de Colombia. (2011). LEY 1450 DE 2011.
Gamboa, L. F. (2012). Análisis de la evolución de la igualdad de oportunidades en educación
media, en una perspectiva internacional. El caso de Colombia. Bogotá D.C.
ICFES. (18 de MARZO de 2010). DECRETO 869 DE 2010. Obtenido de
https://www.icfes.gov.co/documents/20143/166604/Proyecto+resolucion+inscripcion+sa
ber+11+-+version+publicacion.pdf/4b8d7afe-464a-cf71-18ac-aac6c778309e
ICFES. (2014). Clasificación de establecimientos y sedes. Bogotá D.C.
Iregui, A. M., Melo, L., & Ramos, J. (2007). Análisis de eficiencia de la educación en Colombia.
Jiménez, L. J., & Pinzón, A. R. (1998). Los insumos escolares en la educación secundaria y su
efecto sobre el rendimiento académico de los estudiantes: Un estudio en Colombia.
105
López, Á., Virgüez, A., Silva, C., & Sarmiento, J. (2017). Desigualdad de oportunidades en el
sistema de educación pública en Bogotá, Colombia. Bogotá D.C.
MEN. (2019). Plan Estratégico .
MinEducación. (s.f.). Catálogo de Textos Escolares: los Mejores Libros a los Mejores Precios.
Altablero. Obtenido de Catálogo de Textos Escolares: los Mejores Libros a los Mejores
Precios: https://www.mineducacion.gov.co/1621/article-87337.html
MINEDUCACIÓN. (s.f.). MINISTERIO DE EDUCACIÓN NACIONAL . Obtenido de
https://www.mineducacion.gov.co/1759/w3-article-349942.html?_noredirect=1
Ministerio de Educación Nacional. (2010). Decreto 869 de 2010.
Ministerio de Educación Nacional. (2020). Decreto 218 de 2020.
MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE. (2012). Estudio Internacional de
progreso en comprensión lectora, matemáticas y ciencias Volumen I : Informe en
español. Madrid.
Ministerio de Tecnologías de la Información y las Comunicaciones. (2021). Así conectarán los
Centros Digitales a estudiantes y ‘profes’ de 14.745 colegios públicos del país.
MINSALUD. (s.f.). Ministerio de Salud y Protección Social . Obtenido de
https://www.minsalud.gov.co/salud/publica/HS/Paginas/que-es-alimentacion-
saludable.aspx#:~:text=Para%20lograrlo%2C%20es%20necesario%20el,que%20tenemos
%20una%20alimentaci%C3%B3n%20saludable.
Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2012). Foundations of Machine Learning.
106
OECD. (2013). OECD. Obtenido de https://read.oecd-ilibrary.org/economics/oecd-economic-
surveys-colombia-2013_eco_surveys-col-2013-en#page1
OECD. (2019). PROGRAMME FOR INTERNATIONAL STUDENT ASSESSMENT (PISA)
RESULTS FROM PISA 2018 .
ORACLE. (s.f.). ORACLE. Obtenido de https://www.oracle.com/co/database/what-is-database/
Pedro R. Portes, S. S. (2014). El sueño demorado o por qué la educación multicultural no logra
cerrar la brecha educativa. Un análisis histórico-cultural.
Pineda, S. A., Bernal, J. A., & Páez, A. B. (2019). Factores académicos de incidencia en la
generación de desigualdades educativas en el colegio seminario San Juan Apóstol y el
Liceo Hermano Miguel La Salle desde los resultados de las pruebas saber 11 2015-2017.
Bogotá D.C.
Presidencia de La Republica de Colombia. (2015). DECRETO 1075 DE 2015.
Regional, Í. d. (s.f.). IDERE LATAM. Obtenido de http://www.iderelatam.com/
Rivera, J. D. (2010). Capitulo 3. La brecha de rendimiento académico de Barranquilla. En La
economía de Barranquilla a comienzos del siglo XXI (págs. 95-142). Barranquilla.
Rodrigo, J. A. (Febrero de 2017). Árboles de decisión, random forest, gradient boosting y C5.0.
Romero, C., Ventura, S., Pechenizkiy, M., & Baker, R. (2011). Handbook of Educational Data
Mining.
Sampieri, R. H., Collado, C. F., & Lucio, M. d. (1998). Metodologia de la investigacion.
México: McGraw-Hil.
107
Sarmiento, A., Becerra, L., & González, J. I. (2000). La incidencia del plantel en el logro
educativo del alumno y su relación con el nivel socioeconómico. Coyuntura Social, 53-
64.
Trujillo, N. R. (s.f.). Formación de hábitos de lectura en niños en edad escolar. Caracas.
top related