“francisco jose de caldas” - riud: página de...
TRANSCRIPT
UNIVERSIDAD DISTRITAL
“FRANCISCO JOSE DE CALDAS”
TRABAJO FINAL
ESPECIALIZACION EN PROYECTOS INFORMATICOS
PROTOTIPO DE PREDICCIÓN DEL DESEMPEÑO LABORAL APLICANDO TÉCNICAS
DE MINERÍA DE DATOS
Autores
Jose David Lima Charry
Hanson Javier Garzón Ruiz
Director
Roberto Pava
Bogotá 2017
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS ii
Resumen
La permanencia de un empleado en la empresa depende de muchos factores, el clima laboral, sus
metas personales, lo cómodo que se sienta con las funciones que desempeña, las proyecciones de
ascensos dentro de la organización, entre otros. Sin embargo, analizar y controlar todos estos
factores para garantizar la retención del talento humano y garantizar que sus capacidades son
aprovechadas en los cargos correctos no es una tarea sencilla.
Toda organización, por pequeña que sea, cuenta con información relevante sobre cada uno de sus
colaboradores, así como de los aspirantes a las vacantes de la empresa que en algún momento
han pasado por el proceso de selección; datos como su información personal, familiar, historial
laboral y académico, así como con datos sobre sus aptitudes, destrezas y hábitos. Pero las
pequeñas empresas en general desconocen el potencial que esta información puede albergar.
La minería de datos, con técnicas de clasificación y predicción, puede ser usada para analizar
información, extraer conocimiento y modelos de predicción de tendencias futuras de los datos,
entre las técnicas más utilizadas se encuentran: los árboles de decisión, las redes neuronales, los
métodos bayesianos, algoritmos genéticos y la lógica difusa.
Este trabajo pretende emplear la técnica de árboles de decisión y diseñar un modelo que utilice
los datos que la empresa SFC Pack S.A.S. ha almacenado en sus procesos de gestión del talento
humano, y con la ayuda de las técnicas mencionadas, permita anticipar el desempeño laboral de
un aspirante al cargo de mayor rotación dentro de la compañía, su adherencia y permanencia en
el mismo y sus probabilidades de éxito en el desempeño de determinadas funciones.
Palabras clave: Gestión del talento humano, Predicción del desempeño laboral, Minería
de datos, Técnicas de clasificación de datos, Algoritmos basados en reglas, Árboles de decisión,
Redes bayesianas, Redes neuronales, Lógica difusa.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS iii
Abstract
The permanence of an employee in the company depends on many factors, the work climate,
his/her personal goals, how comfortable he/she feels with the functions he/she performs,
projections of promotions within the organization, among others. However, analyzing and
controlling all these factors to ensure retention of human talent and ensuring that their
capabilities are tapped into the right jobs is not an easy task.
Every organization, however small, has relevant information about each one of its collaborators,
as well as those aspiring to the vacancies of the company that at some point have gone through
the selection process; data such as their personal information, family, work and academic history,
as well as information about their skills, abilities and habits. But small businesses in general are
unaware of the potential that this information can hold.
Data mining, through its classification and prediction techniques, can be used to analyze
information, extract knowledge and prediction models of future data trends, among the most
used techniques are: decision trees, neural networks, Bayesian methods, genetic algorithms and
fuzzy logic.
This work intends to use the decision trees technique to design a model that uses the data that the
company SFC Pack S.A.S. has stored in its human talent management processes, and with the
help of the mentioned techniques, allows to anticipate the work performance of an aspirant to the
position of higher staff turnover within the company, his/her adherence and permanence in the
company and his/her probability of success in the execution of certain functions.
Keywords: Talent management, prediction of job performance, data mining, data
classification techniques, rule-based algorithms, decision trees, Bayesian networks, neural
networks, fuzzy logic.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS iv
Agradecimientos
A nuestras familias, que con su sacrificio y amor nos dan la fuerza para afrontar nuevos
retos y se convierten en la base de nuestra formación.
A nuestros compañeros y docentes que comparten su conocimiento y experiencias sin
esperar nada a cambio y nos permiten dar este importante paso en nuestro proceso académico
hacia la consolidación de nuestros proyectos de vida.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS v
Tabla de contenido
Introducción .................................................................................................................................... 1
Capítulo 1 Descripción de la Investigación .................................................................................... 3
Identificación del problema ........................................................................................................ 3
Objetivos .................................................................................................................................... 5
Objetivo general ......................................................................................................................... 5
Objetivos específicos ................................................................................................................. 5
Justificación ................................................................................................................................ 6
Hipótesis ..................................................................................................................................... 7
Metodología ............................................................................................................................... 7
Levantamiento de información. ............................................................................................... 7
Diseño. ..................................................................................................................................... 7
Desarrollo y evaluación del prototipo. ..................................................................................... 7
Organización del trabajo ............................................................................................................ 8
Capítulo 2 Marco Teórico ............................................................................................................... 9
Conceptos básicos sobre Gestión de Personal ........................................................................... 9
La Minería de Datos como apoyo a la Selección de Personal ................................................. 12
Contextualización. ................................................................................................................. 12
Técnicas de minería. .............................................................................................................. 13
Metodologías de Minería de datos. ........................................................................................ 18
Capítulo 3 Recolección y Preparación de Datos ........................................................................... 30
Fase 1 Comprensión del negocio ............................................................................................. 30
Contexto. ................................................................................................................................ 30
Objetivos del negocio y criterios de éxito. ............................................................................ 40
Inventario de recursos. ........................................................................................................... 40
Requerimientos, presunciones y restricciones. ...................................................................... 41
Riesgos y contingencias. ........................................................................................................ 43
Terminología. ......................................................................................................................... 45
Costos y beneficios. ............................................................................................................... 46
Objetivos de la Minería de Datos. ......................................................................................... 48
Criterios de éxito de la minería de datos. .............................................................................. 48
Plan del proyecto. .................................................................................................................. 49
Evaluación inicial de herramientas y técnicas. ...................................................................... 51
Fase 2 Comprensión de los Datos ............................................................................................ 53
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS vi
Recolección de datos iniciales. .............................................................................................. 53
Descripción de los datos. ....................................................................................................... 54
Informe de Colección de Datos Iniciales. .............................................................................. 58
Contexto. ................................................................................................................................ 58
Criterios de Selección. ........................................................................................................... 58
Verificación de la calidad de los datos. ................................................................................. 61
Fase 3 Preparación de los Datos ............................................................................................... 62
Selección de datos. ................................................................................................................. 62
Análisis Inclusión/Exclusión de Datos. ................................................................................. 63
Limpieza de datos. ................................................................................................................. 67
Construcción de datos. ........................................................................................................... 67
Integración de datos. .............................................................................................................. 69
Formateo de datos. ................................................................................................................. 73
Capítulo 4 Diseño del Prototipo .................................................................................................... 75
Fase 4 Modelado ...................................................................................................................... 75
Selección de la técnica de modelado. .................................................................................... 75
Generación de la prueba de diseño. ....................................................................................... 80
Construcción del prototipo. ................................................................................................... 86
Evaluación del prototipo. ....................................................................................................... 90
Capítulo 5 Ejecución y Análisis de Resultados ............................................................................ 99
Fase 5 Evaluación .................................................................................................................... 99
Evaluación de resultados sobre datos iniciales. ..................................................................... 99
Fase 6 Desarrollo .................................................................................................................... 100
Conclusiones ............................................................................................................................... 101
Bibliografía ................................................................................................................................. 102
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS vii
Tabla de Figuras
Figura 1. Composición básica del modelo CRISP DM ................................................................ 23
Figura 2. Fase de Comprensión del negocio del modelo CRISP DM .......................................... 24
Figura 3. Fase de Compresión de datos del modelo CRISP DM .................................................. 25
Figura 4. Fase de Preparación de datos del modelo CRISP DM .................................................. 26
Figura 5. Fase de Modelado del modelo CRISP DM ................................................................... 27
Figura 6. Fase de Evaluación del modelo CRISP DM .................................................................. 28
Figura 7. Fase de Desarrollo del modelo CRISP DM ................................................................... 29
Figura 8. Modelo de Negocio Canvas SFC Pack S.A.S. .............................................................. 30
Figura 9. Organigrama SFC Pack S.A.S. ...................................................................................... 32
Figura 10. Proyectos Estratégicos SFC Pack S.A.S. 2017............................................................ 33
Figura 11. Manual de Funciones y Responsabilidades de Servicio Técnico ................................ 34
Figura 12. Manual de Funciones y Responsabilidades Asistente de Ensamble Eléctrico ............ 37
Figura 13. Modelo Relacional Prototipo ....................................................................................... 53
Figura 14. Consulta SQL Tabla Consolidada Criterios de Selección ........................................... 68
Figura 15. Tabla Consolidada Criterios de Selección ................................................................... 69
Figura 16. Parámetros de exportación a CSV ............................................................................... 70
Figura 17. Cargue de archivo CSV a Weka .................................................................................. 71
Figura 18. Selección de Criterio Principal de Clasificación ......................................................... 72
Figura 19. Filtro para Conversión a Valores Discretos ................................................................. 73
Figura 20. Comparativa Edad en Valores Continuos y Discretos ................................................ 74
Figura 21. Resultados algoritmo DecisionStump ......................................................................... 80
Figura 22. Resultados algoritmo HoeffdingTree .......................................................................... 81
Figura 23. Resultados algoritmo J48 ............................................................................................ 82
Figura 24. Resultados algoritmo LMT.......................................................................................... 83
Figura 25. Resultados algoritmo RandomTree ............................................................................. 84
Figura 26. Árbol de decisión y resultado generado para el prototipo ........................................... 86
Figura 27. Dispersión en variable Edad ........................................................................................ 90
Figura 28. Dispersión en variable Mayor Permanencia en un Cargo ........................................... 91
Figura 29. Dispersión en variable Test Personalidad.................................................................... 92
Figura 30. Dispersión en variable Test Razonamiento ................................................................. 93
Figura 31. Dispersión en variable Personas a cargo ..................................................................... 94
Figura 32. Perfil DISC Especialista .............................................................................................. 96
Figura 33. Perfil DISC Agente...................................................................................................... 97
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS viii
Figura 34. Perfil DISC Persuasivo ................................................................................................ 97
Figura 35. Perfil DISC Profesional ............................................................................................... 98
Figura 36. Perfil DISC Perfeccionista .......................................................................................... 98
Figura 37. Validación del modelo de predicción contra los datos iniciales.................................. 99
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS ix
Índice de Tablas
Tabla 1. Técnicas de Minería de Datos aplicables para Selección de Personal. ........................... 15
Tabla 2. Metodologías más utilizadas para Minería de Datos. ..................................................... 19
Tabla 3. Comparación de Metodologías. ...................................................................................... 21
Tabla 4. Requerimientos, presunciones y restricciones. ............................................................... 41
Tabla 5. Riesgos y contingencias. ................................................................................................. 43
Tabla 6. Terminología. .................................................................................................................. 45
Tabla 7. Costos por Servicios Profesionales. ................................................................................ 46
Tabla 8. Compra y adquisición de equipos y herramientas. ......................................................... 46
Tabla 9. Costos Generales............................................................................................................. 46
Tabla 10. Costos Consolidados. .................................................................................................... 47
Tabla 11. Costo-Beneficio. ........................................................................................................... 47
Tabla 12. Plan del proyecto con Recursos Entradas y Salidas ..................................................... 49
Tabla 13. Diccionario de datos. .................................................................................................... 55
Tabla 14. Criterios de Selección ................................................................................................... 59
Tabla 15. Análisis Inclusión/Exclusión de Datos ......................................................................... 63
Tabla 16. Técnicas de modelado para árboles de decisión ........................................................... 75
Tabla 17. Comparativa Algoritmos Árboles de Decisión ............................................................. 85
Tabla 18. Modelo de decisión inicial para el Prototipo ................................................................ 89
Tabla 19. Modelo de decisión final para el Prototipo ................................................................... 95
Tabla 20. Resultados validación modelo contra datos iniciales ................................................. 100
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 1
Introducción
El concepto del ser humano como recurso dentro de una organización ha evolucionado,
las personas ya no son vistas como un componente de fácil sustitución dentro del proceso
productivo. La automatización de procesos viene relegando las tareas operativas a las máquinas y
sistemas de información y el ser humano toma valor en una organización por sus habilidades
blandas, experiencias, personalidad y motivaciones.
Lo anterior aumenta la complejidad en la gestión del talento humano involucrando
múltiples variables y procesos: Las directrices del Sistema de Gestión en Seguridad y Salud en el
Trabajo (SG-SST), los procesos de selección y contratación, los de evaluación de desempeño y
capacitaciones, los procesos disciplinarios, y otros como solicitud de vacaciones, licencias,
certificaciones, préstamos, etc.
Las micro y pequeñas empresas no cuentan habitualmente con la experiencia ni las
personas necesarias para garantizar la gestión efectiva del talento humano. Algunas empresas
logran invertir en sistemas integrados de gestión, pero su alcance se limita a la liquidación de
nómina y otros procesos con implicaciones contables, olvidando la dimensión humana de la
administración del talento.
Como consecuencia de un presupuesto limitado, no es posible implementar un Sistema de
Información dedicado a la gestión del talento humano, sin embargo, la rotación de personal y los
colaboradores con bajo desempeño y poco compromiso con los objetivos del negocio impactan
negativamente los limitados recursos de las micro y pequeñas empresas.
En medio de los rudimentarios procesos de gestión de talento humano en la pequeña
empresa, se capturan datos que ocultan un potencial valor, el conocimiento sobre el posible
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 2
desempeño de sus colaboradores o aspirantes a los cargos, funciones y marco de cultura de la
organización.
De ser posible construir una herramienta que soporte la toma de decisiones en materia de
selección y/o promoción interna, y la masificación de su uso en las pequeñas empresas, sería de
gran valor para las mismas, impactando en gran medida su productividad como consecuencia del
máximo aprovechamiento del talento humano.
La minería de datos cumple con el mencionado propósito de extraer el conocimiento
contenido en los datos dispersos con los que cuenta una organización, es por ello que aquí se
pretende explorar diferentes técnicas de clasificación y predicción en minería de datos para llegar
a un prototipo que permita anticipar el desempeño laboral de un aspirante a un cargo y su
permanencia en el mismo dentro de la empresa SFC Pack S.A.S.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 3
Capítulo 1
Descripción de la Investigación
Identificación del problema
El capital humano es sin duda aquel que agrega mayor valor a las organizaciones, y esto
resulta más visible en las pequeñas empresas, las cuales por lo general cuentan con procesos
definidos informalmente o sin documentar; es por esta razón que los colaboradores con más
permanencia en las empresas se convierten en las piedras angulares de las mismas.
Las pequeñas empresas tienen inconvenientes en sus procesos de gestión del talento
humano, en la mayoría de los casos pobres o inexistentes, como consecuencia, toman decisiones
de selección, contratación y promoción interna de manera instintiva o basándose en
percepciones.
Pocas organizaciones analizan los costos asociados a las malas decisiones en la gestión
del talento humano, una alta rotación de personal conlleva a un aumento en el número de
procesos de selección, los cuales tienen asociadas otras variables como el costo de publicar
anuncios de vacantes, el tiempo del gerente o directivo durante las entrevistas, el salario del
asistente que lleva el proceso, así como los costos de exámenes médicos, afiliaciones y demás
gastos de contratación; sin hablar del costo del proceso de capacitación y el tiempo empleado por
quienes realizan el mismo.
En el desarrollo de las actividades de gestión del talento humano, se recopila un gran
volumen de datos que contiene información valiosa acerca de la probabilidad de éxito de una
persona en un cargo específico, es el caso de las hojas de vida, entrevistas a aspirantes, pruebas
técnicas y psicotécnicas, informes de ausentismo, evaluaciones de desempeño, encuestas de
clima laboral, y respuestas a diligencias de descargos en procesos disciplinarios.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 4
El uso de la minería de datos y sus técnicas de clasificación, se han convertido en un
estándar para descubrir información oculta a partir de grandes volúmenes de datos, y podría ser
usada por las pequeñas empresas para construir modelos predictivos a partir de los datos
recopilados en los procesos de gestión del talento humano. Los árboles de decisión,
clasificadores bayesianos, redes neuronales y la lógica difusa pueden convertirse en herramientas
de gran valor para los procesos de gestión humana.
Ante este escenario, surge la siguiente pregunta problema:
¿Cómo prever el desempeño laboral de un colaborador basado en su información
histórica, usando técnicas de minería de datos, para tomar las mejores decisiones durante los
procesos de selección y/o promoción interna en las organizaciones?
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 5
Objetivos
De acuerdo con el planteamiento del problema se establecen los siguientes objetivos:
Objetivo general
Diseñar un prototipo predictivo del desempeño laboral, basado en datos obtenidos en el
proceso de selección, con el apoyo de técnicas de clasificación de minería de datos, y probarlo
como un soporte a la toma de decisiones durante los procesos de selección para un cargo de alta
rotación en la empresa SFC Pack S.A.S.
Objetivos específicos
• Identificar la información obtenida en los procesos de gestión del talento humano,
susceptibles a ser utilizados por las técnicas de minería de datos.
• Comparar metodologías para el desarrollo de proyectos de minería de datos,
seleccionando la que más se ajuste a las necesidades del presente proyecto.
• Comparar las principales técnicas de clasificación de minería de datos que más se ajusten
a las necesidades de la predicción del desempeño en el talento humano.
• Consolidar los datos, las reglas y las técnicas analizadas en un prototipo predictivo de
desempeño laboral basado en minería de datos.
• Realizar una evaluación del prototipo predictivo analizando los resultados para la
empresa sobre la cual se tomaron los datos iniciales.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 6
Justificación
Esta investigación tiene una aplicación práctica directa en los procesos de gestión del
talento humano de toda organización, haciendo particular énfasis en las micro y pequeñas
empresas, siendo estas quienes no cuentan con sofisticadas áreas, procesos y profesionales en la
gestión humana.
Al contar con un prototipo de predicción del desempeño laboral de un colaborador,
tomando como base información básica como la edad, estado civil, formación académica,
experiencia laboral, resultados de pruebas psicométricas, pruebas técnicas, etc., se garantiza que
el prototipo será aplicable a las MiPymes que, sin importar su tamaño, cuentan con esta
información como base para el uso del prototipo.
El impacto positivo de esta investigación se verá reflejado en bajos índices de rotación de
personal, altos índices de desempeño laboral y mejores resultados en encuestas de clima
organizacional en las empresas que encuentren aplicable el prototipo de predicción resultado de
este trabajo.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 7
Hipótesis
Para el presente proyecto de investigación se plantea la siguiente hipótesis:
“El crear un prototipo predictivo del desempeño laboral de un colaborador basado en
datos históricos y minería de datos, puede producir un gran impacto en la productividad de la
pequeña empresa y en el desarrollo de los objetivos empresariales”
Metodología
A continuación, se describen cada una de las técnicas metodológicas que se utilizaran
para el desarrollo de este proyecto.
Levantamiento de información. Este proyecto tomará como base la información
recopilada en el área de Talento Humano de la empresa SFC Pack S.A.S. Se extraerá
información de las hojas de vida de los aspirantes al cargo de Asistente de Servicio Técnico, la
información capturada durante las entrevistas a estos aspirantes, así como las pruebas de
conocimiento, razonamiento y personalidad presentadas por los mismos.
Diseño. En el diseño del prototipo se realizará en primer lugar, una comparación de
distintas técnicas de Minería de Datos, mostrando a los Árboles de Decisión como los favoritos
para esta aplicación, también se compararán tres metodologías para el proceso de Minería de
Datos: SEMMA, Catalyst y CRISP-DM, seleccionando la última para el desarrollo del presente
proyecto.
Desarrollo y evaluación del prototipo. Siguiendo la metodología CRISP-DM, se
llevarán a cabo cada una de sus seis fases: Comprensión del Negocio, Comprensión de los datos,
Preparación de los datos, Modelado, Evaluación e Implantación
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 8
Organización del trabajo
El plan de trabajo de este proyecto se describe a continuación:
PARTE I FUNDAMENTACIÓN DE LA INVESTIGACIÓN
CAPÍTULO 1 - Descripción del Proyecto de Investigación
Este capítulo presenta la fundamentación del presente proyecto de investigación, y los
objetivos de la misma.
PARTE II DESARROLLO DE LA INVESTIGACIÓN
CAPÍTULO 2 - Marco teórico
Este capítulo presenta el estado del arte, el marco teórico y las investigaciones
relacionadas.
CAPÍTULO 3 - Recolección y Preparación de Datos
Este capítulo abarca la comprensión del negocio, la identificación de datos y variables, en
el contexto específico de la empresa analizada, la recopilación de datos y la normalización de los
mismos, para su posterior procesamiento.
CAPÍTULO 4 - Diseño del Prototipo
Este capítulo abarca el análisis y selección de algoritmos de clasificación de minería de
datos, la construcción del prototipo de clasificación y el descubrimiento de patrones.
PARTE III CIERRE DE LA INVESTIGACIÓN
CAPÍTULO 5 - Ejecución del Prototipo y Análisis de Resultados
Este capítulo presenta la aplicación del prototipo sobre los datos, la generación y análisis
de reportes y la comparación con informe de los encargados de Talento Humano.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 9
Capítulo 2
Marco Teórico
En la base teórica del actual proyecto se establecen los siguientes tópicos que componen
la estructura de la investigación desarrollada.
Conceptos básicos sobre Gestión de Personal
Con respecto a la administración del recurso humano, (Dessler, 2001) nos indica que se
cumplen cinco funciones básicas: planear, organizar, proveer de personal, dirigir y controlar, que
muestran el proceso de la administración de personal y que cada una representa lo siguiente:
1. Planificar, se refiere a establecer metas y normas para el futuro de la empresa.
2. Organizar, significa implementar la estructura de trabajo, de jurisdicción y de
comunicaciones, así como dar disposiciones a los empleados.
3. Proveer de personal, consiste en determinar qué tipo de empleados se requieren,
seleccionarlos, establecer políticas de desempeño y evaluarlos, dar compensaciones,
asesoramiento, capacitación y desarrollo.
4. Dirigir, es comprobar que el personal cumpla con su trabajo, conservar la moral y
motivación.
5. Controlar, significa establecer estándares, evaluarlos y establecer formas de mejora en
la contratación.
Es por ello que (Siliceo Aguilar, 2006) indica que la administración de personal debe
“comprender y coordinar” las siguientes funciones: Reclutamiento, Selección, Introducción o
Inducción, inventario de los recursos humanos, evaluación del potencial y desempeño,
entrenamiento o capacitación y planeación de vida y carrera; estas características tienen relación
con el tema ya manejado de administración de recursos humanos, que pone especial énfasis en
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 10
que el objetivo es lograr un sistema efectivo de equilibrio y planeación de vida y carrera, que a
su vez representa tener la disponibilidad en número de personal, un adecuado perfilamiento y
cultura organizacional.
Es evidente que en ambos casos, dentro de la administración de personal los componentes
de reclutamiento y selección o dotación de personal, son significativos argumentos para las bases
del proceso de gestión de los Recursos Humanos, y como explica (Chiavenato, 2007), hay dos
maneras de estudiar la administración de recursos humanos, la primera comprende todos
aquellos factores que describen la personalidad, aspiraciones y valores entre otras, y en la
segunda analizados como recursos, en donde se encuentran habilidades, capacidades, destrezas y
conocimientos; en los dos casos es relevante cada aspecto analizado, su estudio comprende la
base de la teoría de las organizaciones acerca del recurso humano; la selección de personal es
clave para alcanzar los objetivos estratégicos de la empresa, pero a su vez, las personas tienen
metas individuales y se valen de las organizaciones para alcanzarlas, la relación existente entre la
persona y la organización puede ser orientada en un gana-gana, cooperando y a buen término,
pero también puede ser tensa y conflictiva.
Claramente el objeto de estudio por los autores es el candidato, y se distinguen dos tipos:
candidatos reales, que son aquellos que buscan oportunidades de ubicación en la organización o
algún tipo de beneficio, y los candidatos potenciales, que son quienes tienen la capacitación para
llenar las vacantes en forma satisfactoria por su perfil, pero que no necesariamente están
buscando el beneficio de ser ascendidos.
Teniendo en cuenta los dos tipos de candidatos de los cuales son válidos ambos casos, la
selección de personal comprende el proceso mediante el cual podemos darle viabilidad a un
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 11
perfil determinado que se adapte a las necesidades que busca la organización por sus
características personales, aptitudes, motivación, etc., (Nebot Lopez, 1999)
Es por ello que se debe iniciar con el reclutamiento y selección, al respecto (Nebot
Lopez, 1999) muestra que la selección de personal es diferente al reclutamiento, ya que el
reclutamiento no sigue un proceso determinado, y que su función es buscar un perfil idóneo para
un puesto determinado considerando el entorno en el cual se va a desenvolver como trabajador
de la empresa.
Atraer candidatos potenciales del mercado laboral es el objetivo del reclutamiento, tal
como indica (Chiavenato, 2007) “es un conjunto de procedimientos orientados a atraer
candidatos potenciales calificados y capaces a ocupar cargos dentro de la organización”, a
diferencia de la selección de personal en donde se enfocan los esfuerzos para elegir un grupo de
candidatos para posteriormente determinar quien cumple el mejor perfil establecido con el
objetivo de suplir esa vacante.
Para el presente trabajo contemplamos la etapa de selección de personal en donde se
determina los potenciales candidatos que cumplen con un perfil prestablecido, comprendiendo
que ya se ha realizado una etapa de reclutamiento.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 12
La Minería de Datos como apoyo a la Selección de Personal
Contextualización. En lo que respecta de la minería de datos, los datos son el elemento
básico, tal como lo indica (Davenport & Prusak, 2000), “Son la mínima unidad semántica, y se
corresponden con elementos primarios de información que por sí solos son irrelevantes como
apoyo a la toma de decisiones”.
En el apoyo del concepto de dato también se puede citar dos autores que dan soporte en
la definición de la Minería de Datos, dado por (Connolly, 2005) que la define como “el proceso
de extraer información válida, previamente desconocida, comprensible y útil de bases de datos
de gran tamaño y utilizar dicha información para tomar decisiones de negocios cruciales”.
La novedad de este trabajo se pone en tela de juicio, como dice (Kantardzic, 2011) en
cuanto a que los investigadores científicos se han enfocado en la extracción de datos para
obtener información relevante del análisis, la novedad radica en que al aproximarse varios de
estos estudios y análisis y al ir creciendo los datos contenidos en estos, dan suficientes insumos a
la Minería de Datos para proveer en los aspectos científicos y comerciales, mientras que
(Strohmeier & Piazza, 2013), establecen que la Minería de Datos no inicio en el campo de los
Recursos Humanos, es por ello que los aportes en este campo contribuyen a nuevos hallazgos en
la gestión de recursos humanos y la selección de personal más específicamente; para estos
campos de acción corresponde citar la selección de personal, rotación de empleados, jerarquía de
personal, determinación de competencias, planificación de la carrera, costos de recursos
humanos, indemnizaciones, compensaciones y evaluación del desempeño, es decir, abarcando así
todos los temas que atañen a los recursos humanos; en cuanto a la adecuada selección de
personal los autores, (Sivaram, 2010) expresan que en este aspecto el mantenimiento del
personal es fundamental, en donde empresas dedicadas al sector tecnológico contratan
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 13
profesionales recién graduados en convenios con universidades aplicando herramientas de
selección como pruebas, entrevistas, etc., el esfuerzo por parte de las organizaciones para llevar a
cabo este proceso de selección es arduo en donde el establecimiento de patrones es complicado
de aislar. Es por ello que, dados los inconvenientes y nivel de complejidad en los procesos de
selección, se puede concluir que la minería de datos es un vehículo propicio para apoyar dichos
procesos y aumentar la efectividad en los mismos.
Dada la versatilidad de aplicación de la Minería de Datos en el campo de la Gestión de
Recursos Humanos, podemos concluir que según los requerimientos que tenga esta se pueden
aplicar diferentes técnicas que garanticen en un futuro un mejoramiento continuo en el
desempeño de la fuerza laboral de las organizaciones, reduciendo así rubros que se destinan para
las largas y costosas jornadas de selección en donde se ha demostrado según (Sivaram, 2010) que
existe una brecha de 1 a 20 entre los candidatos entrevistados y los seleccionados obligando a las
empresas a gastar presupuesto que se podría ahorrar con técnicas de Minería de Datos.
Aprovechando las técnicas tradicionales que han demostrado cierto grado de efectividad
en la aplicación de patrones, se podrían reutilizar fortaleciendo los modelos innovadores que
aplica la Minería de Datos para ahorrar como ya lo comentamos tiempo y dinero, en los procesos
de selección, sin dejar a un lado las técnicas tradicionales que hasta el momento son las
herramientas que la mayoría de las empresas encuentran aplicables en la actualidad.
Técnicas de minería. Como se evidenció en el apartado anterior las técnicas de Minería
de Datos pueden ser utilizadas para reclutamiento de personal, citando a (Strohmeier & Piazza,
2013) establecen que las técnicas que mejor apoyan las funciones de selección son los árboles de
decisión, el análisis de conglomerados, el análisis de asociación, las máquinas de vectores y las
redes neuronales, el planteamiento de (Sivaram, 2010) explica que los árboles de decisión,
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 14
máquinas de soportes de vectores y redes neuronales son viables y además el nivel en la
investigación de nuevas variantes y solución para el campo de los Recursos Humanos cobra cada
vez más importancia.
Las técnicas anteriormente enunciadas funcionan de manera similar ya que filtran la
información con el objetivo de sacar datos relevantes para la selección de personal; en la
siguiente tabla se explican las técnicas de Minería de Datos que son aplicables a los Recursos
Humanos:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 15
Tabla 1. Técnicas de Minería de Datos aplicables para Selección de Personal.
Técnica Descripción
Arboles de Decisión Organizan los datos en base a una decisión inicial tomando en cuenta la
influencia que debe tener cada rama, son sistemas relativamente simples
de manejar, pero tienen poco campo de complejidad para tareas en las
que se requiere más detalle; muchos de los procesos de recursos
humanos requieren el enfoque selectivo, en donde los árboles de
decisión están directamente relacionados a este tipo de enfoque.
Análisis de
Conglomerados
(Clustering)
Es el agrupamiento de datos para poder identificar tipologías o grupos
en donde existen datos similares, en los cuales se requiere diferenciar de
otros datos existentes, de forma de obtener datos filtrados para conseguir
información sobre lo que se demanda conocer, utilizando herramientas
estadísticas, algoritmos matemáticos u otras para el tratamiento de los
datos; además, de acuerdo a López y González (2007) el utilizar
conglomerados disminuye la precisión por el hecho de que al ser datos
agrupados necesariamente tendrán cierta homogeneidad, por lo que
resulta útil cuando las poblaciones de conglomerados son muy
numerosas, lo que en caso de selección de personal se puede utilizar si
se tiene grandes bases de datos.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 16
Análisis de
Asociación
Se utilizan para analizar relaciones entre sucesos que aparentemente no
están relacionados, pero que en realidad corresponden a eventos que
pueden generar nuevos eventos y que si tengan relación; se utilizan para
realizar análisis exploratorios que conlleven a predecir comportamientos
futuros de eventos, una de los algoritmos utilizados para asociación es el
algoritmo a-priori.
Este tipo de exploración es utilizable dentro de selección de personal, ya
que el procedimiento de selección utiliza normalmente una serie de
sucesos, que adecuadamente orientado para su uso con análisis de
asociaciones pueden generar nueva información.
Apoyo a las
máquinas de
vectores
Las máquinas de vectores dividen los datos de entrada en varios
subconjuntos o vectores, luego de lo cual a medida que siguen
procesando estos datos, los vectores iniciales se van alineando hasta
definir los vectores finales que clasifican al resto de la información. Esta
técnica tiene el inconveniente de no ser muy adecuado para grandes
volúmenes de información a pesar de la buena capacidad de generalizar
y clasificar los datos. Por este motivo, se puede aplicar a procesos de
selección de personal que no contenga datos extensos, pero si con cierto
nivel de complejidad.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 17
Redes neuronales Esta técnica se suele utilizar para descubrir categorías comunes en los
datos, tiene capacidad para detectar y aprender patrones más complejos
y, sobre todo, puede trabajar con datos incompletos; debido a esta
característica, y ya que muchas veces la información utilizada para
selección de personal está incompleta, su uso puede ser útil para esta
tarea.
Fuente: (Strohmeier & Piazza, 2013)
Selección de la Técnica de Minería. Para realizar una correcta elección en la técnica de
minería de datos, es necesario comprender que el tipo de dato que nos arroja el análisis de
selección de personal, no es totalmente numérico. Es por ello que se deben tener este tipo de
consideraciones para su posterior conversión a datos numéricos; los autores, (Strohmeier &
Piazza, 2013) establecen que las principales categorías de técnicas de búsqueda utilizados para
la gestión del talento humano, fueron los árboles de decisión y análisis de conglomerados y,
luego de sus mediciones (casos de variable n), con un resultado en donde las técnicas empleadas
menos frecuentes eran la regresión (n = 3), la regresión logística (n = 4), análisis discriminante (n
= 4), conjunto aproximado (n = 10), análisis de grupos (n = 11), el análisis de asociación (n =
11), máquinas de vectores soporte (n = 15), redes neuronales (n = 27), y árboles de decisión (n =
28) entre la más usada.
Como resultado tenemos que los árboles de decisión es la técnica que más se utiliza,
citando a (Sivaram, 2010), Se observa que los árboles de decisión tienen un enfoque simplista en
términos de analizar datos que no eran visibles, además de que la interpretación de los datos es
sencilla, comprender para comparar información y tomar decisiones, los árboles de decisión en
conclusión se orientan a la búsqueda selectiva de información no visible, orientado a la gestión
del Recurso Humano, que es el corte fundamental de este trabajo.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 18
Metodologías de Minería de datos. Una vez elegida la técnica de árboles de decisión, el
siguiente paso es elegir la Metodología a utilizarse; citando a (Moine Gordillo, 2011), los autores
hacen especial énfasis en que el objetivo de la Minería de Datos es la extracción de patrones,
empleando métodos como árboles de decisión, análisis de conglomerados y reglas de asociación,
sin profundizar en temas de metodología para llegar al conocimiento, para que el orden de la
investigación tenga un norte, por el contrario (Thomas M, 2005) establecen la prioridad en
desarrollar una “técnica sistemática”, haciendo especial énfasis en la importancia de llevar una
metodología para obtener óptimos resultados.
El autor, (Moine Gordillo, 2011) realizan un compendio en donde desarrollan las
siguientes metodologías:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 19
Tabla 2. Metodologías más utilizadas para Minería de Datos.
Técnica Descripción
SEMMA Creada por el SAS Institute, se define como “el proceso de selección,
exploración y modelado de grandes volúmenes de datos para descubrir
patrones de negocio desconocidos”.
Su nombre se basa en las fases básicas: Sample (Muestreo) Explore
(Exploración), Modify (Modificación), Model (Modelado) y Assess
(Valoración) y promueve una guía general del trabajo a realizar, ya que se
encuentra enfocada en aspectos técnicos, pero excluye el análisis y
comprensión del problema que se está abordando.
Catalyst De acuerdo a Moine (2013), Catalyst es una metodología que recomienda
revisar primero la problemática antes de iniciar el trabajo con los datos, y en
los casos que no se tenga un problema bien definido, iniciar utilizando P3TQ
(Product, Place, Price, Time, Quantity) que plantea la formulación de dos
modelos: El Modelo de Negocio y el Modelo de Minería de Datos. El primero
proporciona una guía para identificar un problema de negocio y los
requerimientos reales de la Organización, mientras el segundo proporciona una
guía de pasos para la construcción y ejecución de modelos de minería de datos.
En sus dos modelos, está compuesta por una serie de pasos llamados “boxes”,
luego de una acción, se evalúan los resultados y se determina el próximo paso
(box) a seguir, lo que permite una flexibilidad muy grande y una amplia
variedad de caminos posibles.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 20
CRISP-DM Acrónimo de “Cross-Industry Standard Process for Data Mining”, es la
metodología más utilizada actualmente en proyectos de Minería de Datos.
Creada por el grupo de empresas SPSS, NCR y Daimler Chrysler en el año
2000, profundiza en mayor detalle ya que estructura el proceso en seis fases:
Comprensión del Negocio, Comprensión de los datos, Preparación de los
datos, Modelado, Evaluación e Implantación. Cada fase no es rígida y se
descompone en varias tareas generales de segundo nivel.
Las tareas generales se proyectan a su vez en tareas específicas, pero no se
propone como realizarlas.
Fuente: (Moine Gordillo, 2011)
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 21
Selección de la Metodología. En la siguiente tabla de contraste se procede a comparar las
metodologías:
Tabla 3. Comparación de Metodologías.
Técnica Descripción
SEMMA vs.
Catalyst
Catalyst presenta una guía o primer modelo para identificar un problema de
negocio y los requerimientos reales de la organización, mientras que SEMMA
carece de un análisis del problema.
SEMMA presenta un buen análisis de aspectos técnicos, mientras que Catalyst
en forma similar, tiene un segundo modelo que desarrolla la solución en el
aspecto técnico.
SEMMA vs.
CRIPS-DM
SEMMA solo se afianza en aspectos técnicos ya que en su orientación se
asume que va directamente a resolver un problema preestablecido (orientado
solo al desarrollo del proceso), mientras que CRISP-DM da mucha
importancia a la situación de la empresa y presenta un análisis completo
adaptable a la realidad de cualquier empresa (orientado a los objetivos
empresariales)
En la parte técnica, ambas metodologías tienen similitudes: El muestreo,
exploración y manipulación de datos de SEMMA se corresponden a las fases
de Análisis y Preparación de datos de CRISP-DM, mientras que ambas tienen
las fases de Modelado y Evaluación; pero CRISP-DM además tiene la fase
inicial de Análisis del Problema y la fase final de Resultados (ambos
relacionados a los objetivos de la empresa, orientado a la gestión por
procesos).
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 22
Catalyst vs.
CRISP-DM
Catalyst estructura en “boxes” el proceso de creación, que le da un proceso de
desarrollo con múltiples opciones con dos modelos, el primero analiza el
problema y el segundo desarrolla la solución, mientras que CRISP-DM es un
proceso continuo y progresivo en donde se analiza todo el proceso de creación
relacionado a la empresa.
Si bien ambas metodologías cubren los aspectos del problema desde el punto
de vista de la empresa y el desarrollo de la solución, CRISP-DM ha sido más
utilizado por empresas que trabajan continuamente en proyectos de Minería de
Datos y es el sistema más utilizado actualmente para proyectos de minería de
datos.
Fuente: (Moine Gordillo, 2011)
En el proceso de la selección de la mejor metodología, el autor (Moine Gordillo, 2011)
explican que SEMMA se caracteriza solamente por iniciar con muestreo de datos, en donde por
el contrario la forma en la que se confronta el problema empresarial es de un nivel técnico
correspondiente a la metodología CRISP-DM, explicando que “la metodología CRISP-DM está
más cercana al concepto real de proyecto de investigación”; es por ello que en la tabla anterior se
concluye con esta metodología ya que se pasa de la parte organizacional al enfoque técnico, la
metodología CRISP-DM es la que mejor se adapta para los requerimientos del presente trabajo
de grado.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 23
Descripción de la Metodología CRISP-DM. Los autores (Rodríguez Montequín, Álvarez
Cabal, & Mesa Fernández, 2002) describen la guía metodológica a seguir, en donde el modelo
comprende seis elementos principales relacionados en la siguiente figura:
Figura 1. Composición básica del modelo CRISP DM Fuente: (Rodríguez Montequín, Álvarez Cabal, & Mesa Fernández, 2002), “Fases del proceso de modelado metodología CRISP-
DM. Las flechas indican relaciones más habituales entre las fases, aunque se pueden establecer relaciones entre cualquier fase.
El círculo exterior simboliza la naturaleza cíclica del proceso de modelado”.
A continuación, se describe cada elemento de la metodología CRISP-DM
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 24
Figura 2. Fase de Comprensión del negocio del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)
A nivel directivo se maneja la parte de la comprensión del negocio, es allí donde se
indaga con la alta gerencia cómo está conformada la organización en su parte estructural y a su
vez se esclarecen los objetivos corporativos, entendiendo los criterios de éxito de la misma; en la
evaluación de la situación tenemos un inventario de recursos, requerimientos, presunciones y
restricciones, también teniendo en cuenta los riesgos, contingencias y beneficios por parte de la
Minería de Datos, para a continuación determinar los objetivos de la Minería de Datos y sus
criterios de éxito desde el punto de vista de la Minería de Datos, y por último producir el Plan del
Proyecto y una primera evaluación de las herramientas y técnicas a emplear.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 25
Figura 3. Fase de Compresión de datos del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)
El análisis inicial de los datos con los que se va a trabajar pertenece a la segunda fase,
iniciando por determinar los datos a usar y recolectarlos, efectuar una descripción de estos,
reconocer problemas presentados en los datos, seleccionar la herramienta utilizada para
colectarlos, propiedades de los datos, etc., hacen parte de la exploración de los datos y finaliza
con la verificación de la calidad de los datos, como base del proyecto.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 26
Figura 4. Fase de Preparación de datos del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)
Para la tercera fase se trabaja únicamente con los datos, estableciendo cuales datos son
relevantes y cuales no para el proyecto de minería, posteriormente se preparan los datos para
poder emplearlos y ser utilizados, realizar una poda de datos de ser necesario, igualmente
construir, crear nuevos registros e integrar datos de ser necesario, y por último volver a generar
formato a los datos para que se adapten a las necesidades del análisis que se va a efectuar.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 27
Figura 5. Fase de Modelado del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)
La fase de modelado es la más importante y el objetivo principal es seleccionar la técnica
que se va a utilizar de manera específica, efectuar los ajustes necesarios sobre los datos acorde a
la técnica elegida, determinar el procedimiento para probar posteriormente el prototipo, luego se
genera la prueba de diseño, aplicar las herramientas y lograr construir el prototipo, realizar una
descripción del mismo y por último evaluarlo y revisar o corregir los parámetros de ajuste.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 28
Figura 6. Fase de Evaluación del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)
Para la fase de evaluación del prototipo se debe tener en cuenta diferentes factores como
la exactitud y la generalidad, todo ello con el fin de establecer el grado en que el prototipo es
aceptable o deficiente en relación a las necesidades del negocio del proyecto, en donde a
continuación se debe revisar el proceso en su totalidad para establecer posibles ajustes, para
posteriormente lograr determinar los siguientes pasos y tomar decisiones, en cuanto a corregir
parcial o totalmente el prototipo.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 29
Figura 7. Fase de Desarrollo del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)
Luego de la evaluación y los resultados obtenidos se despliega un plan para el desarrollo
de lo obtenido, en donde se desarrolla lo siguiente: la supervisión, el mantenimiento y desarrollar
el informe final, realizar la presentación final y hacer una revisión general del proyecto.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 30
Capítulo 3
Recolección y Preparación de Datos
Fase 1 Comprensión del negocio
Contexto. La presente investigación se centra sobre la empresa SFC Pack S.A.S.,
dedicada a la automatización de procesos industriales de empaque. Esta compañía fabrica
principalmente maquinaria para automatizar el etiquetado autoadhesivo de envases y empaques
en los procesos industriales.
El modelo de negocio de SFC Pack se puede comprender con mayor facilidad utilizando
el modelo Canvas:
Figura 8. Modelo de Negocio Canvas SFC Pack S.A.S. Fuente: (SFC Pack, Planeación Estratégica, 2017)
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 31
La estructura organizacional de SFC Pack S.A.S. está segmentada en cuatro grandes
áreas, un Departamento Administrativo, uno Financiero, uno Operativo y otro Comercial y de
Servicio.
Dentro del departamento comercial y de servicio se encuentra el equipo de Servicio
Técnico, quienes están encargados del servicio post-venta, así como de la capacitación inicial a
los operarios de la maquinaria; así mismo, están encargados de la instalación y puesta en marcha
de la maquinaria en las instalaciones del cliente.
Sin embargo, el equipo de Servicio Técnico, también hace parte del equipo de Taller, de
manera implícita, pues desempeñan funciones dentro del área de producción como por ejemplo
ensamble eléctrico, programación, cableado, entre otras.
El siguiente organigrama facilita la comprensión de su estructura organizacional:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 32
Figura 9. Organigrama SFC Pack S.A.S. Fuente: (SFC Pack, Organigrama SFC Pack SAS, 2016)
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 33
El principal desafío para SFC Pack en términos de selección y retención del Talento
Humano se encuentra en los cargos de Asistentes de Servicio Técnico, quienes comparten
responsabilidades entre el área de producción y el área comercial como servicio post-venta.
Como resultado del proceso de Planeación Estratégica para el 2017, la importancia del
proceso de selección y contratación de estos Asistentes de Servicio Técnico se evidenció en
distintas áreas de los proyectos estratégicos, entre ellos:
1. Talento Humano: Contratación y capacitación
a. Consolidar equipo de Servicio Técnico
b. Estructurar proceso de contratación
2. Distribuidores Internacionales
a. Acompañamiento y capacitación: que sería liderada por los asistentes de Servicio
Técnico
3. Penetración de Mercado Nacional
a. Plan comercial: que involucra un plan de incremento en ingresos por servicio
post-venta
Figura 10. Proyectos Estratégicos SFC Pack S.A.S. 2017 Fuente: (SFC Pack, Proyetos Estratégicos SFC pack SAS, 2017)
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 34
El cargo de Asistente Técnico, nació de la combinación de dos roles distintos que existían
para el 2015 en la empresa, estos eran el Coordinador de Servicio Técnico y el Asistente de
ensamble eléctrico. Esta es la descripción de cada uno de estos cargos según SFC:
Figura 11. Manual de Funciones y Responsabilidades de Servicio Técnico
MANUAL DE FUNCIONES Y RESPONSABILIDADES
COORDINADOR DE SERVICIO TÉCNICO
Versión 1.0
Validez:
19 05 2015
Código:
QM GAF MA 02
Proceso:
Comercial
1. Perfil del cargo
Denominación del Cargo Coordinador de servicio técnico
Proceso Comercial
Perfil del Cargo
Educación
Tecnólogo o ingeniero mecánico, en automatización
industrial, mecatrónico o afines
Experiencia
1 año en servicio al cliente, 6 meses en programación de
PLCs, HMIs, Variadores de Frecuencia,
Instrumentación industrial.
Formación Capacitación impartida por SFC Pack S.A.S.
Habilidades
Manejo de herramientas manuales y eléctricas para
ejecutar reparaciones y adecuaciones mecánicas
simples. Servicio al cliente y comunicación asertiva.
Habilidad en programación y parametrización de
componentes de automatización industrial.
Fuente: (Pack, 2017)
SFC PACK S.A.S.
Etiquetado Autoadhesivo
Automático
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 35
2. Responsabilidades
• Ejecutar todas las actividades que le sean asignadas por la dirección de comercial y de
servicio, que se encuentren dentro de sus capacidades y habilidades, encaminadas a
satisfacer las necesidades de servicio técnico y capacitación de los clientes.
• Velar por la integridad y el buen uso de los componentes, partes y herramientas que le
son encomendadas para la ejecución de sus actividades.
• Entregar a la dirección los reportes y/o informes a los que haya lugar, referentes a la
ejecución de las actividades que le son programadas.
3. Funciones Generales
• Liderar el departamento de servicio técnico y coordinar las actividades de los asistentes
de servicio que están a su cargo.
• Programar los servicios técnicos preventivos y correctivos solicitados por los clientes y
los de instalación, adecuación y puesta en marcha de equipos nuevos.
• Hacer seguimiento a los servicios técnicos prestados, la documentación de los mismos y
la satisfacción de los clientes con la solución brindada.
• Garantizar que las hojas de vida de los equipos en funcionamiento se encuentren siempre
actualizadas.
• Ejercer control de calidad sobre los equipos entregados por producción, listos para
despacho.
• Realizar seguimiento interno a requerimientos de servicio técnico en el área de
producción.
• Apoyar la labor de los asistentes de servicio técnico tanto en planta como en las
instalaciones de clientes, en funciones como:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 36
• Realizar esquemas eléctricos y manuales de uso para los equipos, así como llevar el
archivo de los mismos.
• Adecuar el cableado de los tableros eléctricos, así como los componentes externos a los
tableros de los proyectos.
• Configurar, parametrizar, cargar programa y calibrar los componentes a los que haya
lugar en cada máquina.
• Realizar el arranque, parametrización y sincronización inicial de los equipos.
• Realizar pruebas del funcionamiento de cada componente electrónico instalado y del
funcionamiento general de los equipos.
• Realizar las modificaciones que se requieran a nivel de programación de PLC o interfaces
en los equipos, así como gestionar el correcto archivo de estos programas en las carpetas
digitales compartidas.
• Realizar calibración mecánica de los equipos y validar el correcto funcionamiento de los
sistemas mecánicos, de igual forma, realizar los ajustes mecánicos menores a los que
haya lugar.
• Reportar los errores encontrados durante las validaciones a nivel mecánico, para que sean
corregidos por el área de diseño y producción.
• Llevar registro de los componentes y sistemas utilizados en el ensamble de cada equipo
para realizar las modificaciones de la hoja de vida de cada equipo.
• Impartir las capacitaciones a las que haya lugar, tanto al personal técnico como operativo
que disponga el cliente para el manejo de los equipos.
• Diligenciar los formatos de servicio técnico y capacitación con cada servicio prestado.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 37
Figura 12. Manual de Funciones y Responsabilidades Asistente de Ensamble Eléctrico
MANUAL DE FUNCIONES Y RESPONSABILIDADES
ASISTENTE DE ENSAMBLE ELÉCTRICO
Versión 1.0
Validez:
14 08 2014
Código:
QM GAF MA 02
Proceso:
Operativo
1. Perfil del cargo
Denominación del Cargo Asistente de Ensamble Eléctrico
Proceso Operativo
Perfil del Cargo
Educación
Técnico o tecnólogo en electro-mecánica,
automatización industrial, mecatrónica o afines
Experiencia No requiere
Formación Capacitación impartida por SFC Pack S.A.S.
Habilidades
Cableado de tableros eléctricos, elaboración e
interpretación de esquemas eléctricos, conocimientos en
programación de PLCs y configuración de componentes
electrónicos, aptitudes mecánicas para manipulación de
herramienta de mano como taladro, motortool, llaves,
etc. Manejo de internet y herramientas de ofimática.
Fuente: (Pack, 2017)
2. Responsabilidades
• Ejecutar todas las actividades que le sean asignadas por la coordinación de producción,
que se encuentren dentro de sus capacidades y habilidades, encaminadas a la fabricación
de los proyectos.
• Velar por la integridad y el buen uso de los componentes, partes y herramientas que le
son encomendadas para la ejecución de sus actividades.
SFC PACK S.A.S.
Etiquetado Autoadhesivo
Automático
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 38
• Entregar a la coordinación los reportes y/o informes a los que haya lugar, referentes a la
ejecución de las actividades que le son programadas.
3. Funciones Generales
• Realizar los planos y esquemas eléctricos para los proyectos, así como llevar el archivo
de los mismos.
• Ensamblar y cablear los tableros eléctricos, así como los componentes externos a los
tableros de los proyectos.
• Configurar, parametrizar, cargar programa y calibrar los componentes a los que haya
lugar en cada proyecto.
• Realizar el arranque, parametrización y sincronización inicial de nuestros equipos.
• Realizar pruebas del funcionamiento de cada componente electrónico instalado y del
funcionamiento general de nuestros equipos.
• Realizar las modificaciones que se requieran a nivel de programación de PLC o interfaces
en los equipos, así como gestionar el correcto archivo de estos programas en las carpetas
digitales compartidas.
• Realizar la pre-calibración mecánica de los equipos y validar el correcto funcionamiento
de los sistemas mecánicos, de igual forma, realizar los ajustes mecánicos menores a los
que haya lugar.
• Reportar los errores encontrados durante las validaciones a nivel mecánico, para que sean
corregidos por el área de diseño.
• Llevar registro de los componentes y sistemas utilizados en el ensamble de cada equipo
para realizar la apertura de la hoja de vida de cada equipo entregado.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 39
• Ejecutar las demás actividades que le sean programadas por la coordinación de
producción que se encuentren dentro de su competencia.
• Reportar a la coordinación de producción el estado de la ejecución de todas las
actividades que le sean programadas.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 40
Objetivos del negocio y criterios de éxito. El objetivo principal del resultado de esta
investigación es facilitar el proceso de selección de nuevos Asistentes de Servicio Técnico, lo
que se verá reflejado en la organización de la siguiente manera:
• Disminución de los tiempos promedio de contratación de nuevos Asistentes de Servicio,
que actualmente son de 3 meses aproximadamente.
• Aumento de la permanencia de los Asistentes de Servicio contratados, que actualmente
tienen un tiempo de 1.5 años en promedio.
De lo anterior se espera un impacto en los tiempos de respuesta en asistencia post-venta,
así como en la calidad del servicio prestado por la compañía.
Inventario de recursos. En la organización se dispone de dos personas que atienden el
área de recurso humano, Luz Stella Charry, Directora de área y Luisa Lima, Asistente de talento
humano, en infraestructura se cuenta con dos equipos de escritorio, ambos cuentan con las
mismas características: Procesador Core i5 Intel de séptima generación a 3.0 GHz, 4 GB de
memoria RAM, disco duro de 1TB, lector de DVD RW, también se cuenta con un repositorio
físico (Archivo metálico con llave) en donde reposan las hojas de vida e información histórica de
pruebas de selección del personal vitales para el desarrollo del presente trabajo de grado.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 41
Requerimientos, presunciones y restricciones. Los requerimientos, presunciones y
restricciones están detalladas en la siguiente tabla:
Tabla 4. Requerimientos, presunciones y restricciones.
Componente Descripción
Requerimientos • Los requerimientos del trabajo de grado deben tener en
consideración los datos capturados en el proceso de selección en
donde al probarlo funcione como soporte a la toma de decisiones
durante los procesos de selección para un cargo de alta rotación en
la empresa SFC Pack S.A.S descartando información que genera
ruido en la toma de decisiones.
• Los datos principales deben estar agrupados y adaptados a un solo
formato para ser válidos, y su resultado debe estar
comprensiblemente resumido para su entendimiento y
procesamiento.
Presunciones • Se debe asumir que los datos del personal existentes, tanto en su
base como en su desarrollo, contienen la información suficiente
para poder realizar un análisis con minería de datos que arroje
resultados utilizables y verificables.
• El grupo objetivo para este trabajo se basa en el personal que ha
terminado las pruebas del proceso de selección y se encuentra en el
archivo de la empresa, tomando en consideración solo los datos
capturados en el proceso de selección de talento humano.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 42
Restricciones • Existe cierta información en el archivo que tiene carácter
confidencial, por lo que el acceso a esta información debe ser
coordinado o manipulada de tal forma que no sea asociada a una
persona en particular sino a un perfil específico, por tanto, es
importante manejar los datos para que se adapten a este fin
particular de investigación.
Fuente: Desarrollado por los Autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 43
Riesgos y contingencias. Para el presente trabajo de investigación existen riesgos
implícitos en la temática y demás factores, es por ello que a continuación se describen los
posibles riesgos que puedan existir en el proceso de aplicación del prototipo.
Tabla 5. Riesgos y contingencias.
Riesgo Plan de Contingencia
Acceso restringido a
ciertos datos del personal
que pueden ser importantes
para lograr los objetivos
Se debe realizar el acercamiento con la Directora General de
Recursos Humanos actual para la autorización respectiva y
argumentar la finalidad de los datos explicando su respectiva
confidencialidad de los mismo.
Base de Datos con
información insuficiente
Ampliar el margen de búsqueda respecto de la fecha que se está
analizando para ampliar el número de candidatos a ser incluidos
en el prototipo de minería de datos o incluir candidatos que
tengan los datos suficientes para ser incluidos en este.
Resultados inadecuados
por parte del prototipo de
minería de datos
Es necesario el ajuste de los criterios ingresados a la técnica de
minería de datos para que los resultados del prototipo predictivo
sean correctos respecto de la finalidad que se esté buscando.
La estructura de datos sea
diversa y se dificulte la
compilación de datos de la
base de datos principal
Se debe realizar la implementación de ajustes a los datos y
metadatos para organizar la información y permitir su
manipulación y exportación de forma adecuada.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 44
Dentro de la estructura de
los datos no exista los
datos o tablas necesarias
para un análisis adecuado
de lo que se intenta
implementar.
Se deberá realizar la búsqueda de la información, verificando
donde se encuentran los datos importantes para exportarla e
implementarla dentro de las condiciones de selección de personal.
Fuente: Desarrollado por los Autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 45
Terminología. La terminología propia de conceptos manejados por la industria del
etiquetado, son necesarias para la comprensión del presente trabajo de investigación, se
procederá a describirlas en la siguiente tabla:
Tabla 6. Terminología.
Término Significado
Automatización
de Procesos
Industriales
Para el caso del presente trabajo de investigación, el termino refiere a la
utilización de componentes electromecánicos, que de manera sistematizada
controlan maquinaria de rotuladores para etiquetar envases de diferentes
geometrías y materiales.
Etiquetado
Autoadhesivo
Describe el proceso en el que se lleva una etiqueta con información relevante
de un producto en una cara, y en la otra lleva incorporado pegamento o
adhesivo para poder adherirlo en alguna parte de la superficie del producto.
Post-venta Son todos los esfuerzos que realiza la compañía por satisfacer al cliente
posteriores a la venta, en donde se pueden ofrecer servicios adicionales
relacionados con el etiquetado.
Ensamble
Eléctrico
Empalme y sujeción de varios componentes electrónicos con el objetivo de
armar un mecanismo electrónico con un propósito definido, en este caso
alguna pieza clave dentro de la maquinaria de etiquetado.
PLC Programmable Logic Controller o PLC es un controlador lógico programable
que sirve para automatizar funciones por separado de una maquina
etiquetadora.
Fuente: Desarrollado por los Autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 46
Costos y beneficios. De acuerdo con la infraestructura disponible para la ejecución del
presente trabajo de grado, se realiza una estimación respecto de los costos parciales y totales en
la siguiente tabla:
Tabla 7. Costos por Servicios Profesionales.
Fuente: Desarrollado por los Autores
Tabla 8. Compra y adquisición de equipos y herramientas.
Fuente: Desarrollado por los Autores
Tabla 9. Costos Generales.
Fuente: Desarrollado por los Autores
Profesional Meses Valor por Mes Cantidad Valor
Estudiante
Investigador
6 COP$4’000.000 2 COP$48’000.000
Director 6 COP$2’000.000 (2 Horas por Semestre)
1 COP$12’000.000
Equipo Valor por Mes Cantidad Valor
Equipos de
Computo
COP$2’000.000 2 COP$4’000.000
Gasto Valor Mensual Cantidad Valor
Internet COP$140.000
6 COP$840.000
Transporte COP$240.000 6 COP$1’440.000
Papelería y
varios
COP$30.000 6 COP$720.000
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 47
Tabla 10. Costos Consolidados.
Fuente:
Fuente:Desarrollado por los Autores
Según los costos relacionados anteriormente podemos establecer una tabla Costo-
Beneficio en el siguiente cuadro comparativo:
Tabla 11. Costo-Beneficio.
Fuente: Desarrollado por los Autores
Detalle Total
Costos por servicios profesionales COP$60’000.000
Compra y adquisición de equipos y herramientas COP$4’000.000
Costos Generales COP$3’000.000
Detalle Costo Beneficio
Costos por servicios
profesionales
COP$60’.000.000 • Poder establecer unos honorarios para
los investigadores garantiza una
viabilidad económica y la dimensión
presupuestal del proyecto
Compra y adquisición
de equipos y
herramientas
COP$4’000.000 • La infraestructura es clave para
desarrollar todas las tareas operativas
que requieren el manejo de datos en
este trabajo de investigación.
Costos Generales COP$3’000.000 • Hay costos generales producto de la
operación, se convierten en elementos
fundamentales que garantizan un
adecuado manejo de las demás
actividades del proyecto.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 48
Objetivos de la Minería de Datos. Para determinar los factores comunes que se
presentan en la selección de personal para el cargo de Asistente de Servicio Técnico en SFC
Pack S.A.S., se establece el siguiente objetivo:
Determinar los valores de los parámetros relacionados a casos de éxito en contrataciones
anteriores para el cargo, de acuerdo al método del árbol de decisión utilizado y que logre una
clasificación con el menor error determinable.
Criterios de éxito de la minería de datos. Los criterios de éxito para este proyecto son
los siguientes:
1. Cuando se aplique el prototipo a una población candidata que requiera su clasificación
para los puestos de trabajo, esta clasificación esté acorde a lo previsto por el prototipo en
un porcentaje lo más alto posible.
2. Que los resultados arrojados por el prototipo sean comprensibles y fáciles de manejar e
interpretar por el usuario del sistema.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 49
Plan del proyecto. .
Tabla 12. Plan del proyecto con Recursos Entradas y Salidas
Etapa Detalle Recursos Entradas Salidas
Análisis de los datos
de la Base de Datos
Revisión de la base de datos junto con
formularios físicos
Información de los tipos
de datos disponibles en la
BD y documentos de
Archivo
Todos los tipos de
datos de la BD de
personal
Instalación del
sistema en el
sector
Selección de los
datos relevantes
Escoger los tipos de datos que serán
requeridos para el análisis de la Minería de
Datos
Información detallada de
los tipos de datos de la
BD
Todos los tipos de
datos de la BD de
personal
Selección de los
datos
Selección inicial de
herramientas y técnicas
Escoger la técnica de Minería de Datos y
sus herramientas asociadas
Disponibilidad de técnicas
de Minería de Datos y sus
herramientas
Datos
seleccionados
para Minería de
Datos
Seleccionar la
técnica y
herramienta más
adecuada
Revisión y estructuración de
los datos relevantes
Verificar formato y compatibilidad de los
datos, datos faltantes en base a la técnica
seleccionada.
Acceso completo a la
estructura de los datos
Datos, técnica y
herramientas
seleccionadas
Estado de los
datos (formato,
compatibilidad y
faltantes)
Soluciones de estructura
de la base de datos
Solucionar problemas de estructura o datos
faltantes en la BD
Acceso completo a la
estructura de los datos
Estado de los
datos a utilizar
Estado de los
datos a utilizar
Desarrollo del modelo Configurar el modelo de Minería de Datos a
aplicar en la BD
Acceso completo a la
estructura de los datos y
aplicabilidad en sitio del
modelo considerado.
Datos
estructurados y
completos,
técnica y
Modelo inicial
de Minería de
Datos a aplicar
en la BD
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 50
herramientas
seleccionadas
Prueba inicial de modelo Aplicar el modelo en la BD y observar los
resultados obtenidos inicialmente hasta
verificar funcionamiento.
Acceso completo a la
estructura de los datos y
aplicabilidad en sitio del
modelo considerado.
Modelo inicial de
Minería de Datos
Resultados
obtenidos en la
prueba inicial
Ajustes del modelo
y/o base de datos
Realizar los ajustes al modelo o la base de
datos para que los resultados sean los
esperados (es necesario realizar otras
pruebas hasta terminar los ajustes)
Acceso completo a la
estructura de los datos y
aplicabilidad en sitio del
modelo considerado.
Resultados
obtenidos en la
prueba inicial al
aplicar el modelo
Modelo y/o base
de datos ajustado
para optimizar
resultados
esperados
Prueba del modelo Se realiza la prueba definitiva del modelo
con la presencia de la autoridad relacionada
Acceso completo a la
estructura de los datos y
aplicabilidad en sitio del
modelo considerado.
Modelo y/o base
de datos ajustado
(revisión final)
Modelo probado
formalmente ante
la autoridad
competente
Evaluación del modelo Se realiza la evaluación de los resultados
arrojados por el modelo y se comparan con
los resultados esperados.
Modelo y Base de Datos
final
Modelo y base de
datos final
Evaluación final
del sistema
Instrucción Se imparte la instrucción de operación de la
aplicación al personal encargado de
manejar la Base de Datos y del sistema de
selección de personal.
Documentos del sistema
y evaluación disponibles
Evaluación y
funciones del
sistema; usuarios
del sistema
Usuarios del
sistema
capacitados en el
uso de la
aplicación de
Minería de Datos
Fuente: Desarrollo de los Autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 51
Evaluación inicial de herramientas y técnicas. Los criterios para seleccionar las
herramientas y técnicas se van a enumerar a continuación:
1. Para las entradas se considera el factor histórico del personal previamente evaluado
en el proceso de selección, son estos datos los insumos que el método de minería de
datos requiere como entrada, para que arroje los porcentajes óptimos de cada grupo
de datos de personal.
2. Son las herramientas y técnicas las que deben permitir que se clasifique al personal
idóneo que va a ser contratado de acuerdo a las tendencias encontradas y determinar
los mejores candidatos para el cargo en cuestión.
3. Por lo tanto, las herramientas y técnicas deben permitir que una vez finalizados los
procesos de selección más cercanos al presente estudio, sean capturados los datos de
este, abordando este nuevo compendio de información con el objetivo de que dichos
datos sirvan de retroalimentación al prototipo para optimizarlo.
Por lo tanto, al evaluando el análisis inicial realizado, se van a plantear los criterios para
apoyar la herramienta seleccionada:
Árboles de Decisión:
De acuerdo al análisis realizado en el capítulo 1, se toma la iniciativa de emplear un árbol
de decisión debido a que es un método que ofrece más garantías para el prototipo y el posterior
análisis de los datos, cabe resaltar que no siempre son arrojados árboles que se entiendan de
manera sencilla, poniendo en riesgo el proceso y aportando un grado de complejidad más alto
para el prototipo.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 52
Para culminar el presente trabajo de investigación, se apoyó en esta herramienta de
Minería de Datos con el objetivo de perfilar personal en proceso de selección, desarrollando un
algoritmo basado en su metodología.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 53
Fase 2 Comprensión de los Datos
Recolección de datos iniciales. Como primer paso para procesar los datos recopilados
del archivo físico, se hace necesario almacenarlos en una base de datos relacional, por tal razón
se crea el siguiente Modelo Relacional:
Figura 13. Modelo Relacional Prototipo
Fuente: Desarrollado por los Autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 54
Descripción de los datos. Para el Modelo Entidad Relación tenemos una tabla principal
denominada “aspirante” en donde se encuentra la información completa de cada aspirante. Para
estructurar las tablas se realiza tomando la tabla “aspirante” y de ella se derivan siete tablas que
corresponden a “estadocivil”, “ciudad”, “tipoVivienda”, “formacionAcademica”, “aplicacion”,
“experienciaLaboral” y “familia” de la Figura 13 se puede observar de manera general todo el
Modelo Relacional que compone la estructura de datos.
La fuente primaria de datos para el prototipo consiste en la captura de datos generada a
partir de la hoja de vida de los candidatos y la posterior entrevista, así como los resultados a las
pruebas técnicas, de razonamiento y personalidad:
A continuación, se detalla el diccionario de datos para el anterior Modelo Relacional:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 55
Tabla 13. Diccionario de datos.
Tabla Campo Descripción Tipo dato
Aspirante id
identificacion
nombres
apellidos
genero
fechaNacimiento
ciudad_id
estadoCivil_id
tipoVivienda_id
Identificador de tabla
Identificación
Nombres
Apellidos
Género
Fecha de Nacimiento
Lugar de Nacimiento
Estado Civil
Tipo de Vivienda
INT
VARCHAR(45)
VARCHAR(45)
VARCHAR(45)
VARCHAR(1)
DATETIME
INT
INT
INT
Aplicación id
aspirante_id
testRazonamiento
testConocimiento
testPersonalidad_id
estadoAplicacion_id
Identificador de tabla
ID Tabla Aspirante
Test de razonamiento
Test de conocimiento
Test de Personalidad
Estados aplicación
INT
INT
DOUBLE
DOUBLE
INT
INT
Cargo id
nombre
nivel
Identificador Tabla
Nombre del Cargo
Tipo Nivel Cargo
INT
VARCHAR(45)
INT
Ciudad id
nombre
país_id
Identificador Tabla
Nombre País
Codigo País
INT
VARCHAR(45)
INT
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 56
Estado de la
Aplicación
id
nombre
Identificador Estado
Nombre del Tipo de Estado
INT
VARCHAR(45)
Estado Civil id
nombre
Identificador Tabla
Nombre del Estado Civil
INT
VARCHAR(45)
Estado
Laboral
id
nombre
Identificador Tabla
Nombre de Estado Laboral
INT
VARCHAR(45)
Experiencia
Laboral
id
aspirante_id
cargo_id
duración
estadoLaboral_id
Identificador Tabla
ID Aspirante
ID cargo
Duración en meses
ID Estado Laboral
INT
INT
INT
INT
INT
Familia aspirante_id
familiar_id
parentesco_id
dependenciaEcon
convivencia
ID Tabla Aspirante
ID Familiar
ID Parentesco
ID Tipo de Dependencia Econom
ID Tipo de Convivnecia
INT
INT
INT
TINYINT
TINYINT
Familiar id
fechaNacimiento
Identificador de tabla
Fecha de Nacimiento
INT
DATETIME
Formación
Académica
aspirante_id
nivelAcademico_id
fechaInicio
fechaFin
ID Aspirante
ID Nivel Académico
Fecha inicio
Fecha Fin
INT
INT
DATETIME
DATETIME
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 57
Nivel
Académico
id
nombre
nivel
Identificador de tabla
Nombre del nivel académico
Escala del nivel académico
INT
VARCHAR(45)
INT
País id
nombre
Identificador de tabla
Nombre País
INT
VARCHAR(45)
Parentesco id
nombre
Identificador de tabla
Nombre parentesco
INT
VARCHAR(45)
Perfil DISC id
nombre
Identificador de tabla
Nombre Perfil DISC
INT
VARCHAR(45)
Test
Personalidad
Id
resultadoD
resultadoI
resultadosS
resultadoC
perfilDisc_id
Identificador de tabla
Resultado cuadrante D
Resultado cuadrante I
Resultado cuadrante S
Resultado cuadrante C
ID Perfil DISC
INT
INT
INT
INT
INT
INT
Tipo
Vivienda
id
nombre
Identificador de tabla
Tipo de Vivienda
INT
VARCHAR(45)
Fuente: Desarrollado por los Autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 58
Informe de Colección de Datos Iniciales.
Contexto. Los datos son recolectados del archivo físico de la empresa, la información es
ingresada en la base de datos creada a partir del Modelo Relacional de la Figura 13, debido a
que la forma de extraer los datos es de tipo manual se debe contemplar el siguiente
procedimiento para lograr este objetivo:
1. Establecer el grupo de candidatos objeto del presente estudio.
2. Tabulación de cada uno de los candidatos con sus identificadores.
3. Ingreso manual de la información de cada candidato a la base de datos.
4. Seleccionar los atributos de la información de los candidatos que es relevante para el
estudio.
5. Realizar vistas en la base de datos de atributos ya seleccionados o relevantes respecto de
los candidatos en cuestión.
6. Integración de la información obtenida para ser migrada a un archivo CSV.
Criterios de Selección. Con el objetivo de cumplir el propósito de la Minería de datos en
el presente trabajo de investigación se establecieron los siguientes criterios de selección:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 59
Tabla 14. Criterios de Selección
Criterio Descripción
Edad La edad es un criterio que favorece en la selección de un
aspirante ya que el cargo requiere personal en un rango de
edades para el perfil.
Estado Civil Este atributo demuestra la capacidad de arraigo que el aspirante
puede tener por el puesto de trabajo.
Test de Razonamiento Los resultados del Test de Razonamiento aportan criterio
suficiente para establecer si el aspirante cumple con un mínimo
de capacidades matemáticas y abstractas.
Test Técnico Los resultados del Test Técnico aportan criterio suficiente para
establecer si el aspirante tiene las aptitudes técnicas que su
cargo requiere.
Test Disc El Test Disc aporta información sobre la personalidad del
aspirante en el proceso de Selección, básica para la relación en
el ambiente laboral.
Cantidad de Cargos Este criterio proporciona información sobre la experiencia que
el aspirante tiene.
Mayor Nivel de Cargo Arroja información sobre el cargo más alto que el aspirante
ocupó en empleos anteriores.
Mayor Duración de Cargo Revela la estabilidad laboral que demuestra el candidato,
importante para su proceso de selección.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 60
Fuente: Desarrollado por los Autores
Menor Duración de Cargo Este dato demuestra que el aspirante en ese tipo de ocupación
en específico, tuvo inconvenientes y no es una fortaleza para su
perfil.
Tiempo Total de Cargos Este criterio totaliza el tiempo de experiencia a lo largo de la
vida profesional del aspirante.
Hijos Al igual que el parámetro Estado Civil demuestra el nivel de
obligaciones que el aspirante tiene y el arraigo que pueda
demostrar por su futuro trabajo.
Vivienda Arroja información relevante para el personal de talento
humano en cuanto a la estabilidad habitacional del candidato.
Personas a Cargo Del mismo modo que datos anteriores de carácter personal esta
información es relevante para medir el tipo de arraigo del
individuo.
Nivel de Formación Información relevante respecto de los conocimientos
adquiridos en su proceso de formación y que pueden ser
aplicados en el futuro empleo.
Resultado Estados que describen el proceso de selección del aspirante los
cuales son: Entrevistado No aprobado, Aprobado nunca
Contratado, Contratado por más de 6 meses y Contratado por
menos de 6 meses.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 61
Verificación de la calidad de los datos. Los problemas que se presentaron al momento
de analizar los datos radican en el almacenamiento de formularios, pruebas y demás documentos
históricos en repositorios de archivo físico, a continuación, se describirán varios motivos que
dieron lugar a verificación de calidad de los datos:
• La caligrafía en muchos formatos de pruebas técnicas y de razonamiento era poco
legibles.
• Algunos formatos que fueron llenados a lápiz iban perdiendo legibilidad debido al tiempo
que habían estado almacenados.
• La humedad deterioro documentos y no hizo posible que estos fueran analizados.
• Los criterios de calificación de las pruebas variaron con el tiempo, obligando a tener un
estándar para aquellas pruebas que habían sido calificadas de forma diferente.
• En algunos formatos de Hojas de vida faltaban datos básicos, que fueron pasados por alto
por el personal de Talento Humano que realizó el proceso de selección en su momento.
En el proceso de adaptación, se realizó la validación de la consistencia que los datos
tenían en formularios y evaluaciones en donde se contrastaron y se les dio relevancia dentro de la
investigación, se escogieron los perfiles que estaban más completos y podían aportar muchos
más parámetros a la presente investigación.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 62
Fase 3 Preparación de los Datos
Selección de datos. La selección de datos estuvo definida en la recolección de material
histórico en procesos de selección realizados en la empresa SFC Pack S.A.S en un periodo de
dos años, en los cuales se aplicaron pruebas de razonamiento matemático y abstracto, así como
pruebas técnicas y de personalidad. Se escogieron 78 perfiles de los cuales se obtuvo 15 atributos
seleccionados para ser ingresados a un modelo entidad relación, cabe resaltar que el proceso
inició sin tener una base de datos normalizada como tampoco información sistematizada, el
esfuerzo de hacer un modelo entidad relación y diseñar una estructura de datos MySQL fue de
los autores del presente proyecto de investigación.
Los datos son recolectados del archivo físico de la empresa, la información es ingresada
en la base de datos creada a partir del Modelo Relacional de la Figura 13, debido a que la forma
de extraer los datos es de tipo manual se debe contemplar el siguiente procedimiento para lograr
este objetivo:
7. Establecer el grupo de candidatos objeto del presente estudio.
8. Tabulación de cada uno de los candidatos con sus identificadores.
9. Ingreso manual de la información de cada candidato a la base de datos.
10. Seleccionar los atributos de la información de los candidatos que es relevante para el
estudio.
11. Realizar vistas en la base de datos de atributos ya seleccionados o relevantes respecto de
los candidatos en cuestión.
12. Integración de la información obtenida para ser migrada a un archivo CSV.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 63
Análisis Inclusión/Exclusión de Datos. Con el objetivo de cumplir el propósito de la
Minería de datos en el presente trabajo de investigación se establecieron los siguientes criterios
de selección:
Tabla 15. Análisis Inclusión/Exclusión de Datos
Criterio Inclusión/Exclusión Descripción
Edad INCLUSIÓN Se presume que la edad es un factor
determinante en el proceso de selección
por recomendación del personal de
Talento Humano.
Sexo EXCUSIÓN Aunque la contratación siempre ha estado
sesgada a los hombres en este cargo en
particular, se quiere evitar este sesgo en el
prototipo.
Ciudad EXCLUSIÓN Debido a que es la ciudad de nacimiento y
no la ciudad de residencia, se presume
que no es un factor decisivo en el proceso.
Estado Civil INCLUSIÓN Este atributo demuestra la capacidad de
arraigo que el aspirante puede tener por el
puesto de trabajo.
Test de Razonamiento INCLUSIÓN Los resultados del Test de Razonamiento
aportan criterio suficiente para establecer
si el aspirante cumple con un mínimo de
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 64
capacidades matemáticas y de
abstracción.
Test Técnico INCLUSIÓN Los resultados del Test Técnico aportan
criterio suficiente para establecer si el
aspirante tiene las aptitudes técnicas que
su cargo requiere.
Test DISC INCLUSIÓN El Test DISC aporta información sobre la
personalidad del aspirante en el proceso
de Selección, básica para la relación en el
ambiente laboral.
Cantidad de Cargos
INCLUSIÓN Este criterio proporciona información el
tiempo que el aspirante lleva laborando, y
se presume que esto le aporte a su perfil
positivamente.
Mayor Nivel de Cargo INCLUSIÓN Arroja información sobre el cargo más
alto que el aspirante ocupó en empleos
anteriores. Se espera que haya una
relación de este con sus probabilidades de
éxito.
Mayor Duración de
Cargo
INCLUSIÓN Revela la estabilidad laboral que
demuestra el candidato, importante para
su proceso de selección.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 65
Menor Duración de
Cargo
INCLUSIÓN Este dato demuestra que el aspirante en
ese tipo de ocupación en específico, tuvo
inconvenientes y no es una fortaleza para
su perfil.
Tiempo Total de Cargos INCLUSIÓN Este criterio totaliza el tiempo de
experiencia a lo largo de la vida
profesional del aspirante.
Hijos INCLUSIÓN Al igual que el parámetro Estado Civil
demuestra el nivel de obligaciones que el
aspirante tiene y el arraigo que pueda
demostrar por su futuro trabajo.
Aspiración Salarial EXCLUSIÓN No se pudo tomar como un criterio de
selección pues la información sobre este
era incompleta.
Edad Cónyuge EXCLUSIÓN La de edad del cónyuge no demostró
ningún patrón significativo para el
modelo.
Edad Hijo Menor EXCLUSIÓN Las edades de los hijos no aportaron
patrones significativos para el modelo en
cuanto a criterios de decisión.
Edad Hijo Mayor EXCLUSIÓN Las edades de los hijos no aportaron
patrones significativos para el modelo en
cuanto a criterios de decisión.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 66
Fuente: Desarrollado por los autores.
Vivienda INCLUSIÓN Arroja información relevante para el
personal de talento humano en cuanto a la
estabilidad habitacional del candidato.
Área de Formación EXCLUSIÖN Se encontró más relevante el nivel de
formación ya que el área de formación
implicaba un grado más alto de
complejidad innecesario para el prototipo.
Nivel de Formación INCLUSIÓN Información relevante respecto de los
conocimientos adquiridos en su proceso
de formación y que pueden ser aplicados
en el futuro empleo.
Personas a Cargo INCLUSIÓN Del mismo modo que datos anteriores de
carácter personal esta información es
relevante para medir el tipo de arraigo del
individuo.
Resultado INCLUSIÓN Estados que describen el proceso de
selección del aspirante los cuales son:
Entrevistado No aprobado, Aprobado
nunca Contratado, Contratado por más de
6 meses y Contratado por menos de 6
meses.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 67
Limpieza de datos. Debido a que ingresamos manualmente los datos, fueron revisados
uno a uno y por lo tanto fueron ingresados en una base de datos relacional normalizada,
garantizando la integridad referencial y consistencia de los datos; sin embargo, hubo lugar a
modificaciones y ajustes todo con el objetivo de que el prototipo tuviera las mejores garantías
para cumplir con su propósito de predicción.
Construcción de datos. Para obtener los quince criterios de selección escogidos en una
sola tabla de la base de datos, se construyó una gran consulta a partir de la cual se generaría un
archivo plano como base para la posterior ejecución del algoritmo de clasificación y posterior
construcción del árbol de decisión, la consulta SQL para la obtención de esta información se
muestra a continuación:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 68
Figura 14. Consulta SQL Tabla Consolidada Criterios de Selección Fuente: Desarrollo de los autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 69
Como resultado de esta consulta de consolidación, se obtiene una tabla como la mostrada
a continuación:
Figura 15. Tabla Consolidada Criterios de Selección Fuente: Desarrollo de los autores
Integración de datos. La tabla generada se puede exportar directamente a un archivo
separado por comas para poder ser integrado al WEKA, esta herramienta nos permitirá ejecutar
el algoritmo de clasificación sobre los datos para generar el árbol de decisión.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 70
Figura 16. Parámetros de exportación a CSV Fuente: Desarrollo de los autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 71
El archivo generado, luego es cargado a la herramienta WEKA, desarrollada por la
Universidad de Waikato en Nueva Zelanda, es una colección de algoritmos de machine learning
para tareas de Minería de Datos. Para el desarrollo del presente proyecto se utilizó en su versión
3.8.1. A continuación se muestra la manera en que es cargado el archivo:
Figura 17. Cargue de archivo CSV a Weka Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 72
Por defecto, la última columna de la tabla es usada como criterio de calificación, en
nuestro caso la columna “Resultado”, que tiene cuatro posibles valores:
Figura 18. Selección de Criterio Principal de Clasificación Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 73
Formateo de datos. Para mejorar el proceso de clasificación, se ha aplicado un filtro
sobre los campos con valores continuos como la edad, el tiempo de permanencia en los cargos, el
nivel de formación, etc.
Weka asume que todo campo con valores numéricos es de tipo continuo, por lo que es
necesario convertirlo en un campo de valores discretos, para ello aplicamos un filtro sobre los
datos como lo muestra la siguiente imagen:
Figura 19. Filtro para Conversión a Valores Discretos Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 74
Figura 20. Comparativa Edad en Valores Continuos y Discretos
Fuente: Desarrollo de los autores – WEKA 3.8.1
El filtro se aplica automáticamente a todas las variables continúas encontradas, por lo que
no es necesario aplicarlo más de una vez.
Tras completar este formateo de datos, la información se encuentra lista para la fase de
modelado, en la cual se ejecutarán los algoritmos de clasificación sobre los datos, esta fase se
desarrolla en el capítulo a continuación.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 75
Capítulo 4
Diseño del Prototipo
Fase 4 Modelado
La selección realizada en el Estado del Arte y de Comprensión del Negocio definió a la
técnica del Árbol de Decisión como la más adecuada para realizar el trabajo de selección de
personal para el ingreso a las diferentes especialidades de la Armada, sin embargo, se debe
definir la técnica más específicamente.
Selección de la técnica de modelado. De acuerdo a (Viscaíno Garzon, 2008), las
técnicas de modelado que se pueden aplicar en árboles de decisión, se detallan en el siguiente
cuadro:
Tabla 16. Técnicas de modelado para árboles de decisión
Técnica Detalles
ADTree: Alternating
Decision Tree. Método
de Clasificación
proveniente del
aprendizaje
automático, las
estructuras de datos y
el algoritmo son una
generalización de los
árboles de decisión.
Contienen nodos divisor (splitter) y nodos de predicción. El
nodo divisor está asociado a una prueba, mientras que el nodo
de predicción está asociados con una prueba.
La Clasificación es asociada con una instancia que se calcula
con la suma de las predicciones cercanas al camino en el que es
definido por esta instancia.
El algoritmo de aprendizaje para su construcción es una
estrategia Top-Down, en que cada paso de aumento es
seleccionado y adiciona una nueva regla o su equivalente a una
nueva unidad que consiste en un nodo splitter y dos nodos de
predicción.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 76
Decision Stump:
Árbol de decisión de
un nivel
Funcionan de forma aceptable en problemas de dos clases, pero
mayor a esto es muy difícil encontrar tasas de error inferiores a
0.5
El algoritmo construye un modelo de cada caso a ser
clasificado, pero tomando únicamente un subconjunto de casos
de entrenamiento. Este algoritmo clasifica los casos basados en
valores característicos, cada nodo en un árbol de decisión de un
nivel representa una característica de un caso para ser
clasificado, y cada rama representa un valor que el nodo puede
tomar. Los casos son clasificados comenzando en el nodo raíz y
se cataloga basándose en sus valores característicos.
ID3: Inducción
mediante árboles de
decisión
En el algoritmo ID3, cada nodo corresponde a un atributo y
cada rama al valor posible de ese atributo. Una hoja del árbol
especifica el valor esperado de la decisión de acuerdo con los
ejemplos dados.
La explicación de una determinada decisión viene dada por la
trayectoria desde la raíz a la hoja representativa de esa decisión;
a cada nodo es asociado aquel atributo más informativo que aún
no haya sido considerado en la trayectoria desde la raíz.
Para medir cuánto informativo es un atributo se emplea el
concepto de entropía; cuanto menor sea el valor de la entropía,
menor será la incertidumbre y más útil será el atributo para la
clasificación.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 77
J48: Es una
implementación del
algoritmo C4.5.
Algoritmo de inducción que genera una estructura de reglas o
árbol a partir de subconjuntos (ventanas) de casos extraídos del
conjunto total de datos de entrenamiento (similar a ID3). Se
genera una estructura de reglas y se evalúa su “bondad” usando
criterios que miden la precisión en la clasificación de los casos.
Emplea dos criterios: Calcula el valor de información
proporcionada por una regla candidata (o rama del árbol) con
una rutina que se llama “info”, y calcula la mejora global que
proporciona una regla / rama usando una rutina que se llama
gain (beneficio).
Con estos criterios se puede calcular el costo / beneficio en cada
ciclo del proceso para decidir, por ejemplo, si crea dos nuevas
reglas o agrupa los casos en una sola.
El algoritmo realiza el proceso de los datos en sucesivos ciclos.
En cada ciclo se incrementa el tamaño de la “ventana” de
proceso en un porcentaje determinado respecto al conjunto total,
buscando tener reglas a partir de la ventana que clasifiquen
correctamente a un número cada vez mayor de casos en el
conjunto total. Cada ciclo de proceso emplea como punto de
partida los resultados conseguidos por el ciclo anterior y en cada
ciclo se ejecuta un sub-modelo contra los casos restantes que no
están incluidos en la ventana. De esta forma se calcula la
precisión del modelo respecto a la totalidad de datos.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 78
LMT: Logistic Model
Tree
Consiste en una
estructura de un árbol
de decisión con
funciones de regresión
logística en las hojas
Se realiza una prueba sobre uno de los atributos, que es
asociado con cada nodo interno. Para enumerar los atributos con
k valores, el nodo tiene k nodos hijos, y los casos son
clasificados en las k ramas dependiendo del valor del atributo.
Para atributos numéricos, el nodo tiene dos nodos hijos y la
prueba consiste en comparar el valor del atributo con un umbral
que define a qué lado de la rama se van los datos.
M5P: Árbol de
regresión
Es un árbol basado en árbol de decisión numérico tipo “model
tree”; tiene características como:
Construcción de árbol mediante algoritmo inductivo de árbol de
decisión.
Decisiones de enrutado en nodos tomadas a partir de valores de
los atributos.
Cada hoja tiene asociada una clase que permite calcular el valor
estimado de la instancia mediante una regresión lineal.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 79
NBTree: Naive Bayes
Tree
Algoritmo hibrido que genera un tipo de árbol de decisión, pero
las hojas contienen un clasificador Naive Bayes construido a
partir de los ejemplos que llegan al nodo.
A pesar de que es un eficiente y efectivo algoritmo de
aprendizaje, previo a los resultados muestra que su capacidad es
limitada ya que puede únicamente representar cierto grado de
separación entre las funciones binarias. Requiere suficientes
condiciones es el proceso en el dominio binario para que tenga
una representación uniforme. Se ve entonces que el aprendizaje
(y los datos de error) de Naive Bayes puede ser afectado
dramáticamente por distribuciones de muestreo.
Fuente: (Viscaíno Garzon, 2008)
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 80
Generación de la prueba de diseño. Para la selección del algoritmo más apropiado, se
usará cada uno de los algoritmos disponibles sobre los datos cargados y se comparará su
porcentaje de éxito en el proceso de clasificación.
En la siguiente serie de imágenes, se mostrará el resultado de ejecución de cada una de
las alternativas con sus resultados, información que será resumida en una tabla al final de dichas
imágenes.
Figura 21. Resultados algoritmo DecisionStump Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 81
Figura 22. Resultados algoritmo HoeffdingTree Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 82
Figura 23. Resultados algoritmo J48 Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 83
Figura 24. Resultados algoritmo LMT Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 84
Figura 25. Resultados algoritmo RandomTree Fuente: Desarrollo de los autores – WEKA 3.8.1
En la siguiente tabla se presenta el resumen de los resultados obtenidos para cada uno de
los algoritmos:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 85
Tabla 17. Comparativa Algoritmos Árboles de Decisión
Técnica Instancias clasificadas
correctamente
% Instancias clasificadas
correctamente
DecisionStump 67 85.8974%
HoeffdingTree 71 91.0256%
J48 72 92.3077%
LMT 72 92.3077%
RandomTree 68 87.1995%
Fuente: Desarrollo de los autores
La tabla muestra los algoritmos J48 y LMT como los de mejor desempeño para el
conjunto de datos probado. Dado que el algoritmo LMT produjo un árbol de decisión de un solo
nodo, se opta por seleccionar al algoritmo J48 para el prototipo del actual proyecto.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 86
Construcción del prototipo. Luego de ejecutar el algoritmo J48 sobre los datos de
entrenamiento cargados, se obtuvo el árbol de decisión mostrado a continuación:
Figura 26. Árbol de decisión y resultado generado para el prototipo
Fuente: Desarrollo por los Autores WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 88
Lo anterior produce un árbol de decisión que por su tamaño no es posible visualizar
claramente, se explicará en detalle a continuación, pero se muestra su imagen como referencia.
El modelo de decisión muestra solamente dos niveles de validación, tras podar el árbol de
decisión, las variables de mayor relevancia resultaron ser el resultado de la prueba técnica, el
estado civil y el cargo de mayor nivel o rango que el aspirante ha tenido en el pasado.
El árbol puede ser simplificado eliminando caminos contiguos que llevan al mismo
resultado y corrigiendo errores del proceso de conversión a valores discretos, la siguiente tabla
explica el modelo de decisión simplificado.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 89
Tabla 18. Modelo de decisión inicial para el Prototipo
Primer Nivel Segundo Nivel Resultado esperado
Puntaje Test
Técnico menor a 55%
DESCARTAR ASPIRANTE
NO CONTRATABLE
Puntaje Test
Técnico entre 55% y 61.4%
Estado civil SOLTERO CONTRATABLE Y CON
PERMANENCIA > 6 MESES
Estado civil SEPARADO DESCARTAR ASPIRANTE
NO CONTRATABLE
Estado civil UNION LIBRE DESCARTAR ASPIRANTE
NO CONTRATABLE
Estado civil CASADO DESCARTAR ASPIRANTE
NO CONTRATABLE
Puntaje Test
Técnico entre 61.4% y 67.8%
CONTRATABLE Y CON
PERMANENCIA < 6 MESES
Puntaje Test
Técnico entre 67.8% y 74.2%
Experiencia máxima en cargos
como APRENDIZ U
OPERARIO
CONTRATABLE Y CON
PERMANENCIA > 6 MESES
Experiencia máxima en cargos
como TECNICO O
ASISTENTE
CONTRATABLE Y CON
PERMANENCIA > 6 MESES
Experiencia máxima en cargos
como COORDINADOR O
SUPERVISOR
ASPIRANTE RECHAZARÁ
LA OFERTA
Puntaje Test
Técnico mayor a 74.2%
CONTRATABLE Y CON
PERMANENCIA > 6 MESES
Fuente: Desarrollo de los autores
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 90
Evaluación del prototipo. El modelo de decisión inicial planteado para el prototipo,
encontró relevancia únicamente en tres de las 14 variables evaluadas, este fenómeno se puede
comprender en varias de estas variables debido a la gran dispersión de los valores del campo
“Resultado” como lo muestra el siguiente par de imágenes.
Figura 27. Dispersión en variable Edad
Fuente: Desarrollo de los autores – WEKA 3.8.1
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 91
Figura 28. Dispersión en variable Mayor Permanencia en un Cargo
Fuente: Desarrollo de los autores – WEKA 3.8.1
Por otra parte, algunos parámetros no muestran tal dispersión, sino por el contrario
muestran una marcada tendencia que debería ser aprovechada en el modelo para el prototipo
final. Algunos casos en particular son los resultados del test de personalidad y el test de
razonamiento, así como la cantidad de personas a cargo.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 92
Figura 29. Dispersión en variable Test Personalidad
Fuente: Desarrollo de los autores – WEKA 3.8.1
En la imagen se puede ver cómo los aspirantes contratados han mostrado cinco de los
quince perfiles de personalidad posibles del Test DISC, estos son PERSUASIVO,
ESPECIALISTA, AGENTE, PROFESIONAL Y PERFECCIONISTA. Esta variable podría ser
introducida en el modelo para reducir la incertidumbre.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 93
Figura 30. Dispersión en variable Test Razonamiento
Fuente: Desarrollo de los autores – WEKA 3.8.1
En la imagen se puede apreciar cómo los aspirantes con un resultado superior al 70% han
sido tradicionalmente contratados, indistintamente de la permanencia del colaborador en la
organización.
La inclusión de esta variable en el prototipo final también debería ser considerada para
disminuir la incertidumbre donde aplique.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 94
Figura 31. Dispersión en variable Personas a cargo
Fuente: Desarrollo de los autores – WEKA 3.8.1
Aquí se puede apreciar cómo todos los aspirantes que han sido contratados no tenían
personas a cargo, este factor muestra gran relevancia en el proceso de selección pues presenta
una tendencia muy marcada. Su inclusión en el prototipo también debería ser considerada.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 95
Después de analizar estas tres variables de una marcada tendencia, se decide incluirlas las
dos relacionadas con la personalidad y el test de razonamiento en el modelo de decisión final, la
variable de personas a cargo no se incluirá pues podía considerarse discriminatorio dentro del
prototipo de predicción.
Tabla 19. Modelo de decisión final para el Prototipo
Primer Nivel Segundo Nivel Tercer Nivel Resultado esperado
Puntaje Test
Técnico menor a 55%
DESCARTAR
ASPIRANTE NO
CONTRATABLE
Puntaje Test
Técnico entre 55% y
61.4%
Estado civil SOLTERO Puntaje Test de
Razonamiento mayor a
70% y Personalidad
dentro de los 5 perfiles
CONTRATABLE Y
CON PERMANENCIA
> 6 MESES
En caso contrario CONTRATABLE Y
CON PERMANENCIA
< 6 MESES
Estado civil
SEPARADO
DESCARTAR
ASPIRANTE NO
CONTRATABLE
Estado civil UNION
LIBRE
DESCARTAR
ASPIRANTE NO
CONTRATABLE
Estado civil CASADO DESCARTAR
ASPIRANTE NO
CONTRATABLE
Puntaje Test
Técnico entre 61.4% y
67.8%
Puntaje Test de
Razonamiento mayor a
70% y Personalidad
dentro de los 5 perfiles
CONTRATABLE Y
CON PERMANENCIA
< 6 MESES
En caso contrario DESCARTAR
ASPIRANTE NO
CONTRATABLE
Puntaje Test
Técnico entre 67.8% y
74.2%
Experiencia máxima en
cargos como
APRENDIZ U
OPERARIO
CONTRATABLE Y
CON PERMANENCIA
> 6 MESES
Experiencia máxima en
cargos como TECNICO
O ASISTENTE
CONTRATABLE Y
CON PERMANENCIA
> 6 MESES
Experiencia máxima en
cargos como
COORDINADOR O
SUPERVISOR
ASPIRANTE
RECHAZARÁ LA
OFERTA
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 96
Puntaje Test
Técnico mayor a 74.2%
Puntaje Test de
Razonamiento mayor a
70% y Personalidad
dentro de los 5 perfiles
CONTRATABLE Y
CON PERMANENCIA
> 6 MESES
En caso contrario CONTRATABLE Y
CON PERMANENCIA
< 6 MESES Fuente: Desarrollo de los autores
Se aclara que al decir que la variable “Personalidad” debe estar dentro de los 5 perfiles se
hace referencia a que el resultado del test DISC para este aspirante debe corresponder con uno de
los siguientes perfiles: PERSUASIVO, ESPECIALISTA, AGENTE, PROFESIONAL Y
PERFECCIONISTA.
Al ver la descripción del test DISC para cada uno de estos perfiles, se puede evidenciar
que encajan muy bien con el perfil ocupacional del cargo Asistente de Servicio Técnico en SFC
Pack S.A.S.
Figura 32. Perfil DISC Especialista
Fuente: Test de Personalidad General DISC 2.0
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 97
Figura 33. Perfil DISC Agente
Fuente: Test de Personalidad General DISC 2.0
Figura 34. Perfil DISC Persuasivo
Fuente: Test de Personalidad General DISC 2.0
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 98
Figura 35. Perfil DISC Profesional
Fuente: Test de Personalidad General DISC 2.0
Figura 36. Perfil DISC Perfeccionista
Fuente: Test de Personalidad General DISC 2.0
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 99
Capítulo 5
Ejecución y Análisis de Resultados
Fase 5 Evaluación
Evaluación de resultados sobre datos iniciales. El modelo de decisión será aplicado
sobre la base utilizada como datos de entrenamiento para el árbol de decisión para comparar sus
resultados contra los resultados originales de la aplicación de los aspirantes.
Figura 37. Validación del modelo de predicción contra los datos iniciales
Fuente: Desarrollo de los autores
La anterior imagen muestra el modelo predictivo convertido en una fórmula de una hoja
de cálculo, tras comparar los resultados del modelo contra el resultado original del aspirante, se
evidencian los siguientes resultados:
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 100
Tabla 20. Resultados validación modelo contra datos iniciales
Criterio Cantidad Porcentaje
Aspirantes clasificados
correctamente
74 94.6%
Aspirantes clasificados
incorrectamente
4 5.4%
Aspirantes clasificados
correctamente como contratables
sin importar la predicción de su
permanencia en la empresa
78 100%
Total de muestras 78 100%
Fuente: Desarrollo de los autores
Al revisar los cuatro aspirantes clasificados erróneamente, se puede ver que, aunque se
acertó en que serían contratados, se falló en el tiempo que permanecería en la empresa, sin
embargo, se puede ver que los resultados del prototipo de predicción son muy satisfactorios.
Fase 6 Desarrollo
Esta fase no será cubierta por el presente proyecto, pues al tratarse de un Prototipo, no se
encuentra dentro del alcance de este su implementación en la organización.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 101
Conclusiones
Este proyecto ha sido de gran aporte para la empresa SFC Pack S.A.S., pues ha puesto en
evidencia el conocimiento que pueden producir a partir de los datos del archivo físico del área de
Gestión del Talento Humano.
El proceso permitió además que la empresa evidenciara la necesidad de contar con un
archivo digital estructurado, para gestionar la información de sus procesos de selección de
personal, y el Modelo Relacional producido en este proyecto servirá como base para un sistema
de información que cumpla ese propósito.
Aunque la empresa siempre ha realizado pruebas técnicas, de razonamiento y de
personalidad a los aspirantes, nunca había sido clara la relevancia de los resultados de estas en el
proceso de selección, el prototipo de predicción entregado les permitirá, si deciden
implementarlo, centrar su atención en las variables más importantes de cada aspirante, agilizando
sus tiempos de selección y contratación de personal, esto tendrá un impacto directo en el
cumplimiento de sus proyectos estratégicos pues, como se mostró, al menos tres de ellos recaen
sobre la necesidad de consolidar y mantener un equipo de Asistentes de Servicio Técnico.
La metodología CRISP-DM utilizada para el desarrollo del presente proyecto fue de gran
utilidad, para no omitir ningún paso en el proceso de recolección, comprensión, preparación e
integración de los datos en cuanto de Minería de Datos.
El algoritmo de clasificación J48 mostró ser la mejor elección para el propósito de crear
un árbol de decisión, que sirviera como modelo predictivo del desempeño laboral de los
aspirantes a un cargo.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 102
Bibliografía
Chapman, P., & Clinton (SPSS), J. (2000). Step-by-step data mining guide,. Obtenido de .the-
modeling-agency.com: https://www.the-modeling-agency.com/crisp-dm.pdf
Chiavenato, I. (2007). Administración de recursos humanos, el capital humano de las
organizaciones. México D.F.: McGraw-Hill.
Connolly, T. M. (2005). Sistemas de Bases de Datos, Un enfoque práctico para diseño,
implementación y gestión. Madrid: Pearson Educatción S.A.
Davenport, T. H., & Prusak, L. (2000). Working Knowledge: How Organizations Manage What
They Know. Boston: Harvard Business School Press.
Dessler, G. (2001). Administración de personal. Naucalpan de Juárez: Pearson Educación.
Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods, and Algorithms, 2nd Edition.
Wiley-IEEE Press.
Moine Gordillo, H. (2011). Análisis comparativo de metodologías para la gestión de. XVII
CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIÓN.
Nebot Lopez, M. J. (1999). La selección de personal: Guía practica para directivos y mandos de
las empresas. Fundación Confemetal.
Pack, S. (2017). MANUAL DE FUNCIONES Y RESPONSABILIDADES. Bogotá.
Rodríguez Montequín, M. T., Álvarez Cabal, J. V., & Mesa Fernández. (2002).
METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE. U. Oviedo.
SFC Pack. (2016). Organigrama SFC Pack SAS. Bogotá.
SFC Pack. (2017). Planeación Estratégica. Bogotá.
SFC Pack. (2017). Proyetos Estratégicos SFC pack SAS. Bogotá.
PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 103
Siliceo Aguilar, A. (2006). Capacitación y desarrollo de personal. México D.F.: Editorial
Limusa.
Sivaram, N. K. (2010). Applicability of Clustering and Classification Algorithms. Kovilpatti,
India: National Engineering College.
Strohmeier, S., & Piazza, F. (2013). Domain driven data mining in human resource
management: A review. Saarbruecken, Germany: ELSEVIER.
Thomas M, C. y. (2005). Sistemas de Bases de Datos :Un enfoque práctico para diseño,
implementación y gestión. Madrid: Pearson.
Viscaíno Garzon, P. A. (2008). Fundación Universitaria Konrad Lorenz. Obtenido de
www.konradlorenz.edu.co:
http://www.konradlorenz.edu.co/images/stories/suma_digital_sistemas/2009_01/final_pa
ula_andrea.pdf