un enfoque inteligente para la selección de grupos de

117
Un enfoque inteligente para la selección de grupos de expertos mediante redes sociales Lic. Eduardo Zamudio Autor Prof. Dra. Analía A. Amandi Director Prof. Dr. Luis S. Berdún Co-Director Facultad de Ciencias Exactas Departamento de Computación y Sistemas Universidad Nacional del Centro de la Pcia. de Bs. As.

Upload: others

Post on 18-Jul-2022

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Un enfoque inteligente para la selección de grupos de

Un enfoque inteligente para la selección degrupos de expertos mediante redes sociales

Lic. Eduardo Zamudio

Autor

Prof. Dra. Analía A. Amandi

Director

Prof. Dr. Luis S. Berdún

Co-Director

Facultad de Ciencias Exactas

Departamento de Computación y Sistemas

Universidad Nacional del Centro de la Pcia. de Bs. As.

Page 2: Un enfoque inteligente para la selección de grupos de

Resumen

Un grupo de expertos es un conjunto de personas con reconocido dominio de alguna materia.

Los grupos de expertos se constituyen para el tratamiento de temas específicos, definición de

políticas, asignación de recursos, y asesoramiento, entre otros.

La selección de grupos de expertos se realiza mediante algún proceso de selección de gru-

pos. Estos procesos consideran la evaluación de los criterios de selección que deben cumplir los

candidatos y los grupos en sí mismos.

Los criterios de selección representan un aspecto clave de los procesos de selección de exper-

tos, ya que son estos criterios los que establecen qué candidato es un experto, o cómo se debe

conformar un grupo de expertos. Sin embargo, en contextos donde los criterios de selección no

están disponibles, resulta dificultoso determinar cuáles son los criterios de selección aplicados.

La falta de acceso a los criterios de selección, o su falta de definción, limitan la posibilidad

de realizar análisis objetivos de dichos procesos, principalmente en relación con las fuentes de

información disponibles.

En ocasiones, la única fuente de información disponible son las evaluaciones de los candi-

datos. Estas evaluaciones son documentos de texto en los que los evaluadores del proceso de

selección de expertos exponen los argumentos por los que justifican la adecuación del candidato

a los criterios de selección.

Por otra parte, en la selección de grupos de expertos, es frecuente que la única fuente de in-

formación disponible se limite a un listado de los miembros del grupo seleccionado. Sin embargo,

la naturaleza relacional de los grupos de personas representa una gran fuente de información

para el análisis de los procesos de selección de grupos en general, y de la selección de grupos de

expertos en particular.

En esta tesis se propone un enfoque para el problema de la selección de grupos de expertos,

el cual consiste de dos partes. Por una parte, se propone determinar la elegibilidad de candida-

tos a ocupar posiciones de experto, mediante un método para la identificación y evaluación de

criterios de selección aplicados en la evaluación de dichos candidatos. Por otra parte, se propone

un método para la selección óptima de conformaciones de grupos de expertos, basada en las

relaciones sociales de candidatos elegibles.

Page 3: Un enfoque inteligente para la selección de grupos de

II

El enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad

a los procesos de selección de grupos de expertos, a partir del análisis de los candidatos en forma

individual, como así también del análisis de las conformaciones de grupos de expertos.

Esta tesis introduce importantes contribuciones en el área de selección de expertos, incluyen-

do:

Un enfoque de aprendizaje supervisado para la extracción de descripciones de candidatos,

como una nueva fuente de evidencia de experiencia para procesos de selección de expertos.

Una nueva aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para deter-

minar la similitud del contenido semántico de criterios de selección de expertos.

Una nueva métrica de Análisis de Redes Sociales (SNA) para determinar la independencia

de grupos.

Un método de selección óptima de grupos a partir de la integración de métricas de selección

de grupos mediante redes sociales mediante la implementación de un algoritmo genético.

La evaluación del método de elegibilidad de candidatos incluyó 3 tipos de criterios de selección

de referencia, generados a partir de un documento de referencia para la selección de comisio-

nes asesoras, de las definiciones de misión y visión de un conjunto de dependencias, y de las

funciones de cargos directivos de una oficina estatal.

El método de selección de grupos mediante redes sociales fue evaluado con un conjunto

de datos públicos de una agencia pública para el financiamiento de investigaciones científicas.

En la evaluación se analizó la aplicación de las métricas propuestas en los grupos de expertos,

representados por comisiones de un área de la organización. Asimismo, se analizó la aplicación

de las mismas métricas en los grupos generados.

Los resultados obtenidos indican que la elegibilidad de un conjunto de candidatos puede ser

determinada a partir del nivel de concordancia entre las evaluaciones de los candidatos y los

criterios de selección de referencia.

Los resultados en la evaluación del método de selección de grupos de expertos con la mé-

trica de independencia de grupos propuesta, permitió generar grupos que presentaron un mejor

Page 4: Un enfoque inteligente para la selección de grupos de

III

desempeño al compararlos con los comités actuales. Esta situación se reiteró al evaluar la inte-

gración de varias métricas en el método propuesto.

Page 5: Un enfoque inteligente para la selección de grupos de
Page 6: Un enfoque inteligente para la selección de grupos de

Agradecimientos

Agradezco a toda la gente que me apoyó e incentivó para el desarrollo de esta tesis.

Ante todo, agradezco a mis directores, Analía Amandi y Luis Berdún, quienes me motivaron

y guiaron durante los últimos años de estudio, búsqueda, aprendizaje y desarrollo.

Agradezco haber tenido la oportunidad de ser parte del ISISTAN durante el desarrollo de

mi doctorado, y en especial a mis compañeros y docentes con quienes he compartido tantos

momentos memorables.

Agradezco al Concejo Nacional de Investigaciones Científicas y Técnicas por la asistencia

económica durante el desarrollo de mi doctorado.

Agradezco a toda mi familia, en especial a mi papá Antonio, mi hermana Patricia, mi hermano

Raúl, por estar siempre. A mis amigos, los de siempre, y los tantos que encontré en este camino.

Finalmente, mi más profundo y eterno agradecimiento a Vanina por los años compartidos, y

por haber creído y confiado en este proyecto de vida juntos. Por nuestros hijos hermosos, Emma

y Tomás, que motivan cada día de mi vida.

A todos ustedes, muchas gracias!

Eduardo Zamudio

Universidad Nacional del Centro de la Provincia de Buenos Aires

Diciembre de 2016

Page 7: Un enfoque inteligente para la selección de grupos de
Page 8: Un enfoque inteligente para la selección de grupos de

Índice

1. Introducción 1

1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Marco teórico 7

2.1. Aprendizaje de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Etiquetado de Roles Semánticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3. Análisis de Redes Sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1. Importancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.2. Grupos cohesivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.3. Posiciones y roles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4. Algoritmos Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3. Trabajos relacionados 17

3.1. Recuperación de expertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2. Extracción de sentencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.3. Detección y selección de grupos en redes sociales . . . . . . . . . . . . . . . . . . 20

3.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4. Enfoque para la selección de grupos de expertos mediante redes sociales 23

4.1. Visión general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2. Elegibilidad de candidatos mediante criterios de selección de expertos . . . . . . 25

4.3. Selección de grupos de expertos mediante redes sociales . . . . . . . . . . . . . . 28

Page 9: Un enfoque inteligente para la selección de grupos de

VIII ÍNDICE

4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5. Elegibilidad de candidatos mediante criterios de selección 33

5.1. Similitud semántica entre criterios de selección . . . . . . . . . . . . . . . . . . . 33

5.1.1. Propiedades semánticas de criterios de selección . . . . . . . . . . . . . . 34

5.1.2. Relevancia de propiedades semánticas . . . . . . . . . . . . . . . . . . . . 37

5.1.3. Correspondencia entre conjuntos de criterios de selección . . . . . . . . . 39

5.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2.1. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.2. Clasificación de descripciones . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2.2.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.2.2.2. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.2.3. Conformidad de evaluaciones a los criterios de selección . . . . . . . . . . 45

5.2.3.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.2.3.2. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6. Selección de grupos de expertos mediante redes sociales 61

6.1. Criterios de selección de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.1.1. Representación mediante redes sociales . . . . . . . . . . . . . . . . . . . 62

6.1.2. Grupos con miembros independientes . . . . . . . . . . . . . . . . . . . . 63

6.1.3. Integración de criterios para la selección de grupos . . . . . . . . . . . . . 65

6.2. Optimización en la selección de grupos mediante redes sociales . . . . . . . . . . 67

6.2.1. Representación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6.2.2. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6.2.3. Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2.3.1. Selección de padres . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2.3.2. Cruce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2.3.3. Mutación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2.3.4. Selección de sobrevivientes . . . . . . . . . . . . . . . . . . . . . 71

6.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.3.1. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.3.2. Configuración del algoritmo genético . . . . . . . . . . . . . . . . . . . . . 72

6.3.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.3.3.1. Fitness de comisiones actuales . . . . . . . . . . . . . . . . . . . 73

6.3.3.2. Comisiones con miembros independientes . . . . . . . . . . . . . 74

6.3.3.3. Comisiones con múltiples criterios . . . . . . . . . . . . . . . . . 83

6.3.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Page 10: Un enfoque inteligente para la selección de grupos de

ÍNDICE IX

7. Conclusiones 87

7.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

7.2. Principales contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7.3. Limitaciones encontradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

7.4. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A. Conjuntos de datos 93

A.1. Audiencias de nominación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

Page 11: Un enfoque inteligente para la selección de grupos de
Page 12: Un enfoque inteligente para la selección de grupos de

Índice de Tablas

2.1. Enfoques top-down y bottom-up para la identificación de grupos cohesivos. . . . . 13

2.2. Características de las equivalencias para la identificación de posiciones y roles. . . 14

5.1. SRL de un conjunto de criterios de selección explícitos(5.1a) e implícitos(5.1b). . 38

5.2. Matriz de confusión (5.2a) y métricas (5.2b) para el modelo de clasificación. . . . 43

6.1. Matriz de decisión para la evaluación de alternativas a partir de múltiples criterios. 66

6.2. Configuraciones del Algoritmo Genético, operadores y mecanismos de selección. . 70

6.3. Métricas de centralidad de los miembros de las comisiones actuales. . . . . . . . . 75

6.4. Cuadro de fitness de comisiones actuales. . . . . . . . . . . . . . . . . . . . . . . 76

6.5. Fitness promedio por configuración para comisiones de 3 miembros. . . . . . . . 77

6.6. Fitness promedio por configuración para comisiones de 4 miembros. . . . . . . . 78

6.7. Fitness promedio por configuración para comisiones de 5 miembros. . . . . . . . 79

A.1. Comandos para el preprocesamiento del conjunto de datos. . . . . . . . . . . . . 94

Page 13: Un enfoque inteligente para la selección de grupos de
Page 14: Un enfoque inteligente para la selección de grupos de

Índice de Figuras

2.1. Ejemplo de Etiquetado de Roles Semánticos (SRL) . . . . . . . . . . . . . . . . . 8

4.1. Proceso típico de selección de grupos de expertos. . . . . . . . . . . . . . . . . . . 24

4.2. Enfoque general propuesto de selección de grupos de expertos. . . . . . . . . . . 25

4.3. Enfoque general propuesto para el análisis de criterios de selección. . . . . . . . . 29

4.4. Ejemplos de representaciones de criterios de selección con redes sociales. . . . . 30

5.1. Ejemplo de SRL sobre un criterio de selección. . . . . . . . . . . . . . . . . . . . . 34

5.2. Distribución de clases del conjunto de datos de descripciones. . . . . . . . . . . . 41

5.3. Matriz de confusión normalizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.4. Métricas de evaluación del clasificador . . . . . . . . . . . . . . . . . . . . . . . . 44

5.5. Curva ROC del modelo de clasificación de descripciones basado en SVM. . . . . . 44

5.6. Distribución (5.6a) y Caja (5.6b) de χ2 para features del clasificador. . . . . . . . 46

5.7. Curvas de aprendizaje del modelo entrenado para la clasificación de descripciones. 47

5.8. Similitud entre criterios implícitos y criterios explícitos para el segmento Comité. 48

5.9. Similitud entre criterios para la dependencia DHS del segmento Departamento. . 49

5.10.Similitud entre criterios implícitos y criterios explícitos para la dependencia DOC. 50

5.11.Similitud entre criterios implícitos y criterios explícitos para la dependencia DOT. 50

5.12.Similitud entre criterios implícitos y criterios explícitos para la dependencia NASA. 51

5.13.Similitud entre criterios implícitos y criterios explícitos para la dependencia OSTP. 52

5.14.Estadísticas de similitud de criterios para el segmento Departamento. . . . . . . . 53

5.15.Boxplot por departamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.16.Similitud entre criterios implícitos y criterios explícitos para el segmento Directivo. 55

5.17.Similitud entre criterios implícitos y explícitos para la OSTP por segmento. . . . . 56

5.18.Boxplot para OSTP en los segmentos Departamento y Directivo . . . . . . . . . . 57

5.19.Diagramas de caja para los segmentos Comité, Departamento, y Directivo. . . . . 57

5.20.Similitud entre criterios implícitos, evaluaciones previas, y criterios explícitos. . . 58

Page 15: Un enfoque inteligente para la selección de grupos de

XIV ÍNDICE DE FIGURAS

6.1. Ejemplo de simplificación de dos tipos de relaciones en un grafo unificado. . . . . 63

6.2. Diferencia entre un grupo balanceado (6.2a) y no balanceado (6.2b). . . . . . . . 64

6.3. Conjunto de candidatos de ejemplo para la conformación de un grupo. . . . . . . 64

6.4. Esquema general de integración de criterios de selección con suma ponderada. . 67

6.5. Representación soluciones en la codificación del Algoritmo Genético. . . . . . . . 68

6.6. Captura de pantalla de la herramienta de selección de grupos. . . . . . . . . . . . 73

6.7. Gráfico de fitness de comisiones actuales. . . . . . . . . . . . . . . . . . . . . . . 76

6.8. Fitness promedio para comisiones generadas de 3, 4, y 5 miembros. . . . . . . . 80

6.9. Tiempos más cortos para comisiones generadas de 3, 4, y 5 miembros. . . . . . . 81

6.10.Desviaciones estándar para las comisiones de 3, 4, y 5 miembros. . . . . . . . . . 81

6.11.Comisiones actuales (círculos grandes) y comisiones generadas (estrellas). . . . . 82

6.12.Pesos de criterios de selección determinados mediante Entropía. . . . . . . . . . . 83

6.13.Fitness multicriterio de comisiones generadas y comisiones actuales. . . . . . . . 84

Page 16: Un enfoque inteligente para la selección de grupos de

Lista de Acrónimos

ATS Resumen Automático de Textos

AUC Área Bajo la Curva

CONICET Consejo Nacional de Investigaciones Científicas y Técnicas

DHS Department of Homeland Security

DOC Department of Commerce

DOT Department of Transportantion

ER Recuperación de Expertos

FACA Federal Advisory Committee Act

GA Algoritmos Genéticos

GS-CV Grid Search Cross Validation

IR Recuperación de Información

KPP Key Player Problem

LDA Latent Dirichlet Allocation

MADM Toma de Decisiones con Múltiples Atributos

ML Aprendizaje de Máquina

NASA National Aeronautics and Space Administration

NLP Procesamiento de Leguaje Natural

OSTP Office of Science and Technology Policy

Page 17: Un enfoque inteligente para la selección de grupos de

XVI ÍNDICE DE FIGURAS

OX Ordered Crossover

PMX Partially Mapped Crossover

ROC Receiver Operating Characteristic

SE Extracción de Sentencias

SNA Análisis de Redes Sociales

SRL Etiquetado de Roles Semánticos

SUS Stochastic Universal Sampling

SVM Support Vector Machines

Page 18: Un enfoque inteligente para la selección de grupos de

Capıtulo 1

Introducción

Un grupo de expertos es un conjunto de personas con reconocido dominio de alguna materia.

Los grupos de expertos se constituyen para el tratamiento de temas específicos, definición de

políticas, asignación de recursos, y asesoramiento, entre otros. Algunos de los nombres con los

que frecuentemente se suele designar a grupos de expertos, incluyen: comisión, comité, consejo,

mesa directiva, grupo asesor o de asesores, fuerza de tareas.

La selección de grupos de expertos se realiza mediante algún proceso de selección de gru-

pos. Estos procesos consideran la evaluación de los criterios de selección que deben cumplir los

candidatos y los grupos en sí mismos.

Los criterios de selección son un aspecto clave de los procesos de selección de expertos, ya

que son los que establecen qué candidato es un experto, o cómo se debe conformar un grupo de

expertos. Sin embargo, en contextos donde los criterios de selección no están disponibles, resulta

dificultoso determinar cuáles son los criterios de selección aplicados.

En este capítulo se presentan los fundamentos que dan origen al desarrollo de esta tesis, la

hipótesis general de la misma, las contribuciones logradas durante el desarrollo del trabajo, y

esquema general de las partes del documento.

Este capítulo se organiza de la siguiente manera. En la sección 1.1 se presenta la motivación

para el desarrollo de un enfoque para la selección de grupos de expertos mediante redes sociales.

En la sección 1.2 se presenta el problema que se pretende resolver, junto con la hipótesis general

Page 19: Un enfoque inteligente para la selección de grupos de

2 Introducción

del trabajo. En la sección 1.3 se presentan las contribuciones logradas en el ámbito de la selección

de expertos. En la sección 1.4 se presenta un esquema general de los contenidos del documento.

Finalmente, en la sección 1.5 se presenta un resumen del capítulo.

1.1. Motivación

En contextos de selección de expertos, la falta de acceso a los criterios de selección, o la

subjetividad con la que éstos son definidos, limitan la posibilidad de realizar análisis objetivos de

dichos procesos.

Esto implica un desafío, principalmente en relación con las fuentes de información disponi-

bles para realizar cualquier análisis sobre procesos de selección.

En varios procesos de selección de expertos, la única fuente de información disponible se

constituye a partir de las evaluaciones de los candidatos. Estas evaluaciones son documentos

de texto en los que los evaluadores argumentan la adecuación del candidato a los criterios de

selección.

Las evaluaciones de los candidatos en formato de documentos de texto pueden ser procesadas

mediante técnicas de Procesamiento de Lenguaje Natural (NLP). Estas técnicas permiten proce-

sar grandes cantidades de texto no estructurado, a la vez que permiten analizar el contenido

semántico de éstos.

En este sentido, el análisis semántico de las evaluaciones constituye una estrategia posible

para determinar el contenido semántico de las evaluaciones y su similitud con el contenido

semántico de los criterios del proceso de selección.

Por otra parte, la selección de grupos de expertos es más desafiante que la selección de

expertos en forma individual, ya que la selección de grupos difícilmente se acompañe de un

documento que describa la evaluación de los criterios de selección del grupo. En estos casos, la

única fuente de información disponible se constituye a partir del listado de miembros del grupo

seleccionado. Sin embargo, la naturaleza relacional de los grupos de personas representa una

fuente importante de información para el análisis de los procesos de selección de grupos en

general, y de la selección de grupos de expertos en particular.

La información relacional de los grupos puede ser analizada mediante técnicas del Análisis de

Page 20: Un enfoque inteligente para la selección de grupos de

1.2 Tesis 3

Redes Sociales (SNA). Las técnicas actuales del SNA permiten evaluar métricas relacionadas con

las propiedades estructurales de las redes sociales. Adicionalmente, las redes sociales permiten

una gran versatilidad de la representación de información relacional.

En este sentido, la representación de las relaciones sociales de los miembros, o posibles miem-

bros, de un grupo representa una poderosa fuente de información para analizar los criterios de

selección que determinan cómo son conformados los grupos.

1.2. Tesis

En esta tesis se propone un enfoque inteligente para el problema de la selección de grupos de

expertos, el cual consiste de dos partes. Por una parte, se propone determinar la elegibilidad de

candidatos a ocupar posiciones de experto, mediante un método para la identificación y evalua-

ción de criterios de selección aplicados en la evaluación de dichos candidatos. Por otra parte, se

propone un método para la selección óptima de conformaciones de grupos de expertos, basada

en las relaciones sociales de candidatos elegibles.

La hipótesis general de esta tesis sostiene que es posible desarrollar un método objetivo de

selección de grupos de expertos utilizando la información relacional del conjunto de candidatos

para la conformación de dichos grupos.

El enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad a

los procesos de selección de expertos, a partir del análisis de los candidatos en forma individual,

como así también del análisis de las conformaciones de estos grupos.

1.3. Contribuciones

Esta tesis introduce importantes contribuciones en el área de selección de expertos, incluyen-

do:

Un enfoque de aprendizaje supervisado para la extracción de descripciones de candidatos,

como una nueva fuente de evidencia de experiencia para procesos de selección de expertos.

Una nueva aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para deter-

Page 21: Un enfoque inteligente para la selección de grupos de

4 Introducción

minar la similitud del contenido semántico de criterios de selección de expertos.

Una nueva métrica de Análisis de Redes Sociales (SNA) para determinar la independencia

de grupos.

Un método de selección óptima de grupos a partir de la integración de métricas de selección

de grupos mediante redes sociales y la implementación de un algoritmo genético.

1.4. Organización del documento

El resto de este documento se encuentra organizado de la siguiente manera.

El capítulo 2 presenta el marco teórico de esta tesis en la que se describen los conceptos

relacionados con el Procesamiento de Lenguaje Natural (NLP) y el Análisis de Redes Sociales

(SNA).

El capítulo 3 presenta los trabajos relacionados con la Recuperación de Expertos, las técnicas

para la extracción automática de sentencias, y la detección y selección de grupos mediante redes

sociales.

El capítulo 4 presenta el enfoque general de la propuesta para la selección de grupos de

expertos mediante redes sociales. La sección describe brevemente cada una de las partes de la

propuesta.

El capítulo 5 presenta la primera parte de la propuesta en la que se describe el método

propuesto para determinar la elegibilidad de candidatos para la conformación de grupos de

expertos. La sección también presenta la evaluación experimental a partir de un conjunto de

evaluaciones de candidatos para la conformación de grupos de expertos en dependencias de

organismos públicos.

El capítulo 6 presenta la segunda parte de la propuesta en la que se describe el método

propuesto para la selección de grupos de expertos mediante redes sociales. En la sección se

describe la evaluación del método propuesto en la conformación de grupos de expertos para una

agencia pública de financiamiento de investigaciones científicas.

Por último, el capítulo 7 presenta las conclusiones de la tesis en la que se describen las prin-

cipales contribuciones, las limitaciones del enfoque actual, y las futuras líneas de investigación.

Page 22: Un enfoque inteligente para la selección de grupos de

1.5 Resumen 5

1.5. Resumen

En este capítulo se introduce el contexto general del problema de la selección de expertos y

la selección de grupos de expertos, en relación con la evaluación de los criterios de selección.

La motivación de la tesis se resume en que la información relacionada con los criterios de

selección por los cuales se evalúan los expertos o los grupos de expertos, dificulta un análisis

objetivo de su aplicación. En consecuencia, los procesos de selección de expertos donde no se

dispone de información sobre los criterios de selección o su aplicación resultan poco transparen-

tes.

En esta tesis se propone un enfoque para la selección de grupos de expertos, a partir de la

identificación y evaluación de criterios de selección aplicados en procesos de selección de exper-

tos. Para ello se propone utilizar como fuentes de información, la evaluación de los candidatos a

conformar grupos de expertos, y la información relacional de estos candidatos.

El trabajo de tesis introduce importantes contribuciones en el área de selección de expertos

relacionada con la aplicación de técnicas de Aprendizaje de Máquina (ML), Procesamiento de

Lenguaje Natural (NLP), Análisis de Redes Sociales (SNA), y Algoritmos Genéticos (GA).

Page 23: Un enfoque inteligente para la selección de grupos de
Page 24: Un enfoque inteligente para la selección de grupos de

Capıtulo 2

Marco teórico

Este capítulo introduce los conceptos más importantes utilizados en el presente trabajo. Estos

conceptos incluyen la definición de Aprendizaje de Máquina y una clasificación general de la

misma, el Etiquetado de Roles Semánticos (SRL) como estrategia de análisis semántico de textos,

los conceptos y técnicas asociados con el Análisis de Redes Sociales, y la definición y componentes

de los Algoritmos Genéticos.

Este capítulo se organiza de la siguiente manera. En la sección 2.1 se describe el concepto de

Aprendizaje de máquina, y una clasificación general de sus técnicas. En la sección 2.2 se describe

la estrategia de análisis semántico de textos a partir del Etiquetado de Roles Semánticos. En la

sección 2.3 se describen los conceptos fundamentales del SNA, sus métricas más importantes, las

estrategias para la identificación de grupos, y la identificación de equivalencias en redes sociales.

En la sección 2.4 se presenta el concepto de Algoritmos Genéticos y sus componentes principales.

Finalmente, en la sección 2.5 se presenta un resumen del capítulo.

2.1. Aprendizaje de Máquina

El Aprendizaje de Máquina o Aprendizaje Automático es el área de las ciencias de la compu-

tación que pretende dotar a las computadoras de la habilidad de aprender. El objetivo de este

aprendizaje es la resolución de problemas, sin expresar todas las posibles situaciones que lo re-

suelvan. Así, se pretende que la máquina aprenda de la experiencia para resolver casos nuevos

para lo cual no fue programada (Mitchell, 1997).

Los orígenes del Aprendizaje de Máquina vienen asociados al reconocimeinto de patrones. En

la actualidad, el área generalmente se encarga del entrenamiento de modelos matemáticos que

permitan descubrir los patrones de un conjunto de datos para resolver distintas tareas.

En el Aprendizaje de Máquina, las tareas suelen agruparse en las estrategias que definen

cómo aprende la máquina (Bishop, 2006). Estas tareas se pueden agrupar en:

Page 25: Un enfoque inteligente para la selección de grupos de

8 Marco teórico

(a) (b)

Figura 2.1: Ejemplo de Etiquetado de Roles Semánticos (SRL)

Aprendizaje Supervisado: Es el proceso de aprendizaje en el cual se indica explícitamente

cuál es la clasificación resultante de un conjunto de datos. De esta manera, el conjunto de

datos de entrada del proceso define la clase para el entrenamiento del modelo. Luego, este

modelo entrenado intentará predecir las clases de nuevos conjuntos de datos.

Aprendizaje No supervisado: Es el proceso de aprendizaje en el que se pretende agrupar un

conjunto de datos sin indicar explícitamente el grupo al que pertenecen. Este agrupamiento

se utiliza generalmente para el análisis descriptivo de los datos, la detección de anomalías

en los datos, o la identificación de grupos para los cuales no se conocen previamente las

clases.

Aprendizaje Semi-supervisado: Es el proceso de aprendizaje en el que sólo una porción,

por lo general pequeña, de los datos indica una clase. En este tipo de aprendizaje, se

pretende obtener los beneficios de ambos enfoques, supervisado y no supervisado, cuando

el aprendizaje completamente supervisado resulta costoso.

2.2. Etiquetado de Roles Semánticos

El Etiquetado de Roles Semánticos (SRL) (Gildea & Jurafsky, 2002) es el área que se ocupa

de la identificación de las relaciones semánticas, o roles, generadas a partir de los elementos de

una sentencia en un marco semántico. Los marcos semánticos tienen origen en la propuesta de

(Fillmore, 1976), la cual introduce el concepto de “marcos” para identificar la forma en que las

personas interpretan el lenguaje a partir de su propio ambiente, sus mensajes con otras personas,

y la creación de un modelo interno de su mundo.

La figura 2.1 presenta dos sentencias distintas pero que comparten un mismo significado. La

frase indica que los agentes (John y Claire) percibieron un evento (vieron una película). El marco

semántico correspondiente al ejemplo es “Perception_active”, que identifica los agentes que diri-

gen su atención a un evento (“Perceiver_agentive”), y el evento en sí mismo. (“Phenomenon”).

Una de las instancias más desarrolladas de marcos semánticos es Framenet (Baker et al.,

1998; Fillmore & Baker, 2009), el cual es una base de datos léxica que contiene almacenados un

amplio conjunto de marcos semánticos. Esta base de datos es utilizada por herramientas de SRL

en forma automática, como por ejemplo SEMAFOR (Das et al., 2010, 2014).

Page 26: Un enfoque inteligente para la selección de grupos de

2.3 Análisis de Redes Sociales 9

2.3. Análisis de Redes Sociales

El Análisis de Redes Sociales (SNA) estudia las propiedades estructurales de las denominadas

redes sociales, conformadas por entidades sociales y las relaciones entre ellas.

En (Wasserman & Faust, 1994) se define una red social como “... un conjunto o conjuntos

finitos de actores y la relación o relaciones definidas sobre ellos”. Sobre la misma, agregan que

“La presencia de información relacional es una característica crítica y determinante de una red

social”. En esta definición, el actor representa una entidad social, y la red social representa los

actores que se encuentran relacionados entre sí. Por su parte, en (Wellman, 1983) se sostiene que

esta representación posibilita su análisis, permitiendo responder a ciertas preguntas, desarrollar

métodos, y organizar la recolección de datos relacionados con estas estructuras.

Los conceptos principales asociados a las redes sociales incluyen el de actor y el de enlace

relacional, los cuales constituyen las unidades fundamentales que permiten la conformación de

las estructuras estudiadas.

Un actor -o nodo- es una entidad social que puede presentar relaciones con otros actores.

Estos actores son unidades sociales discretas que se pueden definir de acuerdo a distintos niveles,

por ejemplo: personas, grupos, departamentos, organizaciones, ciudades, o estados-naciones. Es

habitual que los estudios sobre redes sociales analicen uno o dos tipos de actores en una misma

red.

Un enlace relacional -o relación- es un vínculo social entre un par de actores. Estos vínculos

pueden presentarse en una amplia variedad de rangos y tipos, que junto con los actores confor-

man las estructuras de las redes sociales. Algunos ejemplos incluyen relaciones de evaluación de

una persona sobre otra, de transferencia de recursos entre organizaciones o estados-naciones,

de asociación o afiliación a clubes, de interacción entre personas, de movimiento entre lugares o

cambio de estatus, de conexiones físicas, y de relaciones formales o biológicas.

En esta sección se describen algunas de las propiedades estructurales de las redes sociales

agrupadas de acuerdo a la determinación de la importancia de los actores, la identificación de

grupos, y la identificación de equivalencias entre actores a partir de las posiciones y roles de

éstos.

2.3.1. Importancia

Las redes sociales conforman estructuras en las que en ocasiones, es deseable analizar cuáles

son los actores, o grupos de actores, de mayor importancia en toda la red o algún sector de ésta.

Con objeto de analizar la importancia de dichos actores o grupos, se han desarrollado varios

enfoques y varias métricas que permitan determinar cuáles de estos actores o grupos, y en qué

medida, son considerados importantes para el resto de los actores y la estructura que conforman.

En (Hanneman & Riddle, 2005) se identifican la importancia de los actores como la promi-

nencia de éstos clasificada en dos categorías: centralidad y prestigio. A continuación se describen

ambas categorías.

Page 27: Un enfoque inteligente para la selección de grupos de

10 Marco teórico

Métricas de centralidad

La centralidad de los actores establece en qué medida los actores se encuentran conectados

con otros, dentro de la red social.

En general, las métricas de centralidad están diseñadas para aplicarse sobre redes con rela-

ciones no dirigidas, aunque en algunos casos pueden modificarse para ser utilizadas en aquellas

con relaciones dirigidas.

Entre las métricas de centralidad más importantes se incluyen degree, closeness, y betweenness.

Degree, puede determinarse mediante un índice que contemple las relaciones directas de un actor

en particular. Closeness evalúa qué tan cerca se encuentran el resto de los nodos respecto de uno

en particular. Mientras que betweenness, considera que los nodos presentes en el geodesic -camino

más corto- entre dos nodos no adyacentes pueden disponer de algún control sobre la relación

entre ellos.

Una característica de estas métricas es que en general, pueden normalizarse de modo que

permitan su comparación entre sí. Asimismo, se puede decir que estas métricas son adecuadas

también, para determinar la centralidad de la red en su conjunto, o bien, de un subconjunto de

ella.

Adicionalmente, existen otras métricas que proponen variantes a las métricas ya comentadas.

Por ejemplo, en (Opsahl et al., 2010) se propone la medición de la centralidad de actores en

redes con relaciones ponderadas, basándose en los pesos y la cantidad de las relaciones. Este

aspecto es tratado también en ambientes de redes dinámicas (Klemm et al., 2012).

En general, las métricas de centralidad son aplicables a redes estáticas, aunque se han pro-

puesto enfoques alternativos de centralidad para redes dinámicas (Lerman et al., 2010; Tang et al.,

2010).

Otros enfoques de centralidad se basan en los caminos existentes entre los actores (Bonacich,

1987; Ghosh & Lerman, 2011; De Meo et al., 2012).

Métricas de prestigio

El otro concepto relacionado con la importancia es el de prestigio, el cual está asociado a las

elecciones que realizan los actores de una red sobre otros actores.

El prestigio de un actor es representado mediante métricas en las que se analizan las relacio-

nes dirigidas hacia un actor determinado de la red, donde estas relaciones pueden provenir de

actores adyacentes, o bien a través de intermediarios. El uso de grafos dirigidos en métricas de

prestigio se debe a su capacidad de representación de enlaces con dirección entre nodos.

En general, se recomienda el uso de métricas tanto de centralidad como también de prestigio

(teniendo en cuenta que este último no siempre puede determinarse), ya que ambos grupos

analizan distintas propiedades estructurales. Asimismo, se indica que la cantidad de métricas

para la determinación del prestigio de actores es más amplia que para el caso de grupos de

actores.

Page 28: Un enfoque inteligente para la selección de grupos de

2.3 Análisis de Redes Sociales 11

Entre las métricas de prestigio más analizadas se encuentran proximity y status -o rank-.

Proximity de un actor es representado por la distancia de los actores de la red hacia un actor en

particular de la misma. Y el status de un actor está basado en los valores de status de los actores

que lo eligen.

En términos generales, las métricas o índices desarrollados para identificar la importancia de

los actores o grupos (Everett & Borgatti, 1999, 2005) han utilizado la representación mediante

grafos (Estrada & Rodríguez-Velázquez, 2005; Borgatti & Everett, 2006), en la que se tienen en

cuenta no sólo las relaciones inmediatas entre los nodos, sino también los caminos indirectos

junto con sus intermediarios. En (Freeman, 1979) se presenta una de las primeras caracteriza-

ciones del concepto de centralidad en redes sociales, mientras que en (Everett et al., 2004) se

presentan algunas correcciones a sus resultados. Por otra parte, en (Landherr et al., 2010) se

presenta una revisión de varias métricas de centralidad.

2.3.2. Grupos cohesivos

Junto con el estudio de la importancia de actores o grupos de actores, el SNA estudia lo que

denomina grupos cohesivos o comunidades. Esta área trata la definición y el estudio de técnicas

que permitan descubrir grupos o las propiedades de los mismos, definidos en términos estructu-

rales de la red que conforman.

En (Freeman & Webster, 1994) se sostiene que las personas eligen con quién interactuar y

esa interacción está dada por patrones, lo que implica que esta situación no es al azar. Así, las

personas conforman grupos, en los cuales sus integrantes se dan soporte a sí mismos y a la vez,

los miembros de grupos distintos se vuelven competitivos.

Con objeto de definir el concepto de cohesión social, en (Moody & White, 2003) se define la

cohesión estructural como “...el número mínimo de actores que, si son removidos de un grupo,

desconectarían al grupo...”, y cohesión de integración como “...el anidamiento jerárquico de las

estructuras cohesivas...”.

Una estrategia para la clasificación de grupos cohesivos puede presentarse examinando sus

características. En (Wasserman & Faust, 1994) se indica que estos grupos presentan mutualidad

de enlaces, alto índice de closeness entre sus miembros, como así también una frecuencia relativa

de enlaces entre los miembros de subgrupos, comparados con aquellos actores que no forman

parte del grupo.

El análisis estructural de las redes sociales se interesa por sus subestructuras. Particularmente

en lo que se refiere a grupos cohesivos, se hace referencia a estructuras más conectadas que los

dyads (pares de nodos), triads (tríadas de nodos), o redes de tipo ego-centered (redes centradas

en un nodo y sus relaciones directas).

En (Freeman, 2011) se mencionan varios enfoques para la identificación de grupos cohesi-

vos, incluyendo modelos algebraicos, basados en teoría de grafos, teoría de probabilidades, y

permutación de matrices.

Alternativamente, en (Hanneman & Riddle, 2005) se clasifican los enfoques de identificación

Page 29: Un enfoque inteligente para la selección de grupos de

12 Marco teórico

de grupos cohesivos en bottom-up y top-down, donde estos enfoques bien pueden ser comple-

mentarios. A continuación se describen estos enfoques.

Enfoques bottom-up

Los enfoques bottom-up para la identificación de grupos cohesivos parten de las estructuras

más simples, como por ejemplo los dyads, y van construyendo la red a medida que van agregando

nodos que se encuentran relacionados a estas estructuras.

Algunos enfoques incluyen cliques, en los que todos los miembros se encuentran completa-

mente conectados. En ocasiones esta condición es demasiado restrictiva, por lo cual se plantean

modificaciones como N-cliques. Éstos definen como parte del clique a aquellos nodos que se en-

cuentren a una longitud máxima N del camino entre dos nodos del clique. Por otra parte, N-clans

modifica a N-clique limitando los enlaces exclusivamente entre miembros del clique. K-plexes es

una variante del clique, en el que se admite que todos los nodos del grupo se encuentren conec-

tados a todos los otros miembros del grupo, excepto a K de ellos. Finalmente, K-cores indica que

un nodo es miembro del grupo mientras que esté conectado a al menos otros K miembros del

grupo.

Enfoques top-down

Los enfoques top-down buscan identificar las subestructuras a partir de toda la dimensión

de la red desde una visión general. Esta estrategia intenta identificar las partes más densas en

términos de relaciones entre los nodos de una red, y a su vez identificar las conexiones más

débiles entre estas subestructuras.

En la identificación de grupos, es importante el concepto de componente en el que un conjunto

de nodos se encuentra conectado entre sí, pero no con el resto de la red. Por otra parte, pueden

existir componentes potenciales, los cuales se formarían en caso de eliminar un nodo denominado

cutpoint, que conecta este conjunto de nodos con los otros nodos de la red. La eliminación de

cutpoints genera subestructuras de la red denominadas bloques.

Adicionalmente, al eliminar ciertos enlaces, se podría generar una subestructura que la des-

conecte de la red. En este caso, estos enlaces reciben el nombre de bridges. Otros roles asociados

con la identificación de grupos son los de hub y gateway (Chou & Suzuki, 2010).

Alternativamente, mediante el enfoque de facciones se pueden generar particiones en la red,

basándose en la similitud de las conexiones entre los miembros de facciones. Esta estrategia

maximiza la similitud entre los miembros de una partición y la minimiza entre miembros de

particiones distintas.

En (Chin & Chignell, 2010) se propone un método para la identificación de grupos mediante

un análisis de similitud de dichos grupos y su evolución en el tiempo.

El cuadro 2.1 presenta una descripción de algunos de los enfoques para detección de grupos

cohesivos en redes sociales.

Page 30: Un enfoque inteligente para la selección de grupos de

2.3 Análisis de Redes Sociales 13

Enfoque Forman parte del grupo

top-down

clique todos los miembros completamente conectados

N-clique nodos que se encuentran a una longitud máxima N del nodoparticular

N-clans limita a N-clique a miembros del clique

N-plexes nodos conectados a todo el grupo, excepto a K de ellos

K-cores nodos conectados a al menos K miembros del grupo

bottom-up

componentes nodos conectados entre sí pero no al resto de la red

componentespotenciales

se forman componentes si se eliminan ciertos nodos (cutpoints)

bloque subestructura que se genera al eliminar enlaces

Cuadro 2.1: Enfoques top-down y bottom-up para la identificación de grupos cohesivos.

2.3.3. Posiciones y roles

El estudio de la importancia de los actores individuales, así como el de la determinación de

grupos cohesivos, permiten analizar las propiedades estructurales de la red en base a los actores

y los grupos que conforman.

Sin embargo, es posible considerar los actores como ejemplos de categorías, ya que los mis-

mos presentan atributos que permiten esta clasificación. Así una persona puede clasificarse de

acuerdo a su edad, sexo, ubicación geográfica, etc., lo que en definitiva constituyen categorías

de las personas.

Basándose en las categorías, es posible realizar un análisis de las posiciones o roles que

desempeñan los actores, y así analizar las relaciones entre las distintas categorías.

Clasificación del análisis de posición y roles

En (Freeman, 2011) se distinguen cuatro tipos de análisis de posiciones clasificados en grupos,

roles sociales, estructuras jerárquicas, y centralidad de los nodos en las redes.

El estudio de posiciones en grupos analiza la ubicación de actores en los núcleos o bien en la

periferia de grupos, considerando que el núcleo está compuesto por actores más relacionados, y

ubica en la periferia a aquellos actores que interactúan con el núcleo, pero menos frecuentemen-

te.

El concepto de rol social se encuentra vinculado con las propiedades de ciertos actores y su

desempeño en la red, los cuales son propios de alguna categoría, un rol, permitiendo clasificar

los actores en los mencionados roles y determinar su incidencia en la red.

Page 31: Un enfoque inteligente para la selección de grupos de

14 Marco teórico

Equivalencia Basada en Ejemplos de métodos

Estructural los actores equivalentes seconsideran sustituibles

correlation, squared Euclideandistances, matches, positive

matches (Jaccard coefficients)

Automórfica similitud entre grupos de actores geodesic equivalence, maxsim,tabu search

Regular clases o roles de actores y susrelaciones con actores de otros

grupos

REGE

Cuadro 2.2: Características de las equivalencias para la identificación de posiciones y roles.

Las estructuras jerárquicas tienen por objeto principal de estudio, la identificación de los ór-

denes de dominio entre los actores de una red.

Finalmente los estudios sobre centralidad intentan determinar la importancia de actores o

conjuntos de actores en una red.

Parte de la investigación en relación a posiciones y roles tiene que ver con la formalización de

estos conceptos. Como resultado, se encuentran definiciones algebraicas (White & Reitz, 1983),

como así también basadas en teoría de grafos (Everett, 1985). El concepto de posición ha sido

asociado a varias áreas, algunas propias del SNA, como así también algunas pertenecientes a

otras disciplinas. Algunos ejemplos incluyen el descubrimiento de roles asociado a la identifica-

ción de temas o tópicos (McCallum et al., 2005), y la preferencia de la equivalencia por sobre el

del cohesión en el descubrimiento de grupos (Burt, 1978, 1987).

Equivalencia

El análisis de posiciones y roles se interesa en la similitud o equivalencia entre las categorías

de la red. En (Borgatti & Everettt, 1992) se clasifica esta equivalencia en estructural, automórfica

y regular. Estructural, en la que los actores equivalentes son considerados sustituibles entre sí

por presentar las mismas relaciones con otras categorías. Automórfica, en la que se analiza la

similitud entre subgrupos de actores. Regular, en la que se intenta determinar cuáles son las

clases de actores o roles, de acuerdo a los conjuntos a los que pertenecen y las relaciones entre

actores de otros conjuntos. A su vez, las equivalencias pueden comparase, como así también sus

métodos de detección (Doreian, 1988).

El cuadro 2.2 presenta un resumen de las equivalencias junto con sus características y algunos

ejemplos de métodos para su determinación.

Page 32: Un enfoque inteligente para la selección de grupos de

2.4 Algoritmos Genéticos 15

2.4. Algoritmos Genéticos

Los Algoritmos Genéticos forman parte de los llamados Algoritmos Evolutivos. Éste consiste

en una alternativa al problema de optimización mediante una heurística. Un algoritmo genéti-

co tiene por objetivo principal, la búsqueda de soluciones utilizando como base el modelo de

selección natural (Goldberg, 1989; Mitchell, 1997).

Un Algoritmo Genético contiene dos componentes esenciales. El primero es la representación

del espacio de soluciones. El segundo es una función de fitness o aptitud, la cual es utilizada

como la función objetivo del problema de optimización.

Las soluciones posibles se representan mediante una población de individuos, los cuales son

condificaciones, generalmente dadas a partir de vectores, y reciben el nombre de cromosomas o

genotipos.

El Algoritmo Genético emula el proceso de selección natural a partir de la aplicación de

un conjunto de operadores sobre las soluciones posibles . Éstos se agrupan en operadores de

mutación, cruce, y selección de las soluciones. Asimismo, el Algoritmo Genético aplica estos

operadores para producir nuevas soluciones en lo que se denominan generaciones. Finalmente,

luego de superado un umbral en la evolución de las generaciones, se establece un corte en el

proceso evolutivo, produciendo un conjunto de soluciones que optimzan la función de fitness.

2.5. Resumen

En este capítulo se presentan los conceptos fundamentales para el desarrollo de este traba-

jo. Éstos incluyen la definición de Aprendizaje de Máquina como estrategia para la predicción

de un conjunto de datos, junto con una descripción general de las estrategias de aprendizaje

clasificadas en Aprendizaje Supervisado, No Supervisado, y Semi-Supervisado. El Etiquetado de

Roles Semánticos, como estrategia de análisis semántico de texto a partir del concepto de Mar-

cos Semánticos. El concepto de redes sociales y sus elementos principales, junto con un resumen

general de las técnicas de Análisis de Redes Sociales, agrupadas en estrategias para determinar

la importancia de nodos, el descrubrimiento de grupos cohesivos o comunidades, y el análisis

de posiciones y roles. Finalmente, se incluye el concepto de Algoritmo Genético como estrategia

para la optimización de problemas de búsqueda de soluciones posibles.

Page 33: Un enfoque inteligente para la selección de grupos de
Page 34: Un enfoque inteligente para la selección de grupos de

Capıtulo 3

Trabajos relacionados

Los procesos de selección de grupos de expertos mediante redes sociales implican varias acti-

vidades relacionadas con el procesamiento de información relacionada con la experiencia de las

personas. Estas actividades incluyen la creación de perfiles de expertos, la definición de procesos

de búsqueda y recuperación de expertos, la generación de modelos para extraer información re-

lacionada con la experiencia, y la definición de estrategias para la selección de grupos mediante

el análisis de las redes sociales de un conjunto de personas. Este capítulo presenta un estudio

del estado del arte en relación a la Recuperación de Expertos, la extracción de evidencia de

experiencia a partir de documentos de texto, y la detección de grupos en redes sociales.

Este capítulo se organiza de la siguiente manera. La sección 3.1 presenta trabajos relaciona-

dos con la Recuperación de Expertos, las estrategias para este fin, junto con los enfoques para

la extracción de evidencia de experiencia a partir de propiedades sintácticas y semánticas de

documentos de texto. También se incluye un apartado en relación a los criterios de selección de

expertos. La sección 3.2 presenta estrategias para el procesamiento de documentos de textos con

objeto de extraer sentencias importantes de éstos. La sección 3.3 presenta las estrategias para

la detección de grupos en redes sociales, como herramientas para la selección de grupos. Final-

mente, la sección 3.4 presenta un resumen de los trabajos relacionados, junto con una discusión

de los enfoques.

3.1. Recuperación de expertos

El área de Recuperación de Expertos (ER), una subárea de Recuperación de Información (IR),

define dos objetivos relacionados con el descubrimiento de asociaciones entre expertos y áreas

de conocimiento (Balog & De Rijke, 2007): el Perfilado de Expertos (Expert Profiling) y Hallazgo

de Expertos (Expert Finding). Sin embargo, el objetivo de los sistemas de Hallazgo de Expertos es

asociar expertos en un tema dado, mientras que el objetivo del Perfilado de Expertos es descubrir

Page 35: Un enfoque inteligente para la selección de grupos de

18 Trabajos relacionados

temas asociados a un experto.

Independientemente de su objetivo, los sistemas de RE necesitan encontrar temas o áreas

de conocimiento mediante el análisis de evidencia que demuestre la experiencia del experto.

En RE, esta evidencia de experiencia es generalmente representada mediante documentos como

curriculum vitae, publicaciones científicas, y listas de áreas de conocimiento, entre otras.

La importancia de la evidencia de experiencia, así como el contexto, son requeridos para

asistir a los usuarios de los sistemas de RE. En (Balog et al., 2009) se introduce la tarea de de-

terminar los perfiles de expertos y proponen dos modelos para su resolución. Ambos modelos se

basan en la construcción de perfiles basados en evidencia de experiencia tales como documentos

y áreas de conocimiento.

La evidencia de experiencia es usualmente almacenada en documentos de texto en forma

estructurada o semi estructurada. Por lo tanto, la extracción de evidencia de experiencia es uno

de los principales desafíos de la RE. En (Neshati et al., 2014) se reconoce la necesidad de trans-

formar descripciones textuales de proyectos en un conjunto de habilidades que los candidatos

expertos deben cumplir para ser seleccionados. Los autores proponen el concepto de noción im-

plícita de experiencia en descripciones de proyectos.

La mayoría de los enfoques para la extracción de evidencia de experiencia están basados

en propiedades sintácticas de los documentos. En (Ribeiro et al., 2015) se usan los curriculum

vitaes de un grupo de investigadores, como evidencia de experiencia en un modelo de recupe-

ración de expertos basado en etiquetas. Los autores comparan el algoritmo utilizado con otros

algoritmos para la recomendación de etiquetas que utilizan títulos, resúmenes, y palabras claves

de contribuciones científicas. Otros trabajos se enfocan en la extracción de temas o tópicos, como

representativos de áreas de conocimiento. En este sentido, En (Silvello et al., 2016) se propone la

extracción de temas de experiencia usando una adaptación de otros enfoques basados en extrac-

ción de términos y en extracción de frases clave. En (Momtazi & Naumann, 2013) se argumenta

que los enfoques actuales de RE, basados en la extracción de temas a partir de documentos, no

consideran las relaciones ocultas entre los candidatos y las consultas. Con este fin, los autores

proponen un enfoque para el Hallazgo de Expertos basado en Latent Dirichlet Allocation (LDA).

Otros trabajos en la extracción de experiencia tienen en cuenta otras propiedades de los

documentos, además de las sintácticas o las semánticas. En (Serdyukov et al., 2011) se aplica ML

a la tarea de Perfilado de Expertos mediante el etiquetado automático de personas dentro de un

contexto empresarial. Los autores proponen un listado de etiquetas con un orden de relevancia

o ranking. Este enfoque utiliza un vocabulario de etiquetas creado por un conjunto de usuarios

para este problema en particular.

Además de la evidencia de experiencia, otro aspecto importante sobre la creación de perfiles

de expertos radica en la organización de los datos de dichos perfiles, así como de su inherente

cambio. En (Rybak et al., 2014) se introduce la tarea de identificar y caracterizar los cambios

en la experiencia de los individuos en el tiempo. Los autores proponen el concepto de perfil de

experiencia jerárquica para organizar la taxonomía de la experiencia, representada mediante un

Page 36: Un enfoque inteligente para la selección de grupos de

3.2 Extracción de sentencias 19

árbol ponderado. En esta línea, En (Wu et al., 2015) se considera la estructura jerárquica de las

áreas de conocimiento relacionadas a un experto mediante un modelo de clasificación.

Algunos trabajos explotan particularidades del dominio de aplicación para la RE. En este sen-

tido, en (Liu et al., 2013) se utilizan aspectos específícos del dominio de los sitios de pregunta-

respuesta. Entre estos aspectos se incluyen la relevancia del tema, reputación del usuario, y la

autoridad de una categoría. En (Karimzadehgan et al., 2008; Karimzadehgan & Zhai, 2012) se

modelan múltiples aspectos de la experiencia de personas en el marco del problema de Asigna-

ción de Revisores en Comités (CRA). Los autores proponen la extracción de temas a partir de

documentos asociados a los candidatos expertos, como el caso de las contribuciones científicas.

Criterios de selección de expertos

En (Rowe et al., 2013) se identifican un conjunto de criterios de selección, tanto incluyentes

como excluyentes, de expertos para la conformación de paneles de asesores (advisory panels) en

el contexto de la salud de varias organizaciones organizaciones internacionales. Enfatizan en el

conflicto de intereses de los miembros de los comités, siendo estos conflictos, financieros o de

otros tipos, como religiosos, políticos, o ideológicos, entre otros.

Proponen un conjunto de principios para la selección de miembros de paneles de expertos.

Entre los principios, se menciona que los criterios de elegibilidad y selección deben ser transpa-

rentes, estar disponibles y ser de acceso público. Sin embargo, no se menciona si los resultados

de las evaluaciones deben presentar las mismas características. El aporte principal de este trabajo

radica en la identificación de criterios de selección y la propuesta de un conjunto de principios

para la selección de expertos. Sin embargo, esta identificación de criterios se realiza sobre los

lineamientos de las organizaciones relevadas, sin considerar la opinión de los responsables del

proceso de selección. Por otra parte, los autores reconocen la importancia de la parcialidad (bias),

y menciona algunas alternativas para su tratamiento, entre las que se encuentra el análisis de las

declaraciones públicas de los candidatos. Esta alternativa implica un análisis de los candidatos y

sus propiedades, mas no se considera cuál es el resultado de la evaluación de los responsables

del proceso de selección sobre ese candidato.

3.2. Extracción de sentencias

El problema de la Extracción de Sentencias (SE) forma parte del área para la generación auto-

mática de resúmenes de texto (Automatic Text Summarization) (Paice, 1990; Salton et al., 1997;

Mani & Maybury, 1999). El objetivo de la SE es clasificar sentencias relevantes de otros conte-

nidos en documentos de texto. En (Kupiec et al., 1995) se propone un generador de resúmenes

de documentos entrenable basado en propiedades estadísticas de los textos. En este sentido, en

(Teufel & Moens, 1997) se entrenó un modelo de clasificación para la generación automática de

resúmenes de publicaciones científicas. Este modelo usa la evaluación de expertos para selec-

Page 37: Un enfoque inteligente para la selección de grupos de

20 Trabajos relacionados

cionar las sentencias, y se basa en la similitud del contenido semántico entre las sentencias de

los resúmenes y de los documentos. A pesar de la subjetividad introducida por el componen-

te humano en la selección de las sentencias, los autores alcanzan resultados destacables en la

generación de resúmenes.

Adicionalmente a los enfoques mencionados, se ha evaluado la generación automática de

resúmenes de texto no estructurado a partir de las propiedades semánticas de éstos. En este

sentido, en (Suanmali et al., 2011) se utiliza el Etiquetado de Roles Semánticos (SRL) para iden-

tificar el contenido semántico de documentos de texto y generar los resúmenes a partir de éstos

en modelos difusos.

En el área de Aprendizaje de Máquina (ML), en (Fattah, 2014) se aplica el algoritmo SVM

para la clasificación de sentencias. Los autores probaron que este enfoque mejora el desempeño

de la generación de resúmenes al compararlo con otras estrategias de clasificación, tales como

Maximum Entropy o Naive-Bayes.

3.3. Detección y selección de grupos en redes sociales

En el contexto de las redes sociales, se pueden diferenciar dos problemas relacionados con las

estructuras que conforman los grupos. Por una parte, la detección de grupos trata el problema

del descubrimiento de conjuntos de nodos, denominados grupos o comunidades, a partir del

análisis de las propiedades estructurales de las redes que conforman. Por otra parte, la selección

de grupos trata el problema de identificar conjuntos de nodos de acuerdo a ciertos criterios de

selección.

Pese a esta distinción en los conceptos de selección y detección de grupos, es frecuente que

la selección haga uso de la detección para la evaluación de los criterios de selección. Por este

motivo, resulta relevante una revisión de las estrategias de detección de grupos en redes sociales.

Las estrategias de detección de grupos en redes sociales se valen de las propiedades estruc-

turales de éstas, como la métricas de centralidad o las métricas de cohesión. Estas estrategias

difieren principalmente de acuerdo al objetivo de la selección del grupo. Por ejemplo, en algunos

casos el objetivo consiste en maximizar la difusión en la red, fragmentar la red, seleccionar el

conjunto de nodos más influyentes, o bien recomendar nuevos enlaces en la red social.

Desde la perspectiva de la difusión y la fragmentación, en (Borgatti, 2006) se plantea el

problema de detección de grupos de actores claves de la red (Key Player Problem), estableciendo

dos objetivos principales. Por un lado, la detección de actores claves para la difusión en la red

(KPP-Pos), y por el otro, la fragmentación de la red a partir de la eliminación de dichos actores

clave (KPP-Neg). En ambos casos, el problema plantea la utilización de métricas de centralidad

de un conjunto de nodos de la red para su evaluación.

Otro objetivo plantea la detección de grupos de nodos que maximicen la influencia de éstos

en el resto de la red. Esto implica seleccionar un conjunto de nodos que maximicen el poder

ejercido sobre otros nodos de la red. En este sentido, en (Cao et al., 2011) se propone la selección

Page 38: Un enfoque inteligente para la selección de grupos de

3.3 Detección y selección de grupos en redes sociales 21

de grupos de nodos con el objeto de maximizar la influencia en el resto de la red, mediante la

representación del problema como una asignación óptima de recursos.

Por otra parte, en (Wi et al., 2009b,a) se seleccionan miembros de equipos basados en su fa-

miliaridad, mediante métricas de centralidad y la aplicación de algoritmos genéticos. En (Kolaczyk et al.,

2009) se seleccionan conjuntos de nodos mediante la definición de una variante de la métrica

de centralidad betweenness.

Estas estrategias de detección de actores clave, maximización de influencia, y optimización de

alguna propiedad estructural, establecen únicos criterios de selección de los grupos. Sin embargo,

estas estrategias no preveen la incorporación de otros criterios para la selección de grupos de

nodos.

Respecto de los intentos por consolidar varios criterios en la selección de grupos en redes

sociales. En (Hinds et al., 2000) se propone la selección de compañeros de grupos de trabajo,

mediante un modelo combinado de atributos de nodos, atributos de relaciones y propiedades

estructurales de los candidatos. En (Morgan & Carley, 2014) se presenta un modelo organiza-

cional para el análisis de procesos de contratación de personas, en el que se realiza el análisis de

un conjunto de factores para la selección de los candidatos (Morgan & Carley, 2011).

También en selección de grupos, en (Kazienko et al., 2006) se propone un enfoque a partir

de redes sociales denominado "human filtering". Mediante este enfoque pretenden resolver el

problema de selección de target groups, o grupos de personas para publicidad o recomendación.

Para ello, definen un proceso de selección basado en un modo tradicional de selección de perso-

nas, considerando características demográficas y otros intereses, junto con la detección de grupos

cohesivos mediante SNA. Si bien el trabajo utiliza SNA para la selección de grupos, no indica un

modo de representar otros criterios de selección de grupos mediante SNA, o bien de combinar

otras propiedades del SNA en el proceso de selección.

Detección de grupos en redes complejas

Las redes complejas incluyen redes sociales con múltiples tipos de relaciones (multi-capas),

de gran tamaño, y dinámicas.

Particularmente en relación a las redes con múltiples relaciones, en (Bródka et al., 2013) se

presenta un enfoque para la detección de comunidades en redes multi-capas mediante una trans-

formación de la red. Si bien el enfoque pretende detectar comunidades mediante técnicas como

la agrupamiento (clustering), las múltiples capas de la red social podrían resultar adecuadas para

la representación de múltiples criterios de selección de grupos.

Respecto de la utilización de las propiedades estructurales de redes complejas para la detec-

ción de grupos, en (Vasudevan & Deo, 2012) se propone un algoritmo basado en la maximización

del degree promedio para el descubrimiento de comunidades en una red. Sin embargo, la con-

cepción de red compleja utilizada es la de grafos grandes, dinámicos y aleatorios, sin describir la

aplicación del algoritmo en un escenario de representación de múltiples tipos de relaciones.

En relación con el seguimiento de los grupos en el tiempo, en (Chin & Chignell, 2010) se

Page 39: Un enfoque inteligente para la selección de grupos de

22 Trabajos relacionados

propone un método para la detección de grupos mediante un análisis de similitud de dichos

grupos, así como un análisis de su evolución.

3.4. Resumen

En este capítulo se presentan los trabajos relacionados con la selección de grupos de personas,

mediante redes sociales. En particular, se relevaron aquellos trabajos vinculados con la Recupe-

ración de Expertos, la extracción de evidencia de experiencia, la importancia de los criterios de

selección, y las estrategias de detección de grupos basados en redes sociales.

Como resultado del estudio, se identificó que el procesamiento de la evidencia es clave en la

evaluación de la experiencia de las personas. Asimismo, los proceso de Recuperación de Expertos

dependen fundamentalmente de esta evidencia de experiencia para la generación de perfiles de

los expertos.

Por otra parte, se identificó que los enfoques de detección de grupos en redes sociales se

basan generalmente en alguna propiedad estructural de centralidad como degree, betweenness

o closeness, entre otros. Esto implica que la representación de los criterios para la selección de

grupos suelen utilizar un único tipo de relación o propiedad de la red. Sin embargo, se encontra-

ron trabajos relacionados con la detección de grupos en redes complejas, los cuales incorporan

características como múltiples capas, o tipos de relaciones, y redes dinámicas.

Las características de las redes complejas permiten la representación de múltiples relaciones

como criterios de selección. Sin embargo, no se han encontrado alternativas que permitan la

representación y evaluación de múltiples criterios de selección de grupos en redes sociales.

En resumen, el problema de selección de grupos de expertos a partir de redes sociales implica

definir un mecanismo que permita la representación de múltiples criterios de selección; definir

un proceso de selección de grupos en base a los criterios establecidos; y la automatización del

proceso de evaluación y selección. En este sentido, un mecanismo de selección de grupos debe-

ría abordar algunos aspectos clave. Inicialmente, es necesario identificar criterios de selección

por los cuales se realiza la selección de expertos para la conformación de grupos. Asimismo, es

necesario establecer una alternativa de representación de múltiples criterios para la selección

de grupos. Esta representación debe tener en cuenta que los criterios pueden ser varios, hete-

rogéneos, y posiblemente conflictivos. Finalmente, el proceso de selección de grupos a partir de

criterios de selección debe considerar la posibilidad de automatización para la evaluación de

dichos criterios.

Page 40: Un enfoque inteligente para la selección de grupos de

Capıtulo 4

Enfoque para la selección de grupos

de expertos mediante redes sociales

En este capítulo se presenta el enfoque propuesto para la selección de grupos de expertos

mediante redes sociales. Este enfoque propone un método que utiliza técnicas de Procesamien-

to de Lenguaje Natural (NLP), con el objetivo de generar información que permita identificar

candidatos expertos para la conformación de grupos. Asimismo, el enfoque también propone un

método que utiliza técnicas de Análisis de Redes Sociales (SNA) y de computación evolutiva, con

el objetivo de generar conformaciones posibles de grupos de expertos.

En la sección 4.1 se presenta una visión general del método propuesto. La sección presenta

el problema que se pretende resolver, junto con una breve descripción de las partes del método

propuesto. La sección 4.2 introduce la primera parte del método, la cual trata la identificación

de candidatos expertos elegibles para la conformación de grupos, desde la perspectiva de los

criterios aplicados en la selección de los candidatos. La sección 4.3 introduce la segunda parte

del método, la cual propone una representación del problema de selección de grupos mediante

redes sociales, y propone un método de computación evolutiva para optimizar la búsqueda de

conformaciones posibles de grupos de expertos. Finalmente, en la sección 4.4 se presenta un

resumen de este capítulo.

4.1. Visión general

Un grupo de expertos es un conjunto de personas con reconocido dominio de alguna ma-

teria. Los grupos de expertos se constituyen por varios motivos, como el tratamiento de temas

específicos, definición de políticas, asignación de recursos, y asesoramiento, entre otros.

Por lo general, los grupos de expertos son seleccionados mediante algún proceso de selección

de grupos, en el cual se evalúan tanto los requisitos que deben cumplir los candidatos, como

Page 41: Un enfoque inteligente para la selección de grupos de

24 Enfoque para la selección de grupos de expertos mediante redes sociales

Candidatos Grupos

Criterios de selección

Selección degrupos de expertos

Figura 4.1: Proceso típico de selección de grupos de expertos.

así también los requisitos de los grupos en sí mismos. Estos requisitos se definen a partir de

los criterios de selección que, cuando están disponibles, se pueden encontrar definidos en los

lineamientos generales de los mismos procesos de selección. La figura 4.1 presenta un proceso

típico de selección de grupos de expertos, en el que un conjunto de candidatos es evaluado,

para luego seleccionar la conformación adecuada a los criterios de selección definidos dentro del

proceso de selección.

Estos procesos de selección de expertos presenta dos problemas importantes, relacionados

con los siguientes interrogantes:

1. ¿Cómo determinar la elegibilidad (aptitud) de un candidato para conformar un grupo de

expertos?

2. ¿Cómo seleccionar el mejor grupo de expertos posible a partir de un conjunto de candidatos

elegibles?

El primer interrogante se refiere la condición de elegibilidad de un candidato para cubrir una

posición de experto, dada a partir de la evaluación de un conjunto de criterios de selección. Esto

puede implicar que el conjunto de candidatos a conformar los grupos se asumen como expertos,

o que su condición de expertos se evalúa dentro del mismo proceso de selección de grupos. En

cualquier caso, en alguna parte del proceso se debe considerar quién es considerado un experto

elegible para conformar un grupo de expertos. El interrogante plantea un problema importante

asociado a la elegibilidad de un candidato, ya que los criterios de selección de expertos suelen

ser subjetivos, poco descriptivos, escasos, o inclusive no estar disponibles para ser consultados.

Esta situación limita la posibilidad de demostrar objetivamente el nivel de experiencia de un

candidato, y por lo tanto su elegibilidad para la conformación de grupos de expertos.

Page 42: Un enfoque inteligente para la selección de grupos de

4.2 Elegibilidad de candidatos mediante criterios de selección de expertos 25

Candidatoselegibles

Candidatos Grupos

Elegibilidad de

candidatos

Figura 4.2: Enfoque general propuesto de selección de grupos de expertos.

El segundo interrogante se refiere a las posibles conformaciones de grupos de expertos. La

selección de grupos implica un elevado costo en la evaluación de las posibles conformaciones.

Este costo está asociado al número de miembros y sus relaciones, los candidatos a conformar

los grupos, y los criterios de selección. En particular, esto se evidencia en organizaciones que

requieren seleccionar grupos de expertos a partir de un gran número de candidatos.

En este capítulo se describe un enfoque para el problema de la selección de expertos, el cual

consiste de dos partes. Por una parte, con objeto de determinar la elegibilidad de candidatos a

ocupar posiciones de experto, se propone un método para la identificación y evaluación de crite-

rios de selección aplicados en la evaluación de dichos candidatos. Por otra parte, con objeto de

seleccionar grupos de expertos, se propone un método para la selección óptima de conformacio-

nes, basada en las relaciones sociales de sus miembros.

La figura 4.2 presenta el enfoque general de la propuesta con sus procesos principales. El pro-

ceso de elegibilidad de candidatos toma información de los candidatos a conformar los grupos

de expertos, junto con información de los criterios de selección. La salida de este proceso es un

subconjunto de candidatos elegibles, los cuales cumplen con los criterios del proceso de selección

de expertos. Luego, el proceso de selección de grupos de expertos toma la información del sub-

conjunto de candidatos elegibles, y de las relaciones sociales de éstos, con objeto de determinar

las mejores conformaciones posibles.

El enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad

a los procesos de selección de grupos de expertos, a partir del análisis de los candidatos en forma

individual, como así también del análisis de las conformaciones de grupos de expertos.

4.2. Elegibilidad de candidatos mediante criterios de selec-

ción de expertos

Los criterios de selección de expertos describen las habilidades o características de los can-

didatos, requeridas para cubrir una posición determinada en el ámbito de una organización.

Estos criterios son la base para la evaluación de los candidatos, y en consecuencia, permiten

Page 43: Un enfoque inteligente para la selección de grupos de

26 Enfoque para la selección de grupos de expertos mediante redes sociales

determinar si un candidato es adecuado para una posición determinada.

Los criterios de selección representan un aspecto fundamental de los procesos de selección.

Sin embargo, los criterios de selección no siempre se encuentran disponibles en forma explícita,

o bien son de naturaleza subjetiva, lo que implica una dificultad para su análisis. Por ejemplo,

Naciones Unidas en una de sus dependencias1, define una guía para conformar grupos de exper-

tos. Esta guía incluye un conjunto de criterios de selección para la nominación de candidatos a

conformar dichos grupos2. Uno de estos criterios indica que los candidatos deben posser:

“Internationally recognized expertise ... to be demonstrated by: (i) A record of

scientific publications ... (iii) Experience at a high level in the design and manage-

ment ... in marine science ... “

donde se indica de forma explícita cómo se demuestra la “experiencia reconocida internacional-

mente” de un candidato. Sin embargo, otro de los criterios indica:

“The ability to serve in an independent, individual capacity”

donde se evidencia la subjetividad del criterio, ya que a diferencia del primer ejemplo, no se

aclara cómo puede ser demostrado.

Los criterios de selección subjetivos, frecuentes en varios procesos de selección de expertos,

impiden realizar un análisis objetivo de dichos procesos. A su vez, generan el siguiente interro-

gante:

¿cuáles son los criterios de selección aplicados en un proceso de selección de

expertos?

Esta pregunta presenta dos problemas relacionados con los criterios de selección de expertos.

Primero, la necesidad de identificar criterios de selección cuando éstos no están disponibles (no

explícitos). Segundo, la necesidad de diseñar instrumentos que permitan medir la aplicación de

los criterios de selección.

La necesidad de identificar criterios de selección no explícitos, obliga a buscar una fuente de

información que pueda contener estos criterios. Así es que se identifica que el resultado de un

proceso de selección de expertos, suele acompañar una evaluación de los candidatos. En este

sentido, es de suponer que las evaluaciones de los candidatos reflejen los criterios de selección

definidos para el proceso de selección de expertos. Las evaluaciones de los candidatos, cuando

son expresadas en lenguaje natural, suelen contener descripciones, las cuales definimos como las

características destacadas de los candidatos desde el punto de vista de la persona responsable de

la evaluación. Estas descripciones, son una suerte de argumentos del evaluador para justificar la

conformidad (o inconformidad) del candidato a los criterios de selección definidos para cubrir

una posición de experto. Por ejemplo, una descripción en la evaluación de un candidato podría

ser:1http://www.un.org/depts/los2http://www.un.org/depts/los/global_reporting/Criteria_for_Appointment.pdf

Page 44: Un enfoque inteligente para la selección de grupos de

4.2 Elegibilidad de candidatos mediante criterios de selección de expertos 27

“The candidate have demonstrated a great capacity in conflict resolution”

Por lo tanto, sería posible identificar los criterios de selección de expertos mediante un análisis

de las descripciones de los candidatos. Esta situación conduce a la siguiente hipótesis:

Los criterios de selección (explícitos o no) se encuentran implícitos en las descripcio-

nes de los candidatos contenidas en sus evaluaciones.

Se establece entonces una distinción entre los criterios de selección explícitos e implícitos. Defi-

nimos como explícitos a aquellos criterios descriptos explícitamente en los procesos de selección

(por ej. guías, estatutos, lineamientos, etc.). Asimismo, definimos como implícitos a aquellos cri-

terios contenidos implícitamente en las descripciones de los candidatos, en el contexto de sus

evaluaciones.

Adicionalmente, se requiere una alternativa para medir la aplicación de los criterios de selec-

ción. Esto implica determinar en qué medida se asemejan dos conjuntos de criterios de selección,

uno correspondiente a criterios de referencia (como los explícitos) y otro correspondiente a los

criterios a comparar (como los implícitos). Esta situación conduce a la siguiente hipótesis:

Los criterios de selección explícitos e implícitos (de un mismo proceso de selec-

ción) presentan un contenido semántico similar entre sí.

De esta manera, sería posible analizar la similitud semántica entre criterios (explícitos e implíci-

tos), y así determinar en qué medida se aplican en la evaluación de candidatos.

En esta primera parte del enfoque propuesto, se presenta una alternativa para el análisis de

similitud entre criterios de selección explícitos e implícitos. Esta alternativa está dada a partir

de la frecuencia de conceptos semánticos identificados en cada grupo de criterios de selección.

Para ello, se propone también un proceso de clasificación para la extracción de descripciones de

candidatos como elementos contenedores de criterios implícitos.

Con esta propuesta, se pretende determinar la conformidad de las evaluaciones, definida co-

mo la medida en que las evaluaciones de candidatos aplican los criterios de selección de un

proceso de selección de expertos. Esta conformidad pemitiría determinar la aplicación de crite-

rios de selección en evaluaciones de candidatos. El objetivo principal de esta propuesta radica en

determinar la elegibilidad de los candidatos para conformar grupos de expertos, definida como

la medida en que la evaluación de un candidato aplica los criterios de selección de un proceso de

selección de expertos. Así, la elegibilidad de un candidato es dada cuando los criterios implícitos

en sus evaluaciones alcanzan un nivel de similitud con el conjunto de criterios de selección de

referencia, sean éstos criterios explícitos o implícitos.

La figura 4.3 presenta un esquema general del enfoque propuesto, cuyo proceso principal es

el análisis de similitud de criterios de selección. Este análisis de similitud tiene como datos de

entrada al conjunto de criterios explícitos, extraídos en forma manual a partir de documentos,

tales como guías, estatutos, lineamientos, y otros documentos que definan los requerimientos

de las posiciones de expertos. El análisis de similitud también toma como datos de entrada al

Page 45: Un enfoque inteligente para la selección de grupos de

28 Enfoque para la selección de grupos de expertos mediante redes sociales

conjunto de contenidos con criterios implícitos (descripciones), extraídos en forma automática a

partir de las evaluaciones de los candidatos. El análisis de similitud extrae un conjunto de con-

ceptos semánticos de cada conjunto de criterios (explícitos e implícitos), y calcula la frecuencia

de los mismos. Finalmente, se determina el nivel de correlación de frecuencias de los concep-

tos semánticos correspondientes a cada grupo de criterios. El resultado final es un puntaje de

similitud, asociado al nivel de correlación entre criterios explícitos e implícitos, o entre criterios

implícitos.

4.3. Selección de grupos de expertos mediante redes sociales

La selección de grupos de expertos tiene por objetivo la conformación de conjuntos de can-

didatos expertos. Esta selección implica evaluar criterios de selección específicos de grupos, en

base a las relaciones entre los miembros de los grupos. Por ejemplo, cuando se requiere selec-

cionar un grupo de expertos interdisciplinario, se deben definir las disciplinas que deben cubrir

los expertos, y luego evaluar la medida en que los miembros de grupo posible se relacionan con

las disciplinas requeridas. En este ejemplo, la medida de conformidad del criterio de interdisci-

plinaridad del grupo, será evaluada considerando las relaciones entre los miembros del grupo y

las disciplinas requeridas para el grupo en su conjunto.

Al igual que en la selección de candidatos expertos, la selección de grupos de expertos tam-

bién define criterios de selección. Por ejemplo, es frecuente encontrar procesos de selección de

grupos de expertos que incluyan criterios para la selección de sus miembros, tales como “repre-

sentativos”, “independientes”, o “importantes”, entre otros. Desafortunadamente, resulta poco

frecuente encontrar criterios de selección instrumentados por métodos que permitan demostrar

el nivel de conformidad de dichos criterios. Por otra parte, a diferencia de la selección de can-

didatos, la selección de grupos no suele estar acompañada por evaluaciones de los grupos, que

permitan analizar la aplicación de los criterios de selección. Inclusive, en ocasiones, la única in-

formación disponible radica en el listado de miembros de los grupos conformados previamente.

Sin embargo, una característica importante de los procesos de selección de grupos, es que los

criterios de selección suelen considerar las relaciones entre los miembros del grupo. Por ejemplo,

un grupo interdisciplinario con miembros “representativos” se encontraría relacionado en sus

miembros y también en sus disciplinas. Las disciplinas en sí mismas también pueden contener

información que las relacione entre sí, al igual que los miembros del grupo pueden presentar

relaciones entre sí, o en relación a estas disciplinas. La figura 4.4 presenta un ejemplo hipotético

de la versatilidad de representación de criterios a partir información relacional. La figura pre-

senta tres tipos de representación para un mismo criterio de selección. El primero, presenta una

matriz de incidencia entre los candidatos a conformar el grupo, y las disciplinas asociadas a cada

candidato. El segundo, presenta una jerarquía entre las disciplinas. El tercero, presenta un grafo

con relaciones entre los candidatos representando un mínimo de disciplinas en común. Esta ver-

satilidad de la información relacional es una alternativa importante ante la falta de información

Page 46: Un enfoque inteligente para la selección de grupos de

4.3 Selección de grupos de expertos mediante redes sociales 29

Figura 4.3: Enfoque general propuesto para el análisis de criterios de selección.

Page 47: Un enfoque inteligente para la selección de grupos de

30 Enfoque para la selección de grupos de expertos mediante redes sociales

A

B C(a) Candidatos con relaciones de 2 omás disciplinas en común.

1

2 3 4

5(b) Jerarquía de disciplinas

Candidatos

Disciplinas asociadas

1 2 3 4 5

A

B

C

(c) Matriz de adyacencia entre candidatos y disciplinas

Figura 4.4: Ejemplos de representaciones de criterios de selección con redes sociales.

para la evaluación de criterios de selección de grupos de expertos.

Finalmente, la selección de grupos de expertos implica evaluar varias conformaciones posi-

bles de candidatos. Esta situación representa un elevado costo de procesamiento por la natu-

raleza combinatoria del problema. Por ejemplo, dado un conjunto de candidatos de tamaño n,

y grupos de tamaño r, el número posible de soluciones queda determinado por el coeficiente

binomial nCr, con complejidad O(n!), para el que no se conoce función polinomial que lo resuel-

va. Esta situación implica la necesidad de optar por un método no determinístico que permita

aproximar soluciones posibles.

Por lo tanto, se requieren instrumentos que permitan evaluar criterios de selección de grupos

en forma objetiva y eficiente, con el fin de dar claridad a los procesos de selección de grupos.

En esta segunda parte del enfoque propuesto, se presenta un método para la selección de

grupos de expertos, a partir del análisis de las redes sociales de un conjunto de candidatos (ele-

gibles). El método propuesto, utiliza un conjunto de métricas de SNA que permiten evaluar la

conformidad de grupos a ciertos criterios de selección de grupos. Asimismo, el método propo-

ne una estrategia de optimización para la búsqueda de conformaciones óptimas, mediante la

implementación de un algoritmo genético.

Inicialmente se presenta una métrica alternativa para determinar la independencia entre los

Page 48: Un enfoque inteligente para la selección de grupos de

4.4 Resumen 31

miembros de un grupo. Luego, se propone una estrategia para la integración de un conjunto de

métricas, a partir de la aplicación de técnicas de Toma de Decisiones con Múltiples Atributos

(MADM). Finalmente, se propone una estrategia de optimización para la búsqueda de grupos,

basada en la implementación de un Algoritmo Genético.

4.4. Resumen

En este capítulo se presenta el método propuesto para la selección de grupos de expertos

mediante redes sociales. El capítulo inicia con una visión general del método, junto con una

breve descripción de cada una de sus partes.

El descripción del método propuesto inicia con una alternativa para la identificación de can-

didatos expertos, a partir del análisis de los criterios de selección utilizados en la evaluación de

éstos. Para ello se propone un método para determinar la similitud entre criterios de selección

a partir de sus propiedades semánticas. La descripción del método propuesto continúa con una

alternativa para representar información relacional de los grupos de expertos, junto con la defi-

nición de un algoritmo genético, como estrategias para la selección óptima de conformaciones

posibles de grupos de expertos.

En los capítulos siguientes se presentan en detalle las dos partes del método propuesto.

Page 49: Un enfoque inteligente para la selección de grupos de
Page 50: Un enfoque inteligente para la selección de grupos de

Capıtulo 5

Elegibilidad de candidatos mediante

criterios de selección

El conjunto de candidatos disponibles es determinante para la selección de grupos de exper-

tos. Sin embargo, la elegibilidad de un candidato para conformar un grupo de expertos no se

restringe a la condición de experto de los candidatos. Adicionalmente, la elegibilidad del can-

didato se encuentra determinada por los criterios de selección por los que los candidatos son

evaluados para conformar grupos de expertos. En este capítulo se describe un método para de-

terminar la elegibilidad de un candidato, a partir de la similitud semántica entre los criterios de

selección aplicados en la evaluación de los candidatos y los criterios del proceso de selección

de expertos. La condición de elegibilidad es posteriormente utilizada en la segunda parte de la

propuesta, con objeto de conformar grupos de expertos a partir de candidatos que cumplan con

la condición de elegibilidad.

La sección 5.1 presenta el método propuesto para determinar la similitud semántica entre

dos conjuntos de criterios de selección. Este método contempla la extracción de criterios de

selección a partir de las evaluaciones de candidatos a conformar grupos de expertos. Asimismo,

se describe la estrategia propuesta para extraer las propiedades semánticas de un conjunto de

criterios de selección, determinar su relevancia y la correspondencia entre conjuntos de criterios

de selección. La sección 5.2 presenta la evaluación empírica del método propuesto. Finalmente,

en la sección 5.3 se presenta un resumen del capítulo.

5.1. Similitud semántica entre criterios de selección

En esta sección se describe el proceso propuesto para determinar la similitud entre conjuntos

de criterios de selección mediante un análisis de las propiedades semánticas de éstos.

Con este objetivo se plantean tres etapas. La primera etapa, describe el proceso para la iden-

Page 51: Un enfoque inteligente para la selección de grupos de

34 Elegibilidad de candidatos mediante criterios de selección

Figura 5.1: Ejemplo de SRL sobre un criterio de selección.

tificación de las propiedades semánticas de los criterios de selección. En esta etapa se describe

también un proceso para la extracción de descripciones de candidatos, como contenedores de

criterios de selección implícitos. La segunda etapa, describe una estrategia para evaluar la rele-

vancia de las propiedades semánticas de los criterios de selección a partir de su frecuencia de

ocurrencia. Finalmente, la tercera etapa, describe el proceso para evaluar la similitud entre cri-

terios mediante la correspondencia de la relevancia de las propiedades semánticas asociadas a

cada conjunto de criterios de selección.

5.1.1. Propiedades semánticas de criterios de selección

Un criterio de selección suele estar representado como una expresión en lenguaje natural.

Esto es válido para los criterios de selección tanto explícitos como implícitos. Por lo tanto, la

similitud entre criterios de selección es posible sólo si éstos pueden compararse entre sí. Con

este objetivo, es necesario un proceso de análisis que permita extraer propiedades comunes de

ambos tipos de criterios. Asimismo, estas propiedades deben ser representativas del contenido

semántico de dichos criterios.

Considerando que los criterios de selección, tanto explícitos como implícitos, son expresiones

en lenguaje natural, se propone extraer el contenido semántico de éstos mediante la utilización

de técnicas de Procesamiento de Lenguaje Natural (NLP). En particular, se propone la utiliza-

ción de la técnica de Etiquetado de Roles Semánticos (SRL) para la extracción de propiedades

semánticas de los criterios de selección. El SRL tiene por objetivo la identificación de relaciones

entre elementos de una oración, para su posterior clasificación en los denominados roles semán-

ticos (por ejemplo, los Marcos Semánticos (Semantic Frames) (Fillmore, 2006)). El SRL se puede

realizar de modo automático mediante la aplicación de alguna herramienta para tal fin.

La aplicación de SRL sobre criterios de selección explícitos es directa, ya que los datos de

entrada de la herramienta de SRL son las sentencias que corresponden a dichos criterios. La

figura 5.1 presenta un ejemplo de SRL para una sentencia correspondiente a un criterio de se-

lección explícito. En ésta, se observa que la frase “Teaching experience with the development,

implementation and evaluation of curricula” tiene asociados los roles semánticos Expertise, Per-

ception_Experience, Cause_To_Make_Progress, Execute_Plan, y Assessing. Cada una de estas

etiquetas tiene su definición1. Sin embargo, el objetivo en este trabajo es identificar los roles

asociados a este criterio de selección, no así el significado de estos roles en la oración.

A diferencia de los criterios explícitos, en este trabajo se sostiene que los criterios implícitos

se encuentran contenidos implícitamente en las descripciones los candidatos. Sin embargo, una

1https://framenet.icsi.berkeley.edu/fndrupal/index.php?q=frameIndex

Page 52: Un enfoque inteligente para la selección de grupos de

5.1 Similitud semántica entre criterios de selección 35

evaluación típica de un candidato presenta distintos contenidos además de las descripciones, por

lo que resulta necesario un proceso de extracción de las mismas.

Extracción de descripciones contenedoras de criterios implícitos

Una descripción es una sentencia expresada en lenguaje natural que refiere a las habilidades

o características de un candidato. En contextos de evaluación de candidatos para la selección de

expertos, una descripción es especialmente importante ya que se espera que esté relacionada con

la posición para la cual el candidato es evaluado. En otras palabras, una descripción debe estar

basada en los criterios de selección definidos para la posición a la que aspira el candidato. Por

ejemplo, la sentencia

“El candidato ha demostrado ser un miembro calificado y enérgico de esta agencia

federal”

es una descripción, ya que expresa características relevantes del candidato desde el punto de vista

del evaluador. Es de suponer entonces, que los criterios de selección definidos para la posición

a la que aspira el candidato, incluyen las características mencionadas en la descripción. Por el

contrario, y a modo de contra ejemplo, la sentencia

“Me encuentro aquí para apoyar la nominación del candidato”

no presenta características del candidato por lo que no es considerada una descripción del mismo.

En este trabajo se considera que las descripciones de candidatos son elementos representati-

vos de los criterios de selección implícitos de un proceso de selección de expertos. Por lo tanto,

las descripciones son importantes fuentes de información para mejorar la comprensión de los

procesos de selección. Esto se debe a que las descripciones en contextos de evaluación de los

candidatos, expresan el punto de vista de los evaluadores. Sin embargo, los contextos de evalua-

ción suelen presentar otros contenidos además de las descripciones. Por ejemplo, un contexto de

evaluación podría ser la transcripción de una audiencia para la confirmación de un candidato en

una posición. En este ejemplo, la audiencia puede contener palabras introductorias, comentarios

de otros oradores, etc. Por lo que resulta necesario extraer las descripciones de los candidatos

del resto del contexto de evaluación.

En esta sección, se presenta un proceso de clasificación de descripciones, a partir de eva-

luaciones de candidatos en procesos de selección de expertos. Este proceso de clasificación de

descripciones es modelado como un problema de aprendizaje supervisado para problemas de

clasificación binaria, es decir, con dos salidas posibles: “descripciones” y “no descripciones”.

Mediante el proceso de clasificación de descripciones, se pretende disponer de un conjunto

de contenedores de criterios de selección implícitos que puedan ser utilizados para determinar

la similitud entre criterios de selección de un proceso de selección de expertos.

A continuación se presenta el proceso propuesto para la clasificación de descripciones de

candidatos en contextos de evaluación.

Page 53: Un enfoque inteligente para la selección de grupos de

36 Elegibilidad de candidatos mediante criterios de selección

Clasificación de descripciones Los contextos de evaluación que mencionamos en este trabajo

son por lo general, documentos de texto que transcriben las declaraciones de los evaluadores y

otros actores, en relación a la evaluación de un candidato a ocupar una posición de experto. En

este marco, resulta necesario separar aquellas declaraciones de los evaluadores que correspon-

dan a las descripciones de los candidatos, de otros contenidos.

Con este objetivo, es necesario diseñar e implementar un proceso que permita clasificar las

descripciones de los candidatos, de otros contenidos del documento que no lo son.

El proceso propuesto para la extracción de descripciones consiste en el entrenamiento de un

modelo de aprendizaje supervisado de clasificación binaria, cuyo objetivo es etiquetar sentencias

en dos clases distintas: “descripciones” y “no descripciones”.

Formalmente, un documento de texto correspondiente a la evaluación de un candidato con-

tiene un conjunto de sentencias S. El objetivo de la tarea de clasificación es seleccionar un

subconjunto de Sdesc que contenga sentencias descripciones, tal que Sdesc ⊂ S. Para ello, entre-

namos un modelo de clasificación binaria mediante el cual sea posible determinar descripciones

si tal que s ∈ Sdesc.

El proceso de clasificación de descripciones consiste de dos etapas diferentes, una para el

entrenamiento del modelo, y otra para la clasificación de las sentencias.

La etapa de entrenamiento del modelo requiere un conjunto de datos previamente etiqueta-

dos. Si éstos datos no están disponibles, es necesario recurrir a un experto para que realice una

clasificación manual de las sentencias del conjunto de datos de entrenamiento. Las etapa del

entrenamiento incluye:

1. Preprocesamiento: Los documentos de texto con las evaluaciones de los candidatos son

procesados para extraer un conjunto de sentencias S.

2. Extracción de características (feature extraction): Un conjunto de features F es extraído a

partir del conjunto de sentencias S. Se propone un enfoque de bolsa de palabras (bag of

words) con objeto de extraer n-gramas.

3. Selección de características (feature selection): Un subconjunto Fs ⊂ F es seleccionado

por medio de un test estadístico, de acuerdo a las propiedades del conjunto de features.

4. Entrenamiento del modelo: Un algoritmo de clasificación es elegido, el cual debe ser ade-

cuado para la clasificación binaria. Además, debe ser capaz de manejar el tamaño del

conjunto de datos.

5. Optimización del modelo: Los parámetros del algoritmo de clasificación son ajustados para

mejorar el desempeño del modelo. El modelo resultante es usado para la clasificación de

las descripciones.

La etapa de clasificación incluye:

1. Preprocesamiento y Extracción de características (1 y 2 en la etapa de entrenamiento).

Page 54: Un enfoque inteligente para la selección de grupos de

5.1 Similitud semántica entre criterios de selección 37

2. Clasificación: El modelo entrenado es usado para clasificar las descripciones de los candi-

datos.

El buen desempeño del clasificador es importante para determinar el nivel de similitud entre

criterios de selección. Por ello se propone la evaluación del modelo mediante la aplicación de

las métricas de recuperación de información: F1-score, precision, y recall, las cuales se definen

como:

F1 score =2 ∗ precision ∗ recall

precision+ recall(5.1.1)

precision =#de descripciones correctamente clasificadas

#de descripciones clasificadas(5.1.2)

recall =#de descripciones correctamente clasificadas

#de descripciones(5.1.3)

Adicionalmente, se propone evaluar el clasificador mediante el cálculo de la Receiver Opera-

ting Characteristic (ROC) ya que resulta adecuado para modelos de clasificación binaria.

5.1.2. Relevancia de propiedades semánticas

La segunda etapa de la propuesta para determina la similitud entre criterios de selección,

tiene por objetivo determinar la relevancia de cada una de propiedades semánticas de los crite-

rios de selección. Con este fin, se propone la utilización de la frecuencia de ocurrencia de cada

propiedad semántica en cada conjunto de criterios.

Por ejemplo, dado un conjunto de criterios de selección explícitos, se identifica el conjunto

de propiedades semánticas del cuadro 5.1a. Asimismo, dado un conjunto de criterios implícitos,

se identifican las propiedades semánticas del cuadro 5.1b. En este ejemplo hipotético, se destaca

que las propiedades del conjunto de criterios implícitos presentan mayor frecuencia de ocurren-

cia que el conjunto de criterios explícitos. Esto es esperable ya que el por lo general, el cuerpo

del texto de los criterios implícitos contenidos en la descripciones es mayor que el de los criterios

explícitos.

Formalmente, se propone extraer un conjunto de Roles Semánticos R a partir de un conjunto

de sentencias S, correspondientes a criterios de selección (explícitos o implícitos).

Las frecuencias de ocurrencias de las propiedades semánticas son necesarias para determinar

la correspondencia entre conjuntos de criterios de selección. A continuación se presenta la estra-

tegia utilizada para determinar la correspondencia entre frecuencias de propiedades semánticas

de un par de conjuntos de criterios de selección.

Page 55: Un enfoque inteligente para la selección de grupos de

38

Ele

gibil

idad

de

can

did

atos

med

ian

tecr

iter

ios

de

sele

cció

n

Propiedad semántica Frecuencia de ocurrencia

Locale_by_use 5Awareness 4

Perception_experience 3Intentionally_act 2

Research 2Assessing 1Buildings 1

Cause_to_make_progress 1Cognitive_connection 1

Dimension 1Execute_plan 1

Expertise 1Law 1

Political_locales 1Rewards_and_punishments 1

(a)

Propiedad semántica Frecuencia de ocurrencia

Assessing 39Awareness 38Buildings 37

Cause_to_make_progress 36Cognitive_connection 31

Dimension 27Execute_plan 18

Expertise 18Intentionally_act 15

Law 12Locale_by_use 7

Perception_experience 4Political_locales 4

Research 3Rewards_and_punishments 2

(b)

Cuadro 5.1: SRL de un conjunto de criterios de selección explícitos(5.1a) e implícitos(5.1b).

Page 56: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 39

5.1.3. Correspondencia entre conjuntos de criterios de selección

Finalmente, con objeto de completar el enfoque de similitud entre dos conjuntos de criterios

de selección, se propone evaluar la correspondencia de sus respectivas propiedades semánticas.

Para ello, la propuesta incluye la utilización de un coeficiente de correlación de rankings sobre

las frecuencias de las propiedades semánticas de los criterios de selección (como las del cuadro

5.1). Un coeficiente de correlación de rankings toma la información de una lista ordenada y

evalúa el nivel de la correspondencia con el orden de una segunda lista.

En el caso de los criterios de selección, los rankings a correlacionar se generan a partir de las

frecuencias de las propiedades semánticas de dos conjuntos de criterios de selección. Por ejemplo,

el primero de los conjuntos podrá contener los criterios explícitos, mientras que el segundo, los

criterios implícitos.

En este trabajo proponemos la utilización del coeficiente de correlación de rankings de Spear-

man rs, utilizado frecuentemente en el área de Recuperación de Información (IR). Este coeficien-

te se define como:

rs = 1−6∑

d2in(n2 − 1)

(5.1.4)

donde di es la diferencia entre dos elementos rankeados de cada observación, y n es el núme-

ro de observaciones. Este coeficiente se aplica en el caso en que todos los elementos rankeados

son enteros distintos.

Los resultados del coeficiente de Spearman se interpretan en el rango [−1, 1], en el que un

valor rs = 0 implica que no existe correlación, y rs = 1 ó rs = −1 indican una correlación

absoluta entre ambos rankings. Para la similitud de criterios de selección, interesa la correlación

positiva cuando rs tiende a 1, ya que esto implica una correlación positiva entre dos conjuntos

de criterios de selección. A modo de ejemplo, los rankings del cuadro 5.1 presentan un nivel de

correlación de Spearman de 0,253571.

5.2. Experimentos

Con objeto de evaluar el método propuesto, se diseñaron e implementaron un conjunto de

experimentos. En la sección 5.2.1 se describe el conjunto de datos utilizados en la evaluación

experimental. La sección 5.2.2 presenta los resultados del desempeño del clasificador para la

extracción de descripciones de candidatos. Finalmente, en la sección 5.2.3 se presentan la apli-

cación del método de similitud semántica sobre los conjuntos de criterios de selección, para

determinar la elegibilidad de los candidatos.

Page 57: Un enfoque inteligente para la selección de grupos de

40 Elegibilidad de candidatos mediante criterios de selección

5.2.1. Datos

La propuesta demandó la definición de un conjunto de requisitos para los datos destinados a

la evaluación experimental. Estos requisitos incluyeron:

representar evaluaciones de candidatos en un proceso de selección de expertos

contener descripciones de candidatos, expresadas por los evaluadores

los candidatos no sólo debían ser evaluados para cubrir posiciones de expertos, sino tam-

bién para la conformación de grupos de expertos

los evaluadores debían representar a un mismo perfil de evaluador

el contenido debía ser de acceso público, en formato digital, y en lenguaje natural de

idioma inglés

Los requisitos para el conjunto de datos motivaron el desarrollo de un nuevo conjunto de datos,

ya que los conjuntos de datos actuales en el área de Expertise Retrieval no resultaron adecuados,

puesto que no cumplían con los requisitos mencionados.

El nuevo conjunto de datos se desarrolló a partir de 65 documentos de texto correspondien-

tes a audiencias de nominación del Committee of Commerce, Science, and Transportation del

Congreso de los Estados Unidos.

Una audiencia de nominación2 corresponde a la evaluación de un candidato propuesto para

cubrir una posición directiva, en un organismo en el que tiene participación el estado.

Los documentos correspondientes a estas nominaciones tuvieron lugar desde marzo de 2000

hasta julio de 2013. Los documentos fueron obtenidos en formato de texto plano en mayo de

2015, a través del Sistema Digital Federal3.

Cada documento registra una audiencia de nominación sobre el proceso de conformación de

uno o varios candidatos. Estos candidatos fueron nominados para cubrir posiciones ejecutivas

para diferentes dependencias del estado. Estas dependencias incluyeron la Office of Science and

Technology Policy (OSTP), Department of Commerce (DOC), Department of Transportantion

(DOT), Department of Homeland Security (DHS), National Aeronautics and Space Administra-

tion (NASA), y varias mesas directivas de empresas y comités de asesoramiento.

Los documentos suelen presentar una estructura común entre sí. Esta estructura se define

por las secciones: encabezado, índice de contenidos, declaraciones de la sesión (de senadores,

de candidatos, y de terceros), curriculum vitae (CV) de los candidatos, preguntas al candidato, y

apéndices. Adicionalmente, los documentos presentan pocos errores sintácticos o gramaticales.

2http://www.commerce.senate.gov/public/index.cfm/nominations (en línea en octubre de 2016)3http://www.gpo.gov/fdsysinfo/aboutfdsys.htm (en línea en octubre de 2016)

Page 58: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 41

Figura 5.2: Distribución de clases del conjunto de datos de descripciones.

Preprocesamiento

Se filtraron las sentencias correspondientes a los senadores, ya que éstos representan el rol

de evaluadores en la audiencia de nominación. Adicionalmente, las sentencias de los senadores

contenían las descripciones de los candidatos desde el punto de vista de los evaluadores.

El filtrado de las sentencias se realizó mediante un proceso de extracción de sentencias. En es-

te proceso se utilizaron herramientas de procesamiento de texto mediante expresiones regulares.

Luego, se dividió el cuerpo de cada documento en sentencias individuales, las cuales se filtraron

de acuerdo a un umbral mínimo de longitud. Las herramientas utilizadas en el preprocesamiento,

junto con las expresiones regulares, se listan en el apéndice A.

El conjunto de datos se constituyó de 7738 sentencias extraídas de las declaraciones de los

senadores en los 65 documentos de las audiencias de nominación.

Posteriormente, cada sentencia del conjunto de datos se etiquetó en clases positivas (descrip-

ciones) y no negativas (no descripciones). El etiquetado se realizó en forma manual por un grupo

de expertos en el dominio.

Finalmente, el conjunto de datos se constituyó de 1001 (≈ 87%) sentencias de positiva, y

6737 (≈ 13%) sentencias de clase negativa, representando una distribución de clases asimétrica.

La figura 5.2 presenta la distribución de clases del conjunto de datos en la que se evidencia la

condición de distribución asimétrica.

5.2.2. Clasificación de descripciones

Inicialmente se dividió el conjunto de datos en entrenamiento (60%) y evaluación (40%). La

división se realizó en forma aleatoria con objeto de preservar las distribuciones de cada clase en

Page 59: Un enfoque inteligente para la selección de grupos de

42 Elegibilidad de candidatos mediante criterios de selección

ambos subconjuntos.

Se realizó la extracción de features mediante la aplicación del enfoque bag of words al con-

junto de datos. Se extrajeron features basados en n-gramas para n={2,3,4}. Como resultado, se

obtuvieron 415176 n-gramas para el conjunto de datos.

Se realizó la selección de features mediante la aplicación de un ranking, basado en Chi cua-

drado χ2, ya que este método resultó adecuado para las frecuencias de los features extraídos.

Como estrategia de compensación entre el tiempo requerido para el entrenamiento y el desem-

peño del clasificador, de optó por limitar el ranking de features a 1000 elementos.

Se utilizó el algoritmo Support Vector Machines (SVM) junto con el kernel Radial Basis Fun-

ction (RBF), ya que en evaluaciones exploratorias se obtuvo un mejor desempeño en compara-

ción con los kernels lineal y polynomial.

El modelo de clasificación se optimizó mediante la puesta a punto de los parámetros C y

gamma del algoritmo SVM. Esta optimización se realizó mediante el método Grid Search Cross

Validation (GS-CV) en el cual se evaluaron las métricas f1_score, precision, y recall. El método

GS-CV se configuró de la siguiente manera:

C y gamma: valores en la escala 2n, para −10 ≤ n ≤ 10 y n∈ Z

Cross fold validation: 5 folds

Adicionalmente, se calculó el Área Bajo la Curva (AUC) del Receiver Operating Characteristic

(ROC). Asimismo, se utilizó la curva ROC ya que se recomienda evaluar el desempeño del modelo

de clasificación con una métrica distinta a la utilizada en la puesta a punto.

5.2.2.1. Resultados

El tiempo total requerido para el entrenamiento del modelo demandó 270 segundos (4,5

minutos) aproximadamente en una computadora de escritorio estandar, compuesta por un pro-

cesador Intel I3 530 de 2.93GHz.

El cuadro 5.2 presenta la matriz de confusión y las métricas para el total de 3096 muestras

utilizadas en el entrenamiento del modelo de clasificación. El cuadro incluye las métricas de pre-

cisión y recall, aunque no se recomienda su consideración en conjuntos de datos desbalanceados

o con distribución asimétrica, como es el caso. Asimismo, la figura 5.3 presenta la matriz de con-

fusión normalizada, y la figura 5.4 presenta una comparación gráfica de las métricas por cada

clase.

El entrenamiento del modelo de clasificación propuesto alcanzó un desempeño de f1 score =

0,92 y ROC AUC = 0,88 con los parámetros C = 2 y gamma = 2e3. La figura 5.5 presenta la

curva ROC obtenida por el modelo entrenado para la clasificación de descripciones.

Page 60: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 43

Predicción0 1

Actual0 2473 2111 67 345

(a)

clase precision recall f1-score sup.

0 0.97 0.92 0.95 26841 0.62 0.84 0.71 412

avg 0.93 0.91 0.92 3096(b)

Cuadro 5.2: Matriz de confusión (5.2a) y métricas (5.2b) para el modelo de clasificación.

No Descripción DescripciónPositivos Predecidos

No Descripción

Descripción

Positiv

os Verda

deros

0.92139 0.07861

0.16262 0.83738

Matriz de confusión normalizada

250

500

750

1000

1250

1500

1750

2000

2250

Figura 5.3: Matriz de confusión normalizada.

Page 61: Un enfoque inteligente para la selección de grupos de

44 Elegibilidad de candidatos mediante criterios de selección

No Descripción DescripciónClase

0.0

0.2

0.4

0.6

0.8

1.0

Score

Métricaprecisionrecallf1-score

Figura 5.4: Métricas de evaluación del clasificador

0.0 0.2 0.4 0.6 0.8 1.0Positivos Falsos

0.0

0.2

0.4

0.6

0.8

1.0

Positivos Verda

deros

Receiver Operating Characteristic (ROC)

Curva ROC (area = 0.89)

Figura 5.5: Curva ROC del modelo de clasificación de descripciones basado en SVM.

Page 62: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 45

5.2.2.2. Discusión

Un análisis del modelo permitió observar que algunos features pueden sobreajustar (overfit)

el modelo de clasificación de descripciones. Esta condición se asocia con features correspondien-

tes a fechas, nombres de personas, o de lugares. Sin embargo, estos features presentaron un bajo

índice de relevancia en el modelo. Por ejemplo, los valores de χ2 para algunos de los features

más representativos fueron “1971 he” χ2 = 1,796386, “admiral barrett” χ2 = 2,723211, “dr jane

lubchenco” χ2 = 2,087884, and “george washington university” χ2 = 2,643248, donde los valores

estadísticos de χ2 para el modelo fueron min = 1,694171, max = 26,651837, media = 2,516049,

y variancia = 2,431031.

La figura 5.6 presenta una distribución de χ2 para las features del clasificador. A partir de

esta figura se observa que los features mencionados se encuentran debajo del tercer cuartil de la

distribución de valores de χ2.

Finalmente, la figura 5.7 presenta un análisis del desempeño del modelo a partir de las cur-

vas de aprendizaje (learning curves). Asimismo, se observa que el incremento en el tamaño del

conjunto de entrenamiento produjo una tendencia a reducir la brecha entre el score del entrena-

miento y el score del cross-validation. Esto sugiere que el modelo puede mejorar su desempeño

con mayor cantidad de datos para el entrenamiento.

A partir del análisis de desempeño del clasificador de descripciones, se concluye que los

features que pueden sobreajustar (overfit) no son representativos de la variabilidad en el modelo.

Sin embargo, el modelo puede mejorar su desempeño mediante el incremento del conjunto de

datos utilizado en su entrenamiento.

5.2.3. Conformidad de evaluaciones a los criterios de selección

Al inicio de este capítulo se planteó el objetivo de determinar la elegibilidad de candidatos, el

cual establece la necesidad de determinar en qué medida las evaluaciones de candidatos aplican

los criterios de selección para cubrir una posición de experto.

Con este objetivo, se dispuso aplicar la propuesta de similitud de criterios de selección entre

los criterios explícitos de las dependencias para las cuales dichos candidatos fueron evaluados

en las audiencias de nominación, y los criterios implícitos en las descripciones de los candidatos.

En este sentido se utilizaron dos conjuntos de datos, el de referencia asociado a los criterios

explícitos, y el de correspondencia asociado a los criterios implícitos. El conjunto de datos de

criterios explícitos, se generó a partir de la información relacionada con las posiciones a cubrir

por los candidatos. Mientras que el conjunto de datos de criterios implícitos, se generó a partir

de las descripciones extraídas de las audiencias de nominación.

El conjunto de criterios implícitos se agrupó en los siguientes segmentos: Comités, con nomi-

naciones a mesas directivas o grupos consultivos, en la que todas las posiciones tienen iguales

responsabilidades; Departamentos, con nominaciones correspondientes a la dirección de sectores

dentro de la misma dependencia; y Directivo, con nominaciones correspondientes a posiciones

Page 63: Un enfoque inteligente para la selección de grupos de

46 Elegibilidad de candidatos mediante criterios de selección

(a)

(b)

Figura 5.6: Distribución (5.6a) y Caja (5.6b) de χ2 para features del clasificador.

Page 64: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 47

Figura 5.7: Curvas de aprendizaje del modelo entrenado para la clasificación de descripciones.

dentro de una junta directiva, cuyos miembros son responsables de varias subdependencias.

El conjunto de criterios explícitos se segmentó al igual que los criterios implícitos. Para el

segmento Comités, se utilizó el Federal Advisory Committee Act (FACA)4, el cual incluye entre

otros, la formalización del proceso para establecer cuerpos consultivos, generalmente represen-

tados a partir de comités. Este proceso define un conjunto de criterios de selección que deben

cumplir los miembros de dichos comités. El segmento Departamentos, se conformó a partir de

las definiciones de visión y misión de las dependencias correspondientes a las posiciones de las

audiencias de nominación. Finalmente, el segmento Directivo utilizó información del estatuto de

la OSTP, correspondiente a responsabilidades de las posiciones de las audiencias de nominación.

A continuación se presentan los resultados de la aplicación de la propuesta de similitud para

los criterios explícitos e implícitos de los segmentos Comité, Departamentos y Directivo.

5.2.3.1. Resultados

Se evaluó la similitud entre los criterios implícitos en referencia a los criterios explícitos de

cada segmento definido (Comité, Departamento, y Directivo). La evaluación del coeficiente de

similitud sobre los segmentos de los criterios de selección produjo los siguientes resultados.

En el segmento Comité, representado en la figura 5.8, se observa que de las descripciones

contenidas en las 27 audiencias de nominación, 22 (≈ 85%) de ellas presentaron una corre-

lación positiva con los criterios explícitos definidos en la FACA. Mientras que las restantes 4

(≈ 15%) presentaron una correlación negativa, y en ningún caso se presentó una correlación

nula. Las variables estadísticas de los niveles de similitud obtenidos se calcularon en media≈ 0,2,

mediana≈ 0,15 y desviación estandar≈ 0,35.

4www.gsa.gov/faca

Page 65: Un enfoque inteligente para la selección de grupos de

48 Elegibilidad de candidatos mediante criterios de selección

(a)

(b)

Figura 5.8: Similitud entre criterios implícitos y criterios explícitos para el segmento Comité.

Page 66: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 49

Figura 5.9: Similitud entre criterios para la dependencia DHS del segmento Departamento.

En el segmento Departamento, se mantuvo la separación de las dependencias, ya que el

conjunto de criterios explícitos se generó en base a las declaraciones de visión y misión de cada

dependencia.

En la figura 5.9, correspondiente a la dependencia DHS, se observa que de las descripciones

contenidas en las 5 audiencias de nominación, el total de ellas presentaron una correlación

positiva con los criterios explícitos. Las variables estadísticas de los niveles de similitud obtenidos

se estimaron en media≈ 0,2, mediana≈ 0,25 y desviación estandar≈ 0,1.

En la figura 5.10, correspondiente a la dependencia DOC, se observa que de las descripciones

contenidas en las 25 audiencias de nominación, 20 (≈ 80%) de ellas presentaron una correlación

positiva con los criterios explícitos. Mientras que de las restantes, 3 (≈ 12%) presentaron una

correlación negativa, y 2 (8 %) presentaron una correlación nula. Las variables estadísticas de

los niveles de similitud obtenidos se estimaron en media≈ 0,15, mediana≈ 0,13 y desviación

estandar≈ 0,18.

En la figura 5.11, correspondiente a la dependencia DOT, se observa que de las descripciones

contenidas en las 22 audiencias de nominación, 19 (≈ 86%) de ellas presentaron una correlación

positiva con los criterios explícitos. Mientras que las restantes 3 (≈ 14%) presentaron una co-

rrelación negativa, y en ningún caso se presentó una correlación nula. Las variables estadísticas

de los niveles de similitud obtenidos se estimaron en media≈ 0,22, mediana≈ 0,21 y desviación

estandar≈ 0,20 .

En la figura 5.12, correspondiente a la dependencia NASA, se observa que de las descripciones

contenidas en las 7 audiencias de nominación, 6 (≈ 86%) de ellas presentaron una correlación

positiva con los criterios explícitos. Mientras que la restante (≈ 14%) presentó una correla-

ción negativa, y en ningún caso se presentó una correlación nula. Las variables estadísticas de

Page 67: Un enfoque inteligente para la selección de grupos de

50 Elegibilidad de candidatos mediante criterios de selección

Figura 5.10: Similitud entre criterios implícitos y criterios explícitos para la dependencia DOC.

Figura 5.11: Similitud entre criterios implícitos y criterios explícitos para la dependencia DOT.

Page 68: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 51

Figura 5.12: Similitud entre criterios implícitos y criterios explícitos para la dependencia NASA.

los niveles de similitud obtenidos se estimaron en media≈ 0,20, mediana≈ 0,29 y desviación

estandar≈ 0,19.

En el caso de la OSTP, se optó por incluir el mismo dentro del segmento Departamento, ya

que el mismo presenta una definición de misión y visión. En la figura 5.13, se observa que de

las descripciones contenidas en las 5 audiencias de nominación, el total de ellas presentaron

una correlación positiva con los criterios explícitos. En ningún caso se presentó una correlación

negativa o nula. Las variables estadísticas de los niveles de similitud obtenidos se estimaron en

media≈ 0,34, mediana≈ 0,34 y desviación estandar≈ 0,20.

La figura 5.14 presenta las variables estadísticas media, mediana, y desviación estándar para

el segmento Departamento. En la figura se observa que el mejor desempeño de similitud entre

criterios de selección se obtuvo el caso de la OSTP, en la que la media≈ 0,35, y donde no se obtu-

vieron correlaciones negativas. Asimismo, en el caso de las DHS, se obtuvo la menor desviación

estandar≈ 0,1. En promedio, el segmento Departamento obtuvo una correlación entre criterios

de selección con media≈ 0,22, mediana= 0,24, y desviación estandar= 0,18.

La figura 5.15 presenta una comparativa de los Diagramas de Caja (Boxplot) para las de-

pendencias del segmento Departamento. A partir de esta figura se observa que en todas las

dependencias, los cuartiles se encuentran en el intervalo de scores de similitud [0, 0,5]

El segmento Directivo representado en la figura 5.16, al igual que en la evaluación de simi-

litud de OSTP en el segmento Departamento, se observa que de las descripciones contenidas en

las 5 audiencias de nominación, el total de ellas presentaron una correlación positiva con los

criterios explícitos. En ningún caso se presentó una correlación negativa o nula. Las variables

estadísticas de los niveles de similitud obtenidos se estimaron en media≈ 0,15, mediana≈ 0,16 y

desviación estandar≈ 0,05.

Page 69: Un enfoque inteligente para la selección de grupos de

52 Elegibilidad de candidatos mediante criterios de selección

Figura 5.13: Similitud entre criterios implícitos y criterios explícitos para la dependencia OSTP.

La figura 5.17 presenta una comparativa de la similitud obtenida en el caso de la OSTP cuan-

do es comparada respecto de los criterios explícitos definidos en el segmento Departamento y en

el segmento Directivo. En la figura se observa que el desempeño en el caso del segmento Depar-

tamento, prácticamente duplica el desempeño obtenido en el segmento Directivo, sin embargo,

la desviación estándar también aumenta.

La figura 5.19 presenta los diagramas de caja para los segmentos Comité, Departamento, y

Directivo. En la figura se observa un mejor desempeño en la similitud de los criterios de selección

del segmento Departamento. La desviación estándar de los segmentos Comité (≈ 0,35) y Directi-

vo (≈ 0,05) presentan una amplia diferencia. Sin embargo, debe considerarse la diferencia en la

cantidad de nominaciones correspondientes a cada segmento (27 en Comité y 5 en Directivo).

Finalmente, se evaluó la similitud entre los criterios implícitos de un conjunto de evaluaciones

de candidatos, y los conjuntos de criterios implícitos y explícitos de su segmento correspondiente.

La figura 5.20 presenta la similitud entre criterios de selección aplicados en las evaluaciones de

1 candidato en el segmento Comité, y 3 candidatos en el segmento Departamento. En el caso del

segmento Comité, la similitud fue positiva al compararla con los criterios implícitos, y negativa

al compararla con los criterios explícitos. En el caso del segmento Departamento, la similitud de

los criterios implícitos en las evaluaciones resultó ser superior (al menos el doble) al compararlos

con los criterios explícitos del segmento, que al compararlo con el conjunto de criterios implícitos

de su segmento.

5.2.3.2. Discusión

Mediante la evaluación experimental, se pretendió demostrar la aplicación del método pro-

puesto de similitud de contenido semántico entre las evaluaciones de candidatos y los criterios

Page 70: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 53

(a)

(b)

Figura 5.14: Estadísticas de similitud de criterios para el segmento Departamento.

Page 71: Un enfoque inteligente para la selección de grupos de

54 Elegibilidad de candidatos mediante criterios de selección

Figura 5.15: Boxplot por departamento

de selección de expertos. El objetivo de los experimentos consistió en determinar la condición

de elegible de un candidato para conformar un grupo de expertos. Con este objetivo se analizó el

nivel de correspondencia en términos de la relevancia del contenido semántico, entre conjuntos

de criterios de selección.

Inicialmente se evaluó la correspondencia entre criterios de selección explícitos y criterios

implícitos de las evaluaciones individuales de los candidatos. Se observó que en el segmento

Comité que compara los criterios de selección del FACA y las descripciones de los candidatos en

sus evaluaciones, presentaron una similitud promedio de rho ≈ 0,2 de acuerdo al coeficiente de

correlación de Spearman. Éste índice se mantuvo en el segmento Departamento que compara

las definiciones de misión y visíón de los departamentos y las descripciones de los candidatos.

Finalmente, en el caso del segmento Directivo que compara criterios definidos en las funciones

de los directivos y las descripciones de los candidatos, la similitud promedio fue de rho ≈ 1,5,

aunque debe considerarse que en este último segmento sólo se evaluaron 5 casos, lo que repre-

senta un 18% del número de casos del segmento Comité, y un 6% de los casos del segmento

Departamento.

Posteriormente, se evaluó la correspondencia entre criterios de selección implícitos de eva-

luaciones previas de candidatos en forma conjunta, y los criterios implícitos de candidatos de

nuevas instancias de evaluación en forma individual. En el segmento Departamento, las similitu-

des fueron considerablemente inferiores al compararlas con criterios implícitos de evaluaciones

previas, que al compararlas con criterios explícitos del segmento. Sin embargo, en todos los ca-

sos, la similitud fue positiva. No siendo así en el caso del segmento Comité, en el que se obtuvo

una similitud negativa al compararlo con los criterios explícitos.

La evaluación experimental del método propuesto, permitió analizar los niveles de similitud

Page 72: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 55

(a)

(b)

Figura 5.16: Similitud entre criterios implícitos y criterios explícitos para el segmento Directivo.

Page 73: Un enfoque inteligente para la selección de grupos de

56 Elegibilidad de candidatos mediante criterios de selección

(a)

(b)

Figura 5.17: Similitud entre criterios implícitos y explícitos para la OSTP por segmento.

Page 74: Un enfoque inteligente para la selección de grupos de

5.2 Experimentos 57

Figura 5.18: Boxplot para OSTP en los segmentos Departamento y Directivo

Figura 5.19: Diagramas de caja para los segmentos Comité, Departamento, y Directivo.

Page 75: Un enfoque inteligente para la selección de grupos de

58 Elegibilidad de candidatos mediante criterios de selección

Figura 5.20: Similitud entre criterios implícitos, evaluaciones previas, y criterios explícitos.

alcanzados en las evaluaciones de los candidatos al compararlo con criterios de selección. Sin

embargo, la condición de elegibilidad de un candidato queda determinada por el alcance de un

umbral, en el nivel de similitud de la evaluación de dicho candidato, establecido por el respon-

sable del proceso de selección. Asimismo, la condición de elegibilidad de un candidato indica

el nivel en que los criterios de selección de la evaluación del candidato se corresponden con los

criterios de referencia. Sin embargo, el hecho de no alcanzar el umbral de similitud no necesaria-

mente implicaría descartar el candidato, sino que podría conducir a la reevaluación del mismo

con objeto de dar conformidad a los criterios de selección referencia.

Por otra parte, pese a que el proceso propuesto para la clasificación de descripciones utilizó

técnicas del área de Resumen Automático de Textos (ATS), los conjuntos utilizados frecuente-

mente en esta área no resultaron adecuados para evaluar este trabajo. Esto se debió a que las

descripciones presentan un contenido específico relacionado con los candidatos y los evaluadores

de los procesos de selección de expertos.

En este sentido, el área de ATS utiliza los conceptos de métricas de desempeño y significancia

de sentencias. Las métricas de desempeño evalúan el desempeño del generador de resúmenes.

Una familia de estas métricas son las denominadas ROUGE (Lin, 2004). Sin embargo, estas mé-

tricas no resultaron adecuadas para la evaluación del proceso propuesto ya que éstas comparan

resúmenes generados automáticamente contra resúmenes generados por humanos, mientras que

el proceso propuesto no lo requiere. Por este motivo, se utilizaron métricas de desempeño de cla-

sificación binaria para evaluar el clasificador de descripciones. Por su parte, la significancia de

sentencias en la generación de resúmenes de texto utiliza diferentes enfoques para seleccionar

sentencias. Estos enfoques incluyen métricas tales como pistas, frecuencia de palabras clave,

coincidencia con palabras en el título, y ubicación de sentencias, entre otros. En este trabajo se

Page 76: Un enfoque inteligente para la selección de grupos de

5.3 Resumen 59

aplicó la estrategia de longitud de sentencias en el filtrado de las sentencias extraídas, por lo que

no se requirieron heurísticas.

En relación a la clasificación de descripciones, ésta se realizó mediante la implementación del

algoritmo SVM, a pesar de que el mismo puede no escalar adecuadamente en grandes conjuntos

de datos. Sin embargo, el tamaño del conjunto de datos utilizados en la experimentación no

se consideró una limitación, ya que el mismo se encontró por debajo de las 10000 muestras.

Adicionalmente, luego de un análisis del desempeño del clasificador, se observó que el mismo

presentó un alto nivel de varianza. Una estrategia para evitar esta condición pudiera haber sido

incorporar documentos de otros comités, además del CCST. Sin embargo, se optó por utilizar

audiencias correspondientes a un único comité, ante la suposición de que los criterios utilizados

en la selección de los expertos podrían ser más homogéneos cuando se analizaran sobre un único

comité.

5.3. Resumen

En este capítulo se presenta el método propuesto para determinar la elegibilidad de candi-

datos para la conformación de grupos de expertos. El método descripto propone determinar la

elegibilidad de un candidato a partir de la correspondencia entre los criterios del proceso de se-

lección de expertos y los criterios aplicados en la evaluación del candidato. Esta correspondencia

entre criterios es evaluada mediante un análisis de similitud semántica, en base a la aplicación

de un algoritmo de rankings sobre las propiedades semánticas de cada conjunto de criterios de

selección. Adicionalmente, se presenta la implementación de un clasificador para la extracción

de criterios implícitos en descripciones de los candidatos, presentes en sus evaluaciones.

La evaluación del método demandó la generación de un nuevo conjunto de datos, el cual

permitió evaluar la propuesta respecto de 3 tipos de criterios de selección, generados a partir

de un documento de referencia para la selección de comisiones asesoras, de las definiciones de

misión y visión de un conjunto de dependencias, y de las funciones de cargos directivos de una

oficina estatal.

Los resultados obtenidos indican que la conformidad de las evaluaciones, respecto de los

criterios de los procesos de selección de expertos, generan la información necesaria para deter-

minar un umbral de aceptación para determinar la elegibilidad de un conjunto de candidatos.

De esta manera, es posible determinar la elegibilidad de los candidatos para cubrir posiciones de

expertos, y en consecuencia, la conformación de grupos de expertos.

Page 77: Un enfoque inteligente para la selección de grupos de
Page 78: Un enfoque inteligente para la selección de grupos de

Capıtulo 6

Selección de grupos de expertos

mediante redes sociales

La selección de grupos de expertos requiere evaluar un conjunto de criterios de selección de

grupos, a partir de las relaciones de un conjunto de candidatos elegibles. Es importante definir

procesos objetivos y eficientes de estas evaluaciones, con objeto de dar claridad a los procesos

de selección. En este capítulo se describe la segunda parte del enfoque propuesto, en el que

se describe un método para la selección eficiente de grupos de expertos, a partir de las redes

sociales de los candidatos elegibles.

En la sección 6.1 se presenta una estrategia para el análisis de los criterios de selección de

grupos, a partir de métricas de Análisis de Redes Sociales (SNA). Esta estrategia incluye una al-

ternativa de representación de la información relacional de los candidatos, la propuesta de una

métrica para evaluar la independencia entre los miembros de grupos, y una estrategia de inte-

gración de criterios de selección basada en información de conformaciones previas. La sección

6.2 presenta una estrategia de optimización en la selección de grupos de expertos mediante la

definición de un Algoritmo Genético (GA). La sección 6.3 presenta la evaluación experimental

del método propuesto. Finalmente, en la sección 6.4 se presenta un resumen del capítulo.

6.1. Criterios de selección de grupos

Los criterios de selección de grupos de expertos suelen ser más generales y abstractos que los

criterios de selección de expertos en forma individual. Por ejemplo, es frecuente encontrar crite-

rios de selección indicando que los miembros del grupo deben ser “representativos”, “indepen-

dientes”, o “balanceados”. Este tipo de criterios de selección representa un desafío relacionado

con su instrumentación, ya que para diseñar procesos de selección objetivos, se requieren definir

los instrumentos que permitan evaluar el nivel de conformidad de un grupo a dichos criterios.

Page 79: Un enfoque inteligente para la selección de grupos de

62 Selección de grupos de expertos mediante redes sociales

En este sentido, los criterios de selección de grupos de expertos presentan la particularidad

de considerar las relaciones entre los miembros del grupo. Por este motivo, el análisis de las

relaciones entre los miembros de un grupo, resulta adecuado para representar y evaluar algu-

nos criterios de selección de grupos. Por ejemplo, un criterio de selección de grupos de expertos

podría requerir que sus miembros optimicen la proximidad al resto de las personas de una comu-

nidad. En este ejemplo, se podría aplicar el Key Player Problem (KPP) el cual define como uno

de sus objetivos, encontrar el grupo de nodos que maximicen la difusión de un elemento en una

red social.

En esta sección se presenta una estrategia para evaluar criterios de selección de grupos en

base a las relaciones sociales de sus miembros. Esta estrategia implica la representación de infor-

mación relacional de los candidatos a conformar grupos de expertos. Asimismo, esta represen-

tación es utilizada para la evaluación una métrica propuesta para determinar la independencia

entre los miembros de un grupo, como uno de los criterios más importantes para la selección de

grupos de expertos. Finalmente, se presenta una estrategia para la integración de varios tipos

de criterios de selección de grupos basados en redes sociales, mediante un enfoque de Toma de

Decisiones con Múltiples Atributos (MADM).

6.1.1. Representación mediante redes sociales

Un criterio de selección de grupos basado en redes sociales requiere disponer de una red

social de los candidatos a conformar dichos grupos. Esta red social es una representación gráfica

(un grafo) de las relaciones sociales de los candidatos, constituida por un conjunto de indivi-

duos (nodos) y relaciones entre ellos (enlaces). Sin embargo, ciertas métricas del Análisis de

Redes Sociales (SNA) requieren que la red social presente ciertas características respecto de su

estructura. Estas características pueden considerar: la cantidad del tipo de relaciones; el tipo de

relaciones en términos de su peso o su dirección; los tipos de nodos; entre otros.

Una representación simple de la red social en términos de las características mencionadas,

presenta mejores oportunidades para la implementación de las métricas actuales del SNA. Por

ejemplo, la figura 6.1 presenta un grafo de ejemplo en el que se presenta una estrategia de sim-

plificación de una red social, mediante la unificación de sus relaciones. En el ejemplo, se presenta

un grafo con dos tipos de relaciones (tipo 1 y tipo 2) para 5 nodos (A, B, C, D, y E) donde las

relaciones son binarias (la relación está presente o no), no dirigidas (no se considera la dirección

del enlace), e irreflexiva (un nodo no se relaciona consigo mismo). Adicionalmente, la figura pre-

senta una estrategia de unificación de los dos tipos de relaciones mediante la aplicación de una

operación análoga a la operación lógica OR. Esto implica que el grafo unificado contendrá todas

las relaciones entre los nodos de dos grafos distintos, pero sin nodos duplicados, ni relaciones

duplicadas.

En la selección de grupos de expertos, la unificación de tipos de relaciones (ver figura 6.1), es

importante para la aplicación de varias de las métricas actuales de SNA, las cuales que pueden

evaluar un único tipo de relación a la vez. Este es el caso de la métrica para determinar caminos

Page 80: Un enfoque inteligente para la selección de grupos de

6.1 Criterios de selección de grupos 63

A

B C

D E

A

B C

D E

A

B C

D E

Tipo 1 Tipo 2 Unificada

Figure 6.1: Ejemplo de simplificación de dos tipos de relaciones en un grafo unificado.

más cortos o shortest path, o algunas de las métricas de centralidad como degree, closeness, y

betweenness.

6.1.2. Grupos con miembros independientes

Uno de los desafíos más importantes en la selección de grupos de expertos consiste en esta-

blecer instrumentos objetivos para la evaluación de criterios subjetivos. Uno de estos criterios,

presente en varios procesos de selección, es el del conflicto de intereses entre los miembros de

un grupo.

Reducir el riesgo de conflicto de intereses entre los miembros del grupo es quizás uno de los

criterios de selección más importantes al momento de elegir grupos. Por este motivo, la selección

de grupos debe considerar como criterio de selección fundamental, la selección de grupos con

miembros independientes entre sí. Asimismo, uno de los requisitos de la independencia entre

miembros de un grupo, es que ésta se encuentre balanceada respecto de todos los miembros del

grupo.

Por ejemplo, la figura 6.2 presenta una red social en la que se presenta la diferencia entre un

grupo balanceado y uno no balanceado, de acuerdo a la independencia entre sus miembros. En

el ejemplo, resulta sencillo distinguir entre un grupo con distribución balanceada, de un grupo

con distribución no balanceada. Sin embargo, en situaciones en las que la cantidad de candidatos

supera cierto número (ver figura 6.3), resulta dificultoso determinar de forma precisa, en qué

medida un grupo se encuentra balanceado o no.

Pese a la importancia del problema, las técnicas actuales de selección de grupos mediante

redes sociales, no consideran la independencia entre los miembros de un grupo.

En este contexto es que se propone una métrica de independencia para grupos, basada en la

optimización de la distancia social de los miembros del grupo. Esta métrica utiliza técnicas del

Análisis de Redes Sociales (SNA) sobre la red social de los candidatos. Asimismo, el objetivo de

esta métrica está dirigido a la selección de grupos balanceados en términos de la independencia

de sus miembros.

La métrica propuesta de independencia para grupos define una función, cuyo objetivo es

Page 81: Un enfoque inteligente para la selección de grupos de

64 Selección de grupos de expertos mediante redes sociales

(a) (b)

Figure 6.2: Diferencia entre un grupo balanceado (6.2a) y no balanceado (6.2b).

Figure 6.3: Conjunto de candidatos de ejemplo para la conformación de un grupo.

Page 82: Un enfoque inteligente para la selección de grupos de

6.1 Criterios de selección de grupos 65

determinar las distancias sociales acumuladas entre cada par de miembros del grupo.

El componente principal de esta métrica está dado por la distancia social promedio de las

distancias geodésicas, la cual representa la distancia social del camino más corto entre dos nodos

de un grafo.

Así, la distancia geodésica promedio d entre miembros de un grupo, se define por

(

k∑

i,j=0

dij

)

/k,

donde i y j son miembros del grupo, y k es la cantidad de distancias entre miembros de grupo.

El número de distancias se determina mediante el coeficiente binomial k =(

nr

)

para grupos de n

miembros, sobre el que se calculan distancias entre pares r = 2.

Con objeto de mantener el grupo balanceado, esta función agrega una variable de regu-

larización m, definida por la distancia mínima para cualquier par nodos del grupo, dada por

m = min(dij). Finalmente, las distancias sociales acumuladas, junto con la variable de regulari-

zación, son normalizadas por el diámetro de la red. Así, la función para la métrica de grupos con

miembros independientes queda definida como:

f =

[(

k∑

i,j=0

dij

)

/k

]

+m

2 ∗D(6.1.1)

donde d es la distancia geodésica entre dos miembros i y j del grupo, para ∀i, j / i 6= j y

i, j ∈ N , dado un conjunto de nodos N , donde k es el número de distancias entre miembros

del grupo, D es el diámetro de la red, y m es la mínima distancia geodésica entre cada par de

miembros del grupo.

La métrica propuesta optimiza la independencia entre los miembros del grupo, mediante la

maximización de su distancia social. Para calcular la distancia social entre los miembros del grupo

se utilizan las propiedades de las redes sociales: camino más corto (shortest path) y distancia

geodésica (longitud del camino más corto) (Freeman, 1977). La métrica propuesta tiene como

datos de entrada a la matriz de proximidad de un grafo, la cual contiene las distancias entre cada

par de nodos de la red social, y cuyas relaciones son no valuadas y no dirigidas. Esta matriz se

obtiene aplicando la operación de potencia a la matriz de adyacencia de la red.

Finalmente, la métrica propuesta se encuentra sujeta a ciertas consideraciones. Entre ellas, se

identifica que la utilización del camino más corto requiere una representación gráfica simplifica-

da de la red social (ver figura 6.1). Asimismo, la métrica propuesta requiere que todos los nodos

sean alcanzables desde cualquier otro nodo de la red, es decir, que la red presente un único

componente. Esta última condición puede determinarse a partir de una matriz de alcanzabilidad

(Wasserman & Faust, 1994), obtenida mediante multiplicación de matrices.

6.1.3. Integración de criterios para la selección de grupos

La selección de grupos de expertos requiere la integración de varios criterios de selección que

permitan evaluar dichos grupos en forma conjunta. Con este objetivo, se propone la aplicación

Page 83: Un enfoque inteligente para la selección de grupos de

66 Selección de grupos de expertos mediante redes sociales

AlternativasCriterios

c1 c2 ... cma1 p11 p12 p1ma2 p21 p22 p2m...an pn1 pn2 pnm

Cuadro 6.1: Matriz de decisión para la evaluación de alternativas a partir de múltiples criterios.

de una estrategia de Toma de Decisiones con Múltiples Atributos (MADM) sobre un conjunto de

métricas de SNA, para la evaluación de grupos.

La estrategia de MADM elegida se basa en una suma ponderada. Esta estrategia requiere

definir un conjunto de m criterios de selección, conformado por métricas de SNA, seleccionadas

para la evaluación de alternativas (representadas por grupos en este caso). La ecuación de la

suma ponderada se define como:

w1c1 + w2c2 + ...+ wmcm (6.1.2)

donde cj corresponde a la evaluación del criterio j, y wj el peso asociado a dicho criterio,

teniendo en cuenta que la suma de los pesos debe estar normalizada, es decir∑m

j=1wj = 1.

Adicionalmente, se deben determinar los pesos de cada criterio de selección, para lo cual

se pueden aplicar una variedad de estrategias. En este sentido, y para mantener la objetividad

del proceso de evaluación, se propone determinar los pesos de la suma ponderada mediante el

método de Entropía (Xu, 2004). Este método utiliza una matriz de decisión P , como la presente

en el cuadro 6.1. Esta matriz contiene los resultados de evaluación pij de la alternativa i para

el criterio j, para un conjunto de n alternativas y m criterios. Adicionalmente, la matriz P es

normalizada por columnas, por lo que∑n

i=1pij = 1. De acuerdo a este método, los pesos de

cada criterio pueden obtenerse mediante

wj = dj/

m∑

j=1

dj (6.1.3)

tal que dij = 1− Ej (1 ≤ j ≤ m),

y

Ej = −

(

n∑

i=1

pij ln pij

)

/ lnn (6.1.4)

El método propuesto utiliza la información de grupos de expertos ya establecidos como alter-

nativas de decisión. La utilización de grupos de expertos ya establecidos, es una estrategia para

identificar la relevancia que los responsables de los procesos de selección asignan a cada criterio.

La figura 6.4 presenta un esquema general de la propuesta de integración de criterios de

selección de grupos. El enfoque presenta la aplicación de una suma ponderada, junto con la

Page 84: Un enfoque inteligente para la selección de grupos de

6.2 Optimización en la selección de grupos mediante redes sociales 67

Figura 6.4: Esquema general de integración de criterios de selección con suma ponderada.

identificación de pesos asignados a cada criterio mediante el método de Entropía. Este método

evalúa los criterios en grupos seleccionados previamente, con el fin de determinar objetivamente

los pesos de los criterios por el que serán evaluados los nuevos grupos.

6.2. Optimización en la selección de grupos mediante redes

sociales

En esta sección se propone una alternativa al problema de selección de grupos de expertos

en redes sociales mediante la implementación de un Algoritmo Genético (GA). El GA propuesto

tiene por objetivo la búsqueda de conformaciones óptimas de grupos, mediante la evaluación de

una función basada en métricas de SNA.

A pesar de no existir un algoritmo genético definitivo, es posible adaptar uno usando repre-

sentaciones y operadores considerados adecuados para el problema a modelar. Como analogía

del modelo biológico, los cromosomas son los elementos usados por los algoritmos genéticos

para representar las configuraciones, las cuales contienen la información genética que indica la

ubicación y valor de sus genes. Estos cromosomas representan las soluciones para el problema

modelado.

Page 85: Un enfoque inteligente para la selección de grupos de

68 Selección de grupos de expertos mediante redes sociales

Figura 6.5: Representación soluciones en la codificación del Algoritmo Genético.

Un GA requiere definir elementos como la representación de las soluciones, la función obje-

tivo (también llamada función de aptitud o fitness), y los mecanismos de selección de padres y

selección de sobrevivientes para el problema que se pretende resolver. A continuación se definen

estos elementos.

6.2.1. Representación

En el problema de selección de grupos de expertos, una solución se define como la conforma-

ción de un conjunto de candidatos en un grupo. Para ello se propone una solución representada

por dos vectores. El primero, ~V es un vector de enteros, el cual contiene los índices de los nodos

candidatos de la solución. El segundo,~S es un vector, de igual tamaño que ~V , que codifica en

forma binaria {1 = Sı, 0 = No}, la inclusión o no del nodo en el grupo solución.

La figura 6.5 presenta un esquema de la representación de las soluciones utilizadas para

procesar el algoritmo genético. En esta representación, un vector de enteros contiene el índice de

nodos de la red social conformada por los candidatos, y el vector binario contiene la información

de inclusión en el grupo por parte de cada candidato.

De esta manera, el objetivo del GA consiste en aplicar operadores sobre el vector ~S, de modo

tal que permita generar nuevas soluciones en la conformación de los grupos, de acuerdo la infor-

mación de inclusión de cada posición del vector ~S, respecto de las posiciones correspondientes

en el vector ~V .

6.2.2. Función objetivo

El GA evalúa una función objetivo para determinar la aptitud de una solución. El método pro-

puesto de selección de grupos de expertos, permite la integración de métricas (ver figura 6.1.3).

Esta integración permite a su vez, la aplicación de una función objetivo que evalúe posibles so-

luciones a partir de múltiples criterios de selección, como así también la evaluación de criterios

Page 86: Un enfoque inteligente para la selección de grupos de

6.2 Optimización en la selección de grupos mediante redes sociales 69

en forma independiente.

6.2.3. Operadores

Los operadores del GA, junto con la función objetivo, definen el desempeño del mismo a

partir del proceso evolutivo de las soluciones. Estos operadores deben ser compatibles con la

representación de las soluciones. A continuación se presentan las configuraciones seleccionadas

para el problema de selección de grupos mediante SNA. El cuadro 6.2 presenta una grilla con las

combinaciones de las posibles configuraciones seleccionadas.

A continuación se describen los operadores seleccionados junto con una breve descripción de

la motivación para la adopción de los mismos.

6.2.3.1. Selección de padres

La información genética es obtenida de los padres, los cuales son cromosomas (soluciones)

de las generaciones previas. Con este fin, se requiere definir una estrategia de selección de padres

mediante la adopción de uno de los mecanismos adecuados para el problema modelado. En este

trabajo, los mecanismos propuestos incluyen Stochastic Universal Sampling (SUS), ya que se

requiere elegir varios padres de un conjunto de éstos; y Tournament ya que en ambos casos, el

valor de aptitud (fitness) global es desconocido.

6.2.3.2. Cruce

La información genética de las nuevas generaciones es determinada por sus padres. Este

proceso llamado recombinación es producido a partir de mecanismos de cruce. Por ejemplo,

teniendo dos cromosomas que representan distintas soluciones, el cruce implica que la nueva

generación heredará la información genética de ambos padres.

Para mantener una permutación válida, se proponen los operadores de recombinación Par-

tially Mapped Crossover (PMX), y Ordered Crossover (OX). Debido a que PMX es un algoritmo

diseñado para problemas de adyacencia, resulta adecuado para el problema modelado. Por otra

parte, pese a que OX fue diseñado para problemas de orden, el orden en el segundo padre puede

resultar beneficioso en la producción de nuevos cromosomas.

6.2.3.3. Mutación

El otro mecanismo elegido para la recombinación genética es el de mutación, el cual implica

alterar los genes dentro del cromosoma. En permutaciones, la mutación altera la ubicación de

los valores en el vector solución de la nueva generación.

Para el problema modelado, se proponen los operadores Swap Mutation e Insert Mutation,

ya que ambos son aceptados para mantener la permutación válida.

Page 87: Un enfoque inteligente para la selección de grupos de

70

Selección

de

grup

os

de

experto

sm

edian

tered

esso

ciales

ConfiguraciónCruce Mutación Selección de padres Selección de sobrevivientes

PMX OX Swap Insert SUS Tournament Steady-state Generational

1 X X X X

2 X X X X

3 X X X X

4 X X X X

5 X X X X

6 X X X X

7 X X X X

8 X X X X

9 X X X X

10 X X X X

11 X X X X

12 X X X X

13 X X X X

14 X X X X

15 X X X X

16 X X X X

Cuadro

6.2:C

onfiguracionesdelA

lgoritmo

Genético,operadores

ym

ecanismos

deselección.

Page 88: Un enfoque inteligente para la selección de grupos de

6.3 Experimentos 71

6.2.3.4. Selección de sobrevivientes

Una vez que la nueva generación es producida, los sobrevivientes deben ser seleccionados

con objeto de mantener el número de soluciones en cada generación.

Se proponen los mecanismos Steady-state y Generational para mantener las soluciones con

mejor aptitud en las sucesivas generaciones.

6.3. Experimentos

Con objeto de evaluar el enfoque propuesto de selección de grupos mediante SNA, se imple-

mentó una red social basada en información pública de investigadores, publicada por el Con-

sejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Esta organización establece

grupos de expertos para áreas específicas, llamadas comisiones, las cuales presentan distintas

responsabilidades. Por ejemplo, en el área de Informática y Comunicaciones existen 3 comisio-

nes para evaluar Ingresos, Reportes, y Becas. La renovación de los miembros de los comités se

realiza mediante una selección de candidatos a partir de un conjunto de expertos en el área. Este

conjunto incluye expertos internos y también externos a la organización.

Para la evaluación experimental se definieron dos funciones de fitness, basadas en las métri-

cas de evaluación de grupos dentro del área del SNA. La primera función de fitness se basó en la

métrica propuesta para independencia de grupos. La segunda función de fitness se basó en una

integración de métricas de SNA, mediante una suma ponderada de las métricas KPP-Pos (difu-

sión), y la métrica propuesta de Independencia de grupos. Estas funciones de fitness se evaluaron

con distintas configuraciones del GA.

Esta sección inicia con una definición del conjunto de datos utilizados para la evaluación

experimental. Luego se presentan los parámetros de configuración para las ejecuciones del GA.

Finalmente, se presentan los resultados de la evaluación experimental de acuerdo a las dos

funciones de fitness aplicadas en la generación de comisiones.

6.3.1. Datos

Con objeto de establecer un caso de estudio que permita evaluar la propuesta de selección

de grupos de expertos, se implementó una red social de investigadores a partir de información

pública extraída del sitio web de CONICET. La extracción de la información se realizó mediante la

técnica de web scrapping, la cual consiste en obtener información de secciones específicas de los

contenidos de un sitio web. Se utilizó la información básica para caracterizar los investigadores,

junto con información sobre sus contribuciones científicas y lugares de trabajo, con objeto de

establecer relaciones entre dichos investigadores. El proceso requirió la aplicación de estrategias

de unificación y desambiguación, ya que la mayor parte de la información disponible en el sitio

web es ingresada por los mismos investigadores, en particular cuando se refiere a la información

sobre contribuciones científicas.

Page 89: Un enfoque inteligente para la selección de grupos de

72 Selección de grupos de expertos mediante redes sociales

Adicionalmente a los candidatos elegibles para conformar los grupos, en la red social se in-

cluyó a otros investigadores, que por diversos motivos no son considerados elegibles para formar

parte de las comisiones, como así también becarios relacionados con los candidatos elegibles.

La elegibilidad de los candidatos, para la evaluación del enfoque propuesto de selección de

grupos, se determinó a partir un listado de candidatos elegibles que cumplían con los requisitos

para conformar las comisiones. Como ejemplo, un requisito es que el investigador a conformar

una comisión debe poseer una determinada jerarquía en la carrera de investigador. Requisitos

como el mencionado, limitan la cantidad de candidatos elegibles para conformar las comisiones,

sin embargo, se mantuvo la información de las relaciones con otros investigadores no elegibles,

ya que todos ellos conforman la estructura de la red social.

Finalmente, la red social para el caso de estudio quedó conformada por un conjunto de

1293 nodos (investigadores) y 4322 enlaces (publicaciones y lugares de trabajo en común).

La red presentó 74 componentes (subgrupos de investigadores desconectados del resto de la

red). El componente de mayor tamaño incluyó 1058 (≈ 82%) de los investigadores (75 de ellos

calificados para conformar comisiones), y 3878 (≈ 90%) de relaciones.

6.3.2. Configuración del algoritmo genético

Con objeto de evaluar la propuesta, se implementó una herramienta (ver figura 6.6) y se

establecieron un conjunto de configuraciones para el algoritmo genético. Estas configuraciones

se ajustaron de acuerdo a un conjunto de parámetros, los cuales se definen a continuación.

Tamaño de la población: El número de soluciones en todo momento estuvo dado por P/n,

donde P es el conjunto de todos los investigadores, y n el tamaño de las comisiones.

Probabilidad de cruce: Un parámetro generacional elegido del rango [0,6; 0,9].

Probabilidad de mutación: Un parámetro del operador de mutación elegido del rango

[0,01; 0,15].

Condición de corte: Un parámetro generacional establecido en 25 generaciones.

Configuraciones: 16 configuraciones obtenidas a partir de la combinación de los meca-

nismos seleccionados en el enfoque (selección de padres, de sobrevivientes, mutación, y

cruce).

Ejecuciones: 5 ejecuciones por configuración, para las que se calcularon los valores prome-

dio y desviación estándar de los resultados obtenidos de aplicar las funciones de fitness.

6.3.3. Resultados

En la evaluación experimental del método propuesto para la selección de grupos de expertos,

se analizaron las conformaciones de comisiones actuales del área de Informática y Comunica-

Page 90: Un enfoque inteligente para la selección de grupos de

6.3 Experimentos 73

Figura 6.6: Captura de pantalla de la herramienta de selección de grupos.

ciones de CONICET. En este análisis, se evaluaron dos criterios de selección de grupos mediante

métricas de SNA.

Luego del análisis de las comisiones actuales, se configuró y ejecutó el algoritmo genético para

la generación de comisiones. Este proceso inició con la generación de comisiones mediante el

criterio de independencia de grupos, a partir de la métrica propuesta. Posteriormente, se evaluó

la generación de comisiones mediante múltiples criterios, los cuales incluyeron la independecia

de los grupos de la primera evaluación, junto con un criterio de difusión, a partir de una métrica

ya establecida de SNA.

6.3.3.1. Fitness de comisiones actuales

El primer objetivo de la evaluación consistió en determinar el fitness de las comisiones ac-

tuales. Sin embargo, este enfoque se modificó debido a que algunos miembros de las comisiones

actuales no se encontraban presentes en el conjunto de datos. Esta situación se debió al bajo

número de candidatos elegibles o especialistas, en el área que pertenezcan a CONICET (sólo 87

candidatos estaban etiquetados como especialistas en el área de Informática y Comunicaciones),

lo que significó que las comisiones incorporaran investigadores externos de otras áreas. Por lo

tanto, se decidió identificar a los miembros de las comisiones actuales en el mayor componen-

te de la red social utilizada en la experimentación. De la comisión actual de Ingresos, sólo 3/6

miembros formaban parte de la red social; de la comisión de Informes, sólo 4/6 miembros for-

maban parte de la red social; y de la comisión de Becas, sólo 5/6 miembros formaban parte de

la red social. Debido a que los nombres de los miembros de las comisiones no resultaron rele-

Page 91: Un enfoque inteligente para la selección de grupos de

74 Selección de grupos de expertos mediante redes sociales

vantes para la evaluación de la propuesta, éstos se reemplazaron por identificadores anónimos

constituídos por una letra correspondiente a la comisión (A-Ingresos, R-Informes, F-Becas), y un

número correspondiente al miembro de la comisión. Por ejemplo, “A1” se utilizó para identificar

al primer miembro de la comisión de Ingresos.

La comisión de Ingresos se evaluó con los miembros A1-A3, ya que el miembro A4 se encontró

presente en otro componente y los miembros A5-A6 no estaban identificados como especialistas.

Las otras comisiones presentaron características similares. La comisión de Informes se evaluó

con los miembros R1-R4, ya que los otros miembros de la comisión no pertenecían a CONICET

(R5) o no estaban identificados como especialistas (R6). Finalmente, la comisión de Becas se

evaluó con los miembros F1-F5, ya que F6 no pertenecía a CONICET. El cuadro 6.3 presenta

los miembros de las comisiones actuales con la evaluación de las métricas de centralidad para

aquellos miembros presentes en el mayor componente de la red social.

Las métricas de redes sociales para las comisiones actuales presentadas en el cuadro 6.3 pue-

den ser comparadas con las métricas del componente, cuyo degree promedio = 7316, diámetro

de red = 11, y longitud promedio = 5.76. Esto indica que al menos cada miembro (excepto

F2) de las comisiones actuales tiene un degree mayor al degree promedio del componente, pero

alejado del mayor degree (80) del componente. Algunos miembros de las comisiones (A3 y F2)

presentan muy bajo betweenness, pero su closeness es más balanceado entre ellos.

Luego, se evaluaron los fitness de las comisiones actuales a partir de dos métricas de grupos

de SNA, la métrica propuesta de independencia de grupos que maximiza la distancia entre miem-

bros del grupo en la red, y KPP-Pos que maximiza la difusión en la red. El cuadro 6.4 presenta

los resultados de los fitness obtenidos con las comisiones actuales (ver figura 6.7).

6.3.3.2. Comisiones con miembros independientes

La primera evaluación experimental se realizó con la métrica de independencia de grupos

como función de fitness del GA. Con objeto de comparar el fitness de las comisiones actuales con

el fitness de las comisiones generadas por el algoritmo genético, se generaron comisiones de 3,

4, y 5 miembros.

Para la comisión de Ingresos, se configuró el GA con la intención de generar comisiones con

3 miembros. El cuadro 6.5 presenta los resultados donde se obtuvo el fitness máximo promedio

≈ 0,72727 y la mínima σv = 0 para las configuraciones 9 y 11. El máximo finess ≈ 0,72727 se

obtuvo con las configuraciones 9, 11, 12, y 13, a partir de lo cual se infiere que se puede haber

obtenido un óptimo local en estos casos.

Comparado con el fitness de la comisión actual ≈ 0,65152, el máximo fitness promedio pre-

senta una mejora de ≈ 8 puntos.

Para la comisión de Informes, se configuró el GA con la intención de generar comités de 4

miembros. El cuadro 6.6 presenta los resultados donde se obtuvo el fitness máximo promedio

Page 92: Un enfoque inteligente para la selección de grupos de

6.3

Exp

erimen

tos

75

Nodo Degree (D) Betweenness (B) Closeness (C)

A1 49 0.05293 0.22404

A2 21 0.02593 0.17283

A3 5 0.00001 0.15606

***A4 - - -

**A5 - - -

**A6 - - -

(a) Ingresos

Nodo D B C

R1 35 0.11858 0.20596

R2 51 0.11909 0.25101

R3 37 0.03512 0.19495

R4 34 0.14864 0.20989

*R5 - - -

**R6 - - -

(b) Informes

Nodo D B C

F1 22 0.01246 0.15696

F2 6 0.00001 0.16307

F3 19 0.00595 0.19317

F4 42 0.07272 0.22751

F5 46 0.06920 0.23731

*F6 - - -

(c) Becas*No pertenece a CONICET**No etiquetado como especialista***Presente en otro componente

Table 6.3: Métricas de centralidad de los miembros de las comisiones actuales.

Page 93: Un enfoque inteligente para la selección de grupos de

76 Selección de grupos de expertos mediante redes sociales

Comisión Independencia KPP-Pos (Difusión)

Ingresos 0.375000 0.360173Informes 0.270833 0.474156

Becas 0.312500 0.451673

Table 6.4: Cuadro de fitness de comisiones actuales.

Figura 6.7: Gráfico de fitness de comisiones actuales.

Page 94: Un enfoque inteligente para la selección de grupos de

6.3 Experimentos 77

Configuración Fitnesspromedio

(ejecuciones=5)

σv Fitness máximo y tiempo máscorto en segundos

1 0.58788 0.01134 0.59091 1.548 s.

2 0.57879 0.01134 0.59091 1.510 s.

3 0.60303 0.02607 0.65152 1.563 s.

4 0.60909 0.02938 0.66667 1.537 s.

5 0.61818 0.02938 0.65152 1.625 s.

6 0.62424 0.03090 0.66667 1.468 s.

7 0.62121 0.02710 0.65152 1.544 s.

8 0.62121 0.03711 0.66667 1.504 s.

9 0.72727 0.00000 0.72727 31.135 s.

10 0.64545 0.00742 0.65152 31.493 s.

11 0.72727 0.00000 0.72727 30.744 s.

12 0.67879 0.02607 0.72727 31.325 s.

13 0.70606 0.02642 0.72727 31.024 s.

14 0.63939 0.02607 0.66667 32.174 s.

15 0.67879 0.00606 0.68182 33.181 s.

16 0.61515 0.02642 0.65152 38.198 s.

Cuadro 6.5: Fitness promedio por configuración para comisiones de 3 miembros.

Page 95: Un enfoque inteligente para la selección de grupos de

78 Selección de grupos de expertos mediante redes sociales

Configuración Fitnesspromedio

(ejecuciones=5)

σv Fitness máximo y tiempo máscorto en segundos

1 0.54242 0.03090 0.57576 2.51 s.

2 0.54545 0.02752 0.57576 2.38 s.

3 0.53636 0.02415 0.56818 2.66 s.

4 0.51061 0.02376 0.54545 2.69 s.

5 0.54394 0.02769 0.57576 2.73 s.

6 0.53788 0.02535 0.56818 2.70 s.

7 0.54697 0.02810 0.58333 2.72 s.

8 0.54091 0.03408 0.58333 2.95 s.

9 0.60455 0.00303 0.60606 52.12 s.

10 0.55303 0.02914 0.59848 55.56 s.

11 0.60606 0.00000 0.60606 46.57 s.

12 0.57273 0.00606 0.57576 45.78 s.

13 0.56970 0.01303 0.58333 53.36 s.

14 0.54545 0.02088 0.57576 55.73 s.

15 0.59697 0.01113 0.60606 53.82 s.

16 0.53030 0.01589 0.56061 55.63 s.

Cuadro 6.6: Fitness promedio por configuración para comisiones de 4 miembros.

≈ 0,60606 y un mínimo σv = 0 para la configuración 11. El máximo fitness ≈ 0,60606 se obtuvo

con las configuraciones 9, 11, y 15, a partir de lo cual se infiere que se puede haber alcanzado

un óptimo local en estos casos.

Comparado con el fitness de la comisión actual ≈ 0,36364, el máximo fitness promedio pre-

senta una mejora de ≈ 24 puntos.

Para la comisión de Becas, se configuró el GA para generar comités con 5 miembros. El cuadro

6.7 presenta los resultados donde se obtuvo un fitness máximo promedio ≈ 0,57091 para la

configuración 9, un mínimo σv ≈ 0,00530 para la configuración 4, y un máximo fitness ≈ 0,59091

para las configuraciones 9 y 11.

Comparado con el fitness de la comisión actual ≈ 0,38636, el fitness máximo promedio pre-

senta una mejora de ≈ 20 puntos.

Como se muestra en la figura 6.8, el mecanismo de selección Generational (configuraciones

9-16) generó mejores resultados que Steady-state (configuraciones 1-8). Sin embargo, la figura

6.9 demuestra que el mecanismo Generational requirió mayor tiempo de proceso que las otras

configuraciones. Por ejemplo, en comisiones de 5 miembros, el tiempo mínimo para el mecanis-

Page 96: Un enfoque inteligente para la selección de grupos de

6.3 Experimentos 79

Configuración Fitnesspromedio

(ejecuciones=5)

σv Fitness máximo y tiempo máscorto en segundos

1 0.45273 0.00979 0.46818 4.40 s.

2 0.46182 0.02182 0.50455 4.10 s.

3 0.46364 0.01795 0.49545 4.18 s.

4 0.45091 0.00530 0.45909 4.28 s.

5 0.46818 0.02555 0.50909 4.34 s.

6 0.45727 0.01809 0.48182 4.07 s.

7 0.45455 0.02151 0.49545 4.13 s.

8 0.45000 0.00761 0.45909 4.07 s.

9 0.57091 0.02238 0.59091 83.00 s.

10 0.49636 0.01611 0.51818 71.97 s.

11 0.55545 0.02578 0.59091 81.15 s.

12 0.47818 0.02562 0.51818 80.80 s.

13 0.49909 0.02178 0.52273 74.95 s.

14 0.45273 0.00793 0.45909 67.14 s.

15 0.50182 0.01854 0.52273 67.05 s.

16 0.46909 0.01449 0.49545 68.78 s.

Cuadro 6.7: Fitness promedio por configuración para comisiones de 5 miembros.

Page 97: Un enfoque inteligente para la selección de grupos de

80 Selección de grupos de expertos mediante redes sociales

Figura 6.8: Fitness promedio para comisiones generadas de 3, 4, y 5 miembros.

mo Steady-state =4.73s (segundos) y para Generational=67.049s. Esta situación es similar para

las comisiones de 3 y 4 miembros. Con objeto de alcanzar el tiempo requerido por las configu-

raciones con mecanismo Generational, se extendió la condición de corte de las configuraciones

con Steady-state a 25000 generaciones, resultados siempre en un menor fitness que aquellos

obtenidos por las configuraciones con mecanismo Generational.

Para el caso de comisiones generadas con 3 y 5 miembros, la configuración 9 presentó el

mayor fitness promedio. Para las comisiones con 3, 4, y 5 miembros, las configuraciones 9 y 11

presentaron el mayor fitness, a partir de lo cual se infiera que para casos similares, se prefieren

el mecanismo de selección Generational en conjunto con el operador PMX. Adicionalmente, en

los casos mencionados, el operador de mutación no produjo diferencias relevantes. Sin embargo,

en redes de mayor tamaño o complejidad, el costo computacional puede ser un requerimiento,

en cuyo caso podría preferirse el mecanismo de selección Steady-state en lugar del mecanis-

mo Generational. Adicionalmente, la figura 6.10 muestra que en comisiones de 3 miembros, las

configuraciones 9 y 11 alcanzaron un σv = 0„ y que en las comisiones de 3 y 4 miembros, la confi-

guración 9 alcanzó σv= 0, a partir de lo cual se identifica la estabilidad de dichas configuraciones,

al menos para comisiones de 3 y 4 miembros.

La figura 6.11 muestra la red social utilizada en la experimentación, en la cual se identifi-

ca que los miembros de las comisiones generadas se encuentran más alejados entre sí que los

miembros de las comisiones actuales. Esta representación muestra una mejora en el balance de

las distancias entre los miembros de las comisiones generadas al compararlas con las comisiones

actuales.

Page 98: Un enfoque inteligente para la selección de grupos de

6.3 Experimentos 81

Figura 6.9: Tiempos más cortos para comisiones generadas de 3, 4, y 5 miembros.

Figura 6.10: Desviaciones estándar para las comisiones de 3, 4, y 5 miembros.

Page 99: Un enfoque inteligente para la selección de grupos de

82 Selección de grupos de expertos mediante redes sociales

(a) 3 miembros (b) 4 miembros

(c) 5 miembros

Figure 6.11: Comisiones actuales (círculos grandes) y comisiones generadas (estrellas).

Page 100: Un enfoque inteligente para la selección de grupos de

6.3 Experimentos 83

Figura 6.12: Pesos de criterios de selección determinados mediante Entropía.

6.3.3.3. Comisiones con múltiples criterios

La segunda evaluación experimental se realizó mediante una suma ponderada de la métrica

propuesta de Independencia de grupos y KPP-Pos. Para ello, se determinaron los pesos corres-

pondientes a cada métrica, mediante la aplicación del método de Entropía a los fitness de las

comisiones actuales (ver cuadro 6.4). Los pesos obtenidos para las métricas evaluadas indican

una mayor relevancia dada a la selección de grupos con miembros independientes, dada por

wIndependencia = 0,567966, que la relevancia dada a la selección de grupos que maximicen la

difusión en la red, dada por wKPP−Pos = 0,432034. La figura 6.12 presenta los pesos de los

criterios de selección de grupos, obtenidos a partir de la evaluación de las métricas evaluadas.

Al igual que en la primera evaluación, se comparó el fitness de las comisiones actuales con el

fitness de las comisiones generadas por el algoritmo genético, por lo que se generaron comisiones

de 3, 4, y 5 miembros.

Para la configuración del GA, se utilizó la configuración que arrojó mejores resultados en la

primera evaluación. Esta configuración utilizó los mecanismos PMX, SWAP, SUS, y Generational.

Posteriormente se comparó el fitness de las comisiones generadas con 3, 4, y 5 miembros

respecto del fitness de las comisiones actuales de Ingresos, Informes, y Becas, respectivamente.

El fitness obtenido en las comisiones generadas de 3 miembros, promedió 0.250958 con una

desviación de 0.003358, mientras que el fitness de la comisión actual de Ingresos se calculó en

0.184297. El fitness de las comisiones generadas de 4 miembros promedió 0.230820 con una

desviación de 0.003372, mientras que la comisión actual de Informes se calculó en 0.179338.

Finalmente, el fitness de las comisiones generadas de 5 miembros promedió 0.222957 con una

desviación de 0.005658, mientras que la comisión actual de Informes se calculó en 0.186314.

La figura 6.13 presenta los fitness promedio, basado en la integración de las métricas KPP-pos e

Page 101: Un enfoque inteligente para la selección de grupos de

84 Selección de grupos de expertos mediante redes sociales

Figura 6.13: Fitness multicriterio de comisiones generadas y comisiones actuales.

Independencia, de las comisiones generadas con 3, 4, y 5 miembros, junto con el fitness evaluado

en las comisiones actuales. En la figura se observa que, al igual que en el caso de la evaluación de

la métrica de Independencia en forma individual, al evaluar el fitness con las métricas integradas

el método propuesto generó comisiones con mejores fitness que las comisiones actuales.

6.3.4. Discusión

En la evaluación experimental del método de selección de grupos propuesto, se pretendió

determinar la aptitud del mismo para la selección de grupos de expertos. En particular, se tomó

como caso de estudio, la generación de comisiones para un área determinada de una agencia

pública de financiamiento científico.

Para esta evaluación, se desarrolló una red social de los candidatos elegibles para conformar

estas comisiones, dados a partir de un listado de miembros de la agencia, identificados como

especialistas en el área. La red social de los candidatos se modeló con la unificación de dos tipos

de relaciones entre los candidatos, dadas por la coautoría de publicaciones científicas, y el lugar

de trabajo compartido por los candidatos.

La evaluación experimental incluyó la métrica propuesta de Independencia de grupos, y una

métrica de Difusión del área del SNA, para la evaluación de las comisiones actuales y las comi-

siones generadas por el método propuesto.

Los resultados indicaron que la evaluación de las métricas en forma individual, como así tam-

bién en un enfoque integrado, resultaron adecuadas para evaluar la aptitud de las comisiones

actuales. Asimismo, a partir de la implementación del Algoritmo Genético, se logró generar co-

misiones con mejor nivel aptitud, inclusive, alcanzando conformaciones óptimas en la evaluación

Page 102: Un enfoque inteligente para la selección de grupos de

6.4 Resumen 85

de la métrica propuesta de Independencia.

La evaluación de la aptitud de las comisiones generadas a partir de la suma ponderada de

las métricas de Independencia y KPP-Pos, requirió determinar los pesos correspondientes a cada

métrica o criterio. Estos pesos determinados mediante el método de Entropía, evidenciaron que

se asignó una mayor relevancia al criterio de Independencia en la conformación de las comisiones

actuales.

Finalmente, la evaluación experimental del método propuesto de selección de grupos, per-

mitió demostrar que es posible evaluar múltiples criterios de forma objetiva en la selección de

grupos de expertos. Asimismo, se demostró que el enfoque propuesto puede generar conforma-

ciones óptimas en redes sociales de miles de nodos, lo cual representa un escenario típico de

varios ámbitos organizacionales.

6.4. Resumen

En este capítulo se presenta el método propuesto para la selección de grupos de expertos

mediante redes sociales. El método propuesto utiliza la información relacional de los candidatos

elegibles a conformar los grupos y la modela como una red social. Asimismo, se define una

métrica para la evaluación de la independencia entre los miembros de un grupo, dada a partir de

la distancia social de éstos. Posteriormente, se utiliza la métrica propuesta y otra métrica de SNA,

en la implementación de un algoritmo genético para la generación de conformaciones óptimas

de grupos.

El método de selección de grupos mediante redes sociales fue evaluado con un conjunto de

datos públicos del CONICET. En la evaluación se analizó la aplicación de las métricas propuestas

en los grupos de expertos representados por comisiones del área de Informática y Comunicacio-

nes de la organización. Asimismo, se analizó la aplicación de las mismas métricas en los grupos

generados. Los resultados en la evaluación de la métrica propuesta de independencia de grupos

permitió generar grupos con mejor fitness que los comités actuales. Al evaluar la integración de

las métricas propuestas, se observó que al igual que en el caso de la evaluación de la métrica

de independencia en forma aislada, las métricas integradas permitieron generar comisiones con

mejor fitness.

Page 103: Un enfoque inteligente para la selección de grupos de
Page 104: Un enfoque inteligente para la selección de grupos de

Capıtulo 7

Conclusiones

En este capítulo se resumen las conclusiones generales del trabajo de tesis. El capítulo inicia

con una visión general de los objetivos y logros de este trabajo en la sección 7.1. La sección

7.2 resume las contribuciones del trabajo. En la sección 7.3 se presentan las limitaciones de la

propuesta. Finalmente, en la sección 7.4 se presentan las futuras líneas de investigación.

7.1. Resumen

En este trabajo se propone un enfoque inteligente basado en Aprendizaje Automático (ML)

y Análisis de Redes Sociales (SNA) para el problema de la selección de grupos de expertos.

La hipótesis general del trabajo sostiene que es posible desarrollar un método objetivo para

asistir en procesos de selección de grupos de expertos, utilizando la información relacional del

conjunto de candidatos elegibles para la conformación de dichos grupos. Con este trabajo, se

pretende brindar una estrategia para resolver la costosa tarea de analizar procesos de selección

de expertos, y a su vez, sugerir conformaciones posibles de grupos de expertos. De esta manera,

el enfoque propuesto para la selección de grupos de expertos, es un aporte para dar claridad

a los procesos de selección de grupos de expertos, a partir del análisis de los candidatos en

forma individual, como así también de la evaluación de las conformaciones posibles de grupos

de expertos.

En esta tesis se propone un enfoque para el problema de la selección de grupos de expertos,

el cual consiste de dos partes. Por una parte, se propone determinar la elegibilidad de candidatos

a ocupar posiciones de experto, mediante un método de análisis basado en la identificación y

evaluación de criterios de selección aplicados en la evaluación de dichos candidatos. Por otra

parte, se propone un método para la selección óptima de conformaciones de grupos de expertos,

basada en las relaciones sociales de candidatos elegibles.

El enfoque inicia con un proceso para determinar la elegibilidad de candidatos a ocupar

posiciones de expertos, a partir del análisis de similitud entre los criterios de selección del proceso

Page 105: Un enfoque inteligente para la selección de grupos de

88 Conclusiones

de selección, y los criterios de selección utilizados en las evaluaciones de los candidatos. Para

ello, se calcula la frecuencia de los conceptos semánticos identificados a partir de los criterios de

selección. Con esta información, se genera un ranking de frecuencias de conceptos semánticos

por cada grupo de criterios de selección, los cuales son evaluados mediante un coeficiente de

correlación de rankings. El nivel de correlación entre el contenido semántico de cada grupo de

criterios de selección determina la similitud entre dichos conjuntos de criterios de selección. Así,

la elegibilidad de un candidato queda determinada a partir de un umbral de correlación entre el

contenido semántico de la evaluación del candidato, y el contenido semántico de los criterios de

selección.

El enfoque finaliza con un proceso para determinar posibles conformación óptimas de grupos

de expertos, a partir de la información relacional de los candidatos elegibles. Para ello, se imple-

menta una red social de todos los candidatos, incluyendo los elegibles y los no elegibles. Luego

se define una función de aptitud basada en métricas de Análisis de Redes Sociales. Finalmente,

se optimiza la función de aptitud de las conformaciones posibles mediante la implementación de

un algoritmo genético.

La evaluación del método de elegibilidad de candidatos incluyó 3 tipos de criterios de selec-

ción, generados a partir de un documento de referencia para la selección de comisiones asesoras,

de las definiciones de misión y visión de un conjunto de dependencias, y de las funciones de car-

gos directivos de una oficina estatal.

El método de selección de grupos mediante redes sociales fue evaluado con un conjunto

de datos públicos de una agencia estatal para el financiamiento de investigaciones científicas.

En la evaluación se analizó la aplicación de las métricas propuestas en los grupos de expertos,

representados por comisiones de un área de la organización. Asimismo, se analizó la aplicación

de las mismas métricas en los grupos generados.

Los resultados obtenidos indican que la elegibilidad de un conjunto de candidatos puede ser

determinada a partir del nivel de concordancia entre las evaluaciones de los candidatos y los

criterios de selección de referencia.

Los resultados en la evaluación del método de selección de grupos de expertos con la mé-

trica de independencia de grupos propuesta, permitió generar grupos que presentaron un mejor

desempeño al compararlos con los comités actuales. Esta situación se reiteró al evaluar la inte-

gración de varias métricas en el método propuesto.

7.2. Principales contribuciones

Este trabajo introduce un nuevo enfoque en relación a la selección de grupos de expertos.

Las principales contribuciones del trabajo incluyen la aplicación de técnicas de Procesamiento

de Lenguaje Natural (NLP) y Aprendizaje Automático (ML) para determinar la aplicación de

criterios de selección en procesos de selección de expertos. Asimismo, se incluye la aplicación de

técnicas de Análisis de Redes Sociales (SNA) en la evaluación de grupos de expertos para sugerir

Page 106: Un enfoque inteligente para la selección de grupos de

7.3 Limitaciones encontradas 89

conformaciones posibles.

Resumiendo, esta tesis introduce importantes contribuciones en el área de selección de ex-

pertos, entre las que se incluyen:

Un enfoque de aprendizaje supervisado para la extracción de descripciones de candidatos,

como una nueva fuente de evidencia de experiencia para procesos de selección de expertos.

Una nueva aplicación de técnicas de Procesamiento de Lenguaje Natural (NLP) para deter-

minar la similitud del contenido semántico de criterios de selección de expertos.

Una nueva métrica de Análisis de Redes Sociales (SNA) para determinar la independencia

de grupos (Zamudio et al., 2016).

Un método de selección óptima de grupos a partir de la integración de métricas de selección

de grupos en redes sociales mediante la implementación de un algoritmo genético.

7.3. Limitaciones encontradas

Independientemente de la importancia de las contribuciones alcanzadas en este trabajo en re-

lación con la conocimiento de los procesos de selección de expertos, resulta necesario mencionar

algunas consideraciones.

Inicialmente, el método para determinar la elegibilidad de candidatos a ocupar posiciones de

expertos, implementa un proceso de clasificación de contenido asociado a criterios de selección,

a partir de evaluaciones de los candidatos. Este proceso entrena un modelo de aprendizaje su-

pervisado que resultó satisfactorio en la evaluación. Sin embargo, este proceso resulta costoso

debido al esfuerzo necesario para generar los datos de entrenamiento. Como contrapartida, un

incremento en el tamaño del conjunto de datos disponibles podría mejorar el desempeño del

modelo, y en consecuencia, mejorar el desempeño del análisis de similitud de los criterios de

selección. Adicionalmente, el incremento del tamaño del conjunto de datos de entrenamiento

puede demandar la utilización un algoritmo de clasificación más adecuado que SVM, para el

manejo de grandes volúmenes de datos.

El Etiquetado de Roles Semánticos (SRL), como alternativa para extraer contenido semántico

de los criterios de selección, se encuentra fuertemente relacionado con el idioma, ya que la

herramienta utilizada para este fin implementa un conjunto de Marcos Semánticos en idioma

inglés. Sin embargo, existen conjuntos de Marcos Semánticos en otros idiomas, como español o

francés, sólo que éstos presentan un menor estado de desarrollo. Adicionalmente, el SRL aplica

procesos internos de análisis sintáctico, por lo que la calidad de los textos de las evaluaciones

pueden influir en los resultados.

Finalmente, el método propuesto para la selección de grupos a partir de ARS, se evaluó con

una simplificación de la red social de los candidatos, en relación a las propiedades de los nodos y

enlaces. En este escenario, los enlaces se modelaron como binarios, y los nodos se caracterizaron

Page 107: Un enfoque inteligente para la selección de grupos de

90 Conclusiones

a partir de su nombre e identificador. En otros escenarios, las redes sociales pueden representar

mayor complejidad en los aspectos mencionados. Por ejemplo, la red social puede contener otro

tipo de atributos en los nodos y enlaces, distintos tipos de nodos y enlaces, y variabilidad en la

estructura de la red social en el tiempo, entre otros.

Por otra parte, el conjunto de datos utilizado para la construcción de la red social, se basó en

datos públicos disponibles en el sitio web institucional de una agencia estatal. Con motivo de la

evaluación del enfoque propuesto, se utilizaron datos de investigadores correspondientes a una

única área de aplicación (Informática y Comunicaciones). La aplicación del enfoque propuesto

en otras áreas podría requerir la consideración de otros tipos de datos, como así también de otras

métricas para la selección de los grupos, además de aquellas propuestas en este trabajo.

7.4. Trabajos futuros

Este trabajo representa un avance en la conocimiento de los procesos de selección de exper-

tos, mediante el análisis de los criterios de selección aplicados en dichos procesos, y mediante la

generación eficiente de conformaciones posibles en contextos de redes sociales. Sin embargo, la

experiencia adquirida durante el desarrollo de este trabajo genera nuevos interrogantes relacio-

nados con la selección de expertos, los cuales motivan las siguientes líneas de investigación.

Análisis semántico

Adicionalmente al Etiquetado de Roles Semánticos (SRL), utilizado en este trabajo para re-

presentar el contenido semántico de los criterios de selección de expertos, se considera evaluar

otras técnicas de análisis semántico utilizadas en el área de Procesamiento de Lenguaje Natural

(NLP). Estas técnicas incluyen el Latent Semantic Indexing (LSI), como estrategia para gene-

ración de tópicos a partir de la evidencia de experiencia de los expertos y de los criterios de

selección. En esta línea, se evaluará también la aplicabilidad del concepto de Huellas Semánticas

(Semantic Fingerprint), para determinar la similitud entre conjuntos de criterios de selección.

Perfiles de expertos

El Perfilado de Expertos tiene por objetivo general, descubrir asociaciones entre expertos

y áreas de conocimiento. En particular, su objetivo es descubrir temas asociados a un experto

a partir de evidencia de experiencia, generalmente representada mediante documentos como

curriculum vitae, publicaciones científicas, y listas de áreas de conocimiento, entre otras. En este

sentido, las descripciones de candidatos en contextos de evaluación como fuente evidencia de

experiencia a partir de texto no estructurado o semi-estructurado puede resultar beneficiosa en

el perfilado de expertos.

Page 108: Un enfoque inteligente para la selección de grupos de

7.4 Trabajos futuros 91

Grandes volúmenes de datos

La masividad y heterogeneidad de las fuentes de evidencia de experiencia, a partir de la

información disponible en internet, requiere definir nuevas estrategias para su tratamiento, y

posterior utilización en sistemas de información relacionados con la selección de expertos. En

particular, grandes volúmenes de datos son deseables para el entrenamientos de modelos de

Aprendizaje de Máquina (ML) basados en Aprendizaje Profundo (Deep Learning).

Por otra parte, mayores cantidades de información relacionada con los expertos, favorece el

desarrollo de representaciones complejas de sus redes sociales. En este sentido, resulta nece-

sario considerar estrategias como el procesamiento distribuido para el tratamiento de grandes

cantidades de datos.

Se espera que las contribuciones en esta línea, colaboren en la optimización de buscadores

de expertos. Asimismo, se espera que las contribuciones en esta área permitan el desarrollo de

nuevas técnicas de selección de expertos.

Page 109: Un enfoque inteligente para la selección de grupos de
Page 110: Un enfoque inteligente para la selección de grupos de

Apendice A

Conjuntos de datos

A.1. Audiencias de nominación

En el preprocesamiento de las audiencias de nominación, se utilizaron un conjunto de herra-

mientas de procesamiento de texto en conjunto con expresiones regulares.

El cuadro A.1 presenta un conjunto de las órdenes de ejecución de las herramientas junto con

las expresiones regulares utilizadas en el preprocesamiento del conjunto de datos.

Page 111: Un enfoque inteligente para la selección de grupos de

94

Con

jun

tos

de

dat

os

Descripción Comando

Extrae sólo los fragmentos de los senadores grep -Pzoi " {4,4}(senator)([\s\S]+?)([ ]{4,4}(dr|ms|mr|answer)|\n\n|\[the)"Quita todos los fines de fragmento que no sirven sed -i -r "s/\s{4,10}(Dr|Ms|Mr|\[The)/\n/g"

Quita las aclaraciones en brackets sed -i -r "s/[\s]*\[.*\]/\n/g"Quita el nombre de la sección apéndice sed -i -r "s/A\s?P\s?P\s?E\s?N\s?D\s?I\s?X/\s/g"Pone cada sentencia en una sóla línea sed -i ’:a;N;$!ba;s/\n/ /g’Quita los nombres de los senadores sed -i -r "s/( {4,4}Senator\s\w+\.|^The Chairman\.)\s//g"

Quita las empty lines sed -i -e ’/^$/ d’Obtiene las sentencias con longitud mayor o igual a n awk ’length >= 50’

Obtiene sentencias aleatorias sort -R input | head -n 100

Cuadro A.1: Comandos para el preprocesamiento del conjunto de datos.

Page 112: Un enfoque inteligente para la selección de grupos de

Bibliografía

Baker, C. F., Fillmore, C. J., & Lowe, J. B. (1998). The berkeley framenet project. In Proceedings

of the 17th International Conference on Computational Linguistics, volume 1 of COLING ’98 (pp.

86–90).

Balog, K., Azzopardi, L., & de Rijke, M. (2009). A language modeling framework for expert

finding. Information Processing & Management, 45(1), 1–19.

Balog, K. & De Rijke, M. (2007). Determining Expert Profiles (With an Application to Expert

Finding). In Proceedings of the 20th International Joint Conference on Artificial Intelligence,

volume 7 of IJCAI 2007 (pp. 2657–2662).

Bishop, C. M. (2006). Pattern Recognition and Machine Learning (Information Science and Statis-

tics). Secaucus, NJ, USA: Springer-Verlag New York, Inc.

Bonacich, P. (1987). Power and centrality: A family of measures. American Journal of Sociology,

92(5), 1170–1182.

Borgatti, S. P. (2006). Identifying sets of key players in a social network. Computational &

Mathematical Organization Theory, 12(1), 21–34.

Borgatti, S. P. & Everett, M. G. (2006). A graph-theoretic perspective on centrality. Social Net-

works, 28(4), 466–484.

Borgatti, S. P. & Everettt, M. G. (1992). Notions of position in social network analysis. Sociological

Methodology, 22, 1–35.

Bródka, P., Filipowski, T., & Kazienko, P. (2013). An introduction to community detection in

multi-layered social network. In Information Systems, E-learning, and Knowledge Management

Research, number 278 in Communications in Computer and Information Science (pp. 185–

190). Springer Berlin Heidelberg.

Page 113: Un enfoque inteligente para la selección de grupos de

96 BIBLIOGRAFÍA

Burt, R. S. (1978). Cohesion versus structural equivalence as a basis for network subgroups.

Sociological Methods & Research, 7(2), 189–212.

Burt, R. S. (1987). Social contagion and innovation: Cohesion versus structural equivalencel.

Cao, T., Wu, X., Wang, S., & Hu, X. (2011). Maximizing influence spread in modular social

networks by optimal resource allocation. Expert Systems with Applications, 38(10), 13128–

13135.

Chin, A. & Chignell, M. (2010). DISSECT: data-intensive socially similar evolving community

tracker. In A. Abraham, A.-E. Hassanien, & V. Sná¿el (Eds.), Computational Social Network

Analysis, Computer Communications and Networks (pp. 81–105). Springer London.

Chou, B.-H. & Suzuki, E. (2010). Discovering community-oriented roles of nodes in a social

network. In Data Warehousing and Knowledge Discovery (pp. 52–64). Springer.

Das, D., Chen, D., Martins, A. F., Schneider, N., & Smith, N. A. (2014). Frame-semantic parsing.

Computational Linguistics, 40(1), 9–56.

Das, D., Schneider, N., Chen, D., & Smith, N. A. (2010). Probabilistic frame-semantic parsing. In

Human language technologies: The 2010 annual conference of the North American chapter of the

association for computational linguistics, HLT ’10 (pp. 948–956).

De Meo, P., Ferrara, E., Fiumara, G., & Ricciardello, A. (2012). A novel measure of edge centrality

in social networks. Knowledge-Based Systems, 30, 136–150.

Doreian, P. (1988). Equivalence in a social network. The Journal of Mathematical Sociology,

13(3), 243–281.

Estrada, E. & Rodríguez-Velázquez, J. A. (2005). Subgraph centrality in complex networks.

Physical Review E, 71(5).

Everett, M. G. (1985). Role similarity and complexity in social networks. Social Networks, 7(4),

353–359.

Everett, M. G. & Borgatti, S. P. (1999). The centrality of groups and classes. The Journal of

Mathematical Sociology, 23(3), 181–201.

Everett, M. G. & Borgatti, S. P. (2005). Extending centrality. Models and methods in social network

analysis, 35(1), 57–76.

Everett, M. G., Sinclair, P., & Dankelmann, P. (2004). Some centrality results new and old. The

Journal of Mathematical Sociology, 28(4), 215–227.

Fattah, M. A. (2014). A hybrid machine learning model for multi-document summarization.

Applied Intelligence, 40(4), 592–600.

Page 114: Un enfoque inteligente para la selección de grupos de

BIBLIOGRAFÍA 97

Fillmore, C. J. (1976). Frame semantics and the nature of language*. Annals of the New York

Academy of Sciences, 280(1), 20–32.

Fillmore, C. J. (2006). Frame semantics. Cognitive linguistics: Basic readings, 34, 373–400.

Fillmore, C. J. & Baker, C. (2009). A Frames Approach to Semantic Analysis.

Freeman, L. C. (1977). A set of measures of centrality based on betweenness. Sociometry, 40(1),

35–41.

Freeman, L. C. (1979). Centrality in social networks conceptual clarification. Social networks,

1(3), 215–239.

Freeman, L. C. (2011). The development of social network analysis–with an emphasis on recent

events. The SAGE Handbook of Social Network Analysis, (pp. 26–39).

Freeman, L. C. & Webster, C. M. (1994). Interpersonal proximity in social and cognitive space.

Social Cognition, 12(3), 223—247.

Ghosh, R. & Lerman, K. (2011). Parameterized centrality metric for network analysis. Physical

Review E, 83(6).

Gildea, D. & Jurafsky, D. (2002). Automatic labeling of semantic roles. Computational linguistics,

28(3), 245–288.

Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning. Boston,

MA, USA: Addison-Wesley Longman Publishing Co., Inc., 1st edition.

Hanneman, R. A. & Riddle, M. (2005). Introduction to Social Network Methods. University of

California.

Hinds, P. J., Carley, K. M., Krackhardt, D., & Wholey, D. (2000). Choosing Work Group Mem-

bers: Balancing Similarity, Competence, and Familiarity. Organizational Behavior and Human

Decision Processes, 81(2), 226–251.

Karimzadehgan, M. & Zhai, C. (2012). Integer Linear Programming for Constrained Multi-Aspect

Committee Review Assignment. Information processing & management, 48(4), 725–740.

Karimzadehgan, M., Zhai, C., & Belford, G. (2008). Multi-aspect expertise matching for review

assignment. In Proceedings of the 17th ACM conference on Information and knowledge manage-

ment, CIKM ’08 (pp. 1113–1122).

Kazienko, P., Musial, K., & Zgrzywa, A. (2006). Selection of the Target Group based on Social

Network. In Data Analysis Puerto de la Cruz, Tenerife, Spain.

Klemm, K., Serrano, M. Á., Eguíluz, V. M., & Miguel, M. S. (2012). A measure of individual role

in collective dynamics. Scientific Reports, 2.

Page 115: Un enfoque inteligente para la selección de grupos de

98 BIBLIOGRAFÍA

Kolaczyk, E. D., Chua, D. B., & Barthélemy, M. (2009). Group betweenness and co-betweenness:

Inter-related notions of coalition centrality. Social Networks, 31(3), 190–203.

Kupiec, J., Pedersen, J., & Chen, F. (1995). A trainable document summarizer. In Proceedings of

the 18th Annual International ACM SIGIR Conference on Research and Development in Informa-

tion Retrieval, SIGIR ’95 (pp. 68–73).

Landherr, A., Friedl, B., & Heidemann, J. (2010). A critical review of centrality measures in social

networks. Business & Information Systems Engineering, 2(6), 371–385.

Lerman, K., Ghosh, R., & Kang, J. H. (2010). Centrality metric for dynamic networks. In Procee-

dings of the Eighth Workshop on Mining and Learning with Graphs, MLG ’10 (pp. 70–77). New

York, NY, USA: ACM.

Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In Text summariza-

tion branches out: Proceedings of the ACL-04 workshop, volume 8 of ACL ’04.

Liu, D.-R., Chen, Y.-H., Kao, W.-C., & Wang, H.-W. (2013). Integrating expert profile, reputation

and link analysis for expert finding in question-answering websites. Information Processing &

Management, 49(1), 312–329.

Mani, I. & Maybury, M. T. (1999). Advances in automatic text summarization, volume 293. MIT

press.

McCallum, A., Corrada-Emmanuel, A., & Wang, X. (2005). Topic and role discovery in social

networks. Computer Science Department Faculty Publication Series, (pp.3).

Mitchell, T. M. (1997). Machine Learning. New York, NY, USA: McGraw-Hill, Inc., 1 edition.

Momtazi, S. & Naumann, F. (2013). Topic modeling for expert finding using latent Dirichlet

allocation. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(5), 346–

353.

Moody, J. & White, D. R. (2003). Structural cohesion and embeddedness: A hierarchical concept

of social groups. American Sociological Review, (pp. 103–127).

Morgan, G. P. & Carley, K. M. (2011). Exploring the impact of a stochastic hiring function in

dynamic organizations. Proceedings of BRIMS 2011, (pp. 106–113).

Morgan, G. P. & Carley, K. M. (2014). Comparing hiring strategies in a committee with similarity

biases. Computational and Mathematical Organization Theory, 20(1), 1–19.

Neshati, M., Beigy, H., & Hiemstra, D. (2014). Expert group formation using facility location

analysis. Information Processing & Management, 50(2), 361–383.

Opsahl, T., Agneessens, F., & Skvoretz, J. (2010). Node centrality in weighted networks: Gene-

ralizing degree and shortest paths. Social Networks, 32(3), 245–251.

Page 116: Un enfoque inteligente para la selección de grupos de

BIBLIOGRAFÍA 99

Paice, C. D. (1990). Constructing literature abstracts by computer: techniques and prospects.

Information Processing & Management, 26(1), 171–186.

Ribeiro, I. S., Santos, R. L., Gonçalves, M. A., & Laender, A. H. (2015). On tag recommendation

for expertise profiling: A case study in the scientific domain. In Proceedings of the Eighth ACM

International Conference on Web Search and Data Mining, WSDM ’15 (pp. 189–198).: ACM.

Rowe, S., Alexander, N., Weaver, C. M., Dwyer, J. T., Drew, C., Applebaum, R. S., Atkinson, S.,

Clydesdale, F. M., Hentges, E., Higley, N. A., & Westring, M. E. (2013). How experts are chosen

to inform public policy: Can the process be improved? Health Policy, 112(3), 172–178.

Rybak, J., Balog, K., & Nørvåg, K. (2014). Temporal expertise profiling. In European Conference

on Information Retrieval, ECIR ’14 (pp. 540–546).: Springer.

Salton, G., Singhal, A., Mitra, M., & Buckley, C. (1997). Automatic text structuring and summa-

rization. Information Processing & Management, 33(2), 193–207.

Serdyukov, P., Taylor, M., Vinay, V., Richardson, M., & White, R. W. (2011). Automatic people tag-

ging for expertise profiling in the enterprise. In European Conference on Information Retrieval,

ECIR ’11 (pp. 399–410).: Springer.

Silvello, G., Bordea, G., Ferro, N., Buitelaar, P., & Bogers, T. (2016). Semantic representation

and enrichment of information retrieval experimental data. International Journal on Digital

Libraries.

Suanmali, L., Salim, N., & Binwahlan, M. S. (2011). Fuzzy Genetic Semantic Based Text Sum-

marization. In IEEE Ninth International Conference on Dependable, Autonomic and Secure Com-

puting, DASC ’11 (pp. 1184–1191).

Tang, J., Musolesi, M., Mascolo, C., Latora, V., & Nicosia, V. (2010). Analysing information flows

and key mediators through temporal centrality metrics. In Proceedings of the 3rd Workshop on

Social Network Systems, SNS ’10 (pp. 3:1–3:6). New York, NY, USA: ACM.

Teufel, S. & Moens, M. (1997). Sentence extraction as a classification task. In Proceedings of the

ACL, volume 97 of ACL ’97 (pp. 58–65).

Vasudevan, M. & Deo, N. (2012). Efficient community identification in complex networks. Social

Network Analysis and Mining, 2(4), 345–359.

Wasserman, S. & Faust, K. (1994). Social Network Analysis: Methods and Applications. Cambridge

University Press.

Wellman, B. (1983). Network analysis: Some basic principles. Sociological theory, 1(1), 155–200.

White, D. R. & Reitz, K. P. (1983). Graph and semigroup homomorphisms on networks of rela-

tions. Social Networks, 5(2), 193–234.

Page 117: Un enfoque inteligente para la selección de grupos de

100 BIBLIOGRAFÍA

Wi, H., Mun, J., Oh, S., & Jung, M. (2009a). Modeling and analysis of project team formation

factors in a project-oriented virtual organization (ProVO). Expert Systems with Applications,

36(3, Part 2), 5775–5783.

Wi, H., Oh, S., Mun, J., & Jung, M. (2009b). A team formation model based on knowledge and

collaboration. Expert Systems with Applications, 36(5), 9121–9134.

Wu, T., Wang, Q., Zhang, Z., & Si, L. (2015). Determining expert research areas with multi-

instance learning of hierarchical multi-label classification model. In Proceedings of the 24th

International Conference on Artificial Intelligence, IJCAI 2007 (pp. 2305–2511).

Xu, X. (2004). A note on the subjective and objective integrated approach to determine attribute

weights. European Journal of Operational Research, 156(2), 530–532.

Zamudio, E., Berdún, L. S., & Amandi, A. A. (2016). Social Networks and Genetic Algorithms to

Choose Committees with Independent Members. Expert Syst. Appl., 43(C), 261–270.