clusterización en minería de datos: cj y k-medias ... · un grupo de alumnos consideran que el...

14
324 Artículo Revista de Análisis Cuantitativo y Estadístico Septiembre 2015 Vol.2 No.4 324-337 Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de opinión sobre acoso escolar en la UTNA MEDINA, Gricelda*, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío Recibido 17 de Julio, 2015; Aceptado17 de Septiembre, 2015 Resumen En este trabajo se aplican métodos de aprendizaje no supervisado de minería de datos, para analizar los resultados de una encuesta de opinión sobre el acoso escolar, en la Universidad Tecnológica del Norte de Aguascalientes (UTNA). El estudio fue aplicado a 131 estudiantes en la carrera de Tecnologías de la Información y la Comunicación. En base a los resultados obtenidos, se descubrió la formación de 2 grupos con diferentes percepciones sobre el acoso escolar. Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el otro grupo, cree que la intimidación se origina en la calle, por juntarse con amigos que tienen un comportamiento negativo. El objetivo del estudio, es el uso, de métodos de aprendizaje supervizado aplicados al análisis descriptivo de datos, específicamente para este caso de estudio, los datos de una encuesta sobre percepción del acoso escolar. La metodología empleada para el desarrollo de este estudio, incluyó primeramente el diseño de la encuesta, resultado de la consulta de diversas fuentes de dicadas al tema del acoso escolar. Después, se ingresaron los datos de la encuesta, en el paquete desarrollado por la plataforma del programa R, llamado R-Comander, y una vez procesados los datos por esta herramienta se procedió al análisis de los resultados. Minería de datos, KDD, clusterización jerárquica (CJ), K- medias, acoso escolar Abstract In this work we applied unsupervised learning methods, to analyze the results of an opinion survey about bullying in La Universidad Tecnológica del Norte de Aguascalientes (UTNA). This study was applied to 131 students in the career of Communication Technologies at the University. We found the formation of 2 groups with different perceptions about bullying. In the first group of students they believe that bullying is mainly generated because they have family problems, and the other group, believes that bullying originates in the street, as result of, they come together with people who have a negative behavior. The objective of this study, is the use of unsupervised learning methods, applied to data analysis, specifically for this study, data from a survey on bullying perception. The methodology used to develop this study icluded, first the survey design on bullying, consulting many sources dedicates specifically on the bullying topic. After that, the data were introduced in the package data mining platform developed by R program, called R-Comander, and once the data was processed by the tool we proceeded to analyze the results. Data mining, KDD, hierarchical clustering, K-medias, bullying Citación: MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío. Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y Estadístico 2015, 2-4: 324-337 * Correspondencia al Autor (Correo Electrónico: [email protected]) †Investigador contribuyendo como primer autor © ECORFAN-Bolivia www.ecorfan.org/bolivia

Upload: phamnga

Post on 29-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

324

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA

MEDINA, Gricelda*†, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío

Recibido 17 de Julio, 2015; Aceptado17 de Septiembre, 2015

Resumen

En este trabajo se aplican métodos de aprendizaje no supervisado

de minería de datos, para analizar los resultados de una encuesta de

opinión sobre el acoso escolar, en la Universidad Tecnológica del

Norte de Aguascalientes (UTNA). El estudio fue aplicado a 131

estudiantes en la carrera de Tecnologías de la Información y la

Comunicación. En base a los resultados obtenidos, se descubrió la

formación de 2 grupos con diferentes percepciones sobre el acoso

escolar. Un grupo de alumnos consideran que el acoso escolar se

genera principalmente porque tienen problemas en la familia, y el

otro grupo, cree que la intimidación se origina en la calle, por

juntarse con amigos que tienen un comportamiento negativo.

El objetivo del estudio, es el uso, de métodos de

aprendizaje supervizado aplicados al análisis descriptivo de datos,

específicamente para este caso de estudio, los datos de una encuesta

sobre percepción del acoso escolar. La metodología empleada para

el desarrollo de este estudio, incluyó primeramente el diseño de la

encuesta, resultado de la consulta de diversas fuentes de dicadas al

tema del acoso escolar. Después, se ingresaron los datos de la

encuesta, en el paquete desarrollado por la plataforma del programa

R, llamado R-Comander, y una vez procesados los datos por esta

herramienta se procedió al análisis de los resultados.

Minería de datos, KDD, clusterización jerárquica (CJ), K-

medias, acoso escolar

Abstract

In this work we applied unsupervised learning methods, to analyze

the results of an opinion survey about bullying in La Universidad

Tecnológica del Norte de Aguascalientes (UTNA). This study was

applied to 131 students in the career of Communication

Technologies at the University. We found the formation of 2 groups

with different perceptions about bullying. In the first group of

students they believe that bullying is mainly generated because they

have family problems, and the other group, believes that bullying

originates in the street, as result of, they come together with people

who have a negative behavior.

The objective of this study, is the use of unsupervised

learning methods, applied to data analysis, specifically for this

study, data from a survey on bullying perception. The methodology

used to develop this study icluded, first the survey design on

bullying, consulting many sources dedicates specifically on the

bullying topic. After that, the data were introduced in the package

data mining platform developed by R program, called R-Comander,

and once the data was processed by the tool we proceeded to

analyze the results.

Data mining, KDD, hierarchical clustering, K-medias, bullying

Citación: MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío. Clusterización en minería de

datos: CJ y K-Medias aplicados a una encuesta de opinión sobre acoso escolar en la UTNA. Revista de Análisis

Cuantitativo y Estadístico 2015, 2-4: 324-337

* Correspondencia al Autor (Correo Electrónico: [email protected])

†Investigador contribuyendo como primer autor

© ECORFAN-Bolivia www.ecorfan.org/bolivia

Page 2: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

325

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Introducción

En la actualidad existe una creciente necesidad

de generar nuevas teorías y herramientas

computacionales, que ayuden a extraer

información y conocimiento útil, de los grandes

volúmenes de datos existentes, debido al uso

constante de los avances tecnológicos en el

manejo y generación de información. Estas

teorías y herramientas son temas concernientes

al proceso de descubrimiento de conocimiento

en bases de datos (KDD, Knowledge Discovery

in Databases), término acuñado por primera vez

en el primer taller KDD en 1989 (Hand 01,

Jiawei 06) y que involucra desde el

entendimiento del dominio de aplicación,

pasando por la limpieza de datos y la extracción

del conocimiento, hasta el uso y aplicación de

ese conocimiento adquirido. La minería de

datos es una de las principales etapas de este

proceso (KDD) Fig1, en la cual se aplican a los

datos métodos matemáticos, estadísticos o

algorítmicos, con el objetivo de descubrir

patrones e información oculta en ellos. Esto le

ha valido a la minería de datos la atención de la

industria y la sociedad, por a la amplia gama de

métodos y técnicas que ofrece para este

propósito. La información y los conocimientos

o patrones adquiridos a través del proceso de

minería de datos, han sido utilizados en

múltiples aplicaciones que van desde el análisis

de mercado (segmentación de clientes,

previsión de ventas, análisis de riesgo),

detección de fraudes (tarjetas de crédito,

servicios telefónicos, pagos de impuestos etc.),

retención de clientes (estudio de hábitos de

consumo), hasta la exploración de la ciencia y

la medicina (Valenga 07, La Red 14, Jiawei 06)

donde en el área de genética, analizando

cambios en las secuencias de ADN, se ha

podido determinar el riesgo de desarrollar

enfermedades como el cáncer, lo cual ha

ayudado a mejorar el diagnóstico, prevención y

tratamiento de este tipo de enfermedades (Perez

08).

Este documento está dividido en 6

apartados que contienen lo iguiente: El primer

apartado, habla de los resultados encontrados en

la aplicación de la encuesta nacional, sobre

sobre exclusión, intolerancia y violencia en las

escuelas de educación media superior, en

México. El apartado 2, contiene una

descripción general del significado de la

minería de datos y su clasificación, en base al

tipo de tareas que maneja. El tercer apartado

describe la metodología que se utilizó para el

desarrollo de este estudio, detallando cada

técnica empleada. En el apartado 4 están los

resultados obtenidos de la aplicación de la

encuesta, y procesados por el programa R-

Comander. Los trabajos similares encontrados

en la bibliografía, se mencionan en el apartado

5, y finalmente en el apartado 6 se definen las

conclusiones finales del proyecto.

Figura 1 Proceso KDD (Fayyad 96)

Acoso escolar

El año pasado se aplicó la Tercera Encuesta

Nacional sobre Exclusión, Intolerancia y

Violencia en las Escuelas de Educación Media

Superior, por el Sistema Educativo de México.

Limpieza de datos

Bases de datos

Integración de datos

Selección

Bodega de datos

Objetivo del análisis

Minería de datos

Evaluación de

patrones

Page 3: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

326

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

La encuesta se realizó con un muestreo

probabilístico en 150 escuelas de educación

superior, para obtener un tamaño de muestra de

1.500 estudiantes.

La encuesta abordó cuestiones

relacionadas con las relaciones interpersonales

en el espacio de la comunidad escolar, y

proporciona una breve descripción de las

relaciones sociales entre los compañeros de

clase, y de eventos particulares que muestran

signos de agresión o violencia en estas

relaciones sociales.

Los datos obtenidos permitieron

establecer la presencia de violencia psicológica

y situaciones de violencia física o verbal, a los

estudiantes en la escuela, en el 72% de los

hombres y el 65% de las mujeres encuestadas.

Aunque la mayoría de los casos notificados

fueron esporádicos y sólo parte de los

estudiantes, reportaron hechos de violencia que

se presentan en varias ocasiones. Hay indicios,

de que los estudiantes que tenían la violencia

recurrente registraron un aumento del

absentismo, superior al 30% en comparación

con los estudiantes que no han sufrido. Además

el 30,3% de los estudiantes encuestados no

consideran la escuela como un lugar seguro. Es

por ello que, consideramos el acoso escolar

como un tema de suma importancia en el

ámbito educativo y que requiere de

herramientas de análisis, que nos ayuden a

detectar indicios de violencia en las

instituciones, para implementar acciones que

nos ayuden a disminuír los actos y las

consecuencias de éstos en los estudiantes a

cualquier nivel educativo.

Minería de Datos

El propósito de aplicar a los datos técnicas de

minería, es para buscar generalmente dos tipos

de tareas u objetivos:

La descripción o la predicción y cada

una de estas tareas se describen a continuación:

(La Red 14, Shu 2012)

a. Tareas descriptivas o exploratorias

(Aprendizaje no supervisado).

El objetivo de este tipo de tareas es particionar

o segmentar un conjunto de datos o individuos

en grupos. Los grupos se forman basados en la

similaridad de los datos o individuos en ciertas

variables.

También se les conoce como

aprendizaje no supervisado, porque, buscan sin

orientación cosas en los datos, son exploratorias

y descriptivas, e implican buscar en los datos

patrones comunes de comportamiento

(características similares, preferencias,

conductas, hábitos, etc.). En este tipo de tareas

el método descubre de forma autónoma en los

datos de entrada, características, correlaciones y

categorías similares entre ellos. Son técnicas

que parten de una medida de proximidad entre

individuos y a partir de una población total,

buscan agrupar a los individuos más parecidos

entre sí, según una serie de variables

mesuradas. Las características a cubrir son que,

los grupos o conglomerados deben ser lo más

acoplados o parecidos al cluster (grupo), y los

clusters lo más separados o diferentes posible

entre sí. Se tienen varios métodos descriptivos

en minería de datos, enfocados a este tipo de

tareas, entre los más comunes se encuentran:

- Clusterización jerárquica (CJ).

- K-medias.

- Análisis de componentes principales (ACP).

- OLAP (On Line Analytical Processing).

- Métodos factoriales.

Page 4: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

327

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

b. Tareas Predictivas (Aprendizaje

supervisado)

Este tipo de tareas, pretenden predecir valores

futuros, o desconocidos, de las variables

(volúmenes de ventas, posibles clientes

fraudulentos, clientes buenos pagadores o no,

Etc.). También se les denomina aprendizaje

supervisado y su objetivo es el de crear una

función capaz de predecir el valor

correspondiente a una variable, después de

haber analizado una serie de ejemplos (los datos

de entrenamiento). También se cuenta con

varios métodos de tipo predictivo en minería de

datos, entre los más comunes se tienen:

- Series de tiempo.

- Análisis discriminante.

- Regresión.

- Árboles de decisión.

- Suport Vectors Machine.

- Métodos bootstrapping.

Metodología

El presente trabajo se ha centrado

principalmente en el estudio de los métodos de

clusterización: Clusterización jerárquica (CJ) y

K-medias, empleándolos para analizar los

resultados obtenidos de una encuesta de opinión

sobre acoso escolar. La encuesta fue aplicada a

131 alumnos de la carrera de Tecnologías de la

Información y la Comunicación, de la

Universidad Tecnológica del Norte de

Aguascalientes, y mediante los métodos de

clusterización antes mencionados, se

encontraron los grupos afines en cuanto a su

percepción acerca del tema del acoso escolar.

El funcionamiento de ambos métodos

utilizados se describen a continuación:

a. Clusterización Jerárquica.

El objetivo de la Clusterización Jerárquica o

Clasificación automática, es que, a partir de una

tabla de datos, donde las columnas representan

las variables y los renglones los individuos, se

construye un dendograma, al cual se le hace un

corte para identificar los clusters o

conglomerados y así encontrar información a

partir de éstos. Fig 2 (Hand 01).

Este método de clusterización se basa en

la idea de calcular las distancias o índices de

disimilitud de todos contra todos (variables o

individuos) en una tabla.

El índice de disimilitud, es una función

matemática que toma a dos individuos y les

asigna un número entre 0 y más infinito (0,+∞),

que tiene que cumplir la propiedad, de ser

simétrica, es decir, que la distancia entre x y y,

es la misma que entre y y x.

Propiedad de simetría.

d: IxI → [0, +∞] (1)

Y

d(x, y) = d(y, x) para todo x, y ϵ I (2)

Para el cálculo de estos índices de

disimilitud, existen varias fórmulas, como la

fórmula de la distancia Euclídea, la distancia

Euclídea al cuadrado, o la fórmula de la

distancia de Manhattan, entre otras, pero la más

común, es el la fórmula de la distancia

Euclídea, la cual se utilizó para analizar los

resultados de la encuesta (Hand 01, Mirkin 05).

Page 5: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

328

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Figura 2 Esquema del método Clusterización Jerárquica

(CJ).

Distancia Euclídea

d(Xi, Xs) = √∑ (Xij − Xsj)2p

j=1 (3)

Una vez calculados los índices de

disimilitud a través del cálculo de las distancias

de todos los individuos, se obtiene como

resultado una matriz simétrica de distancias, la

cual se utiliza para unir por parejas, aquellos

individuos cuyos índices de disimilitud sean

menores, luego se une la pareja con los menores

índices de disimilitud siguientes y así

sucesivamente para unir todos los individuos.

Una vez unidos los individuos, ahora, a

través de un índice de agregación se proceden a

unir grupos de individuos, para lo cual, existen

también varias fórmulas, como la del índice de

agregación de Ward, la fórmula de enlace

simple, la de enlace medio, o completo, o la de

McQuitty entre otras, pero la más común es la

fórmula del índice de agregación de Ward

(Jiawei 06, Chambers 09).

Agregación de Ward

δw(x, y) = |x|. |y|

|x|+ |y| ||gx − gy||2 (4)

Una vez unidos los grupos de individuos

se genera finalmente la estructura dendograma,

y a partir de ésta, se pueden encontrar los

clusters o conglomerados de la tabla de datos,

para finalmente analizarlos y encontrar la

información que proporcionan (Valenga 07,

Jiawei 06, Yakushev 14).

b. K-medias.

Es el método más usado para hacer clustering y

generalmente se utiliza, cuando se analizan

volúmenes considerables de información, esto

debido a que, el método de CJ tiene un

problema de crecimiento exponencial en los

cálculos, pues al realizar las operaciones de las

distancias de todos contra todos los individuos

en una tabla, se puede convertir en un proceso

muy pesado computacionalmente. Por ejemplo

al analizar una tabla cuando se cuentan con

miles de registros.

El objetivo del método K-medias, es el

mismo que el del método CJ, o el método ACP,

etc. Encontrar clusters lo más homogéneo

posible entre los individuos de cada cluster y

que los clusters entre ellos sean lo más diferente

posible uno de otro. El método K-medias, inicia

asignando al azar cada individuo a un cluster,

una vez asignados todos los individuos, el

siguiente paso es calcular el centro de gravedad

de cada cluster, para luego calcular las

distancias de todos los individuos a su centro de

gravedad (Jiawei 06). Si algunos individuos

están más cerca al centro de gravedad de otro

cluster que al centro de gravedad del cluster

asignado, se hace una reasignación (se cambian

de cluster) y se reacomodan los cluster

nuevamente.

Page 6: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

329

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Y se vuelve a realizar el mismo

procedimiento, es decir, nuevamente se

calculan los centros de gravedad de cada cluster

y si otra vez hay individuos que están más cerca

al centro de gravedad de otro cluster que al

cluster asignado, se vuelven a reasignar (se

cambian de cluster) reacomodando los cluster.

Y así sucesivamente, se sigue iterando, hasta

que no haya cambios, o se supere un número

máximo de iteracciones indicadas al inicio del

proceso, porque, si se tiene por ejemplo, un

millón de registros los cambios no se logran

estabilizar, por lo que se asigna un número

máximo de iteracciones para que el algoritmo

pare en un momento determinado. Fig 3.

Figura 3 Esquema del método K-medias

El centro de gravedad de un cluster se

calcula, con el promedio vectorial de los

individuos que pertenecen al cluster, mediante

la siguiente fórmula.

Centro de gravedad de un cluster.

gk = 1

|Ck|

∑ Xi,i∈Ck (5)

Dónde: k = número de clusters. Y gk =

representa al centro de gravedad de cada clase.

Para el cálculo del centro de gravedad total, lo

que se hace es, promediar todos los vectores y

dividirlos entre n, donde n es la cantidad de

datos en la base de datos (Husson 10, Mirkin

05).

Cálculo del centro de gravedad total.

g =1

n∑ Xi

ni=1 (6)

Donde n = cantidad de datos en la tabla

de datos.

El término inercia total, es un valor que

se calcula promediando las distancias de los

vectores al centro de gravedad total, lo que

indica la desviación estándar de cada vector con

la media general de inercia.

Cálculo de la inercia total.

I =1

n ∑ ||Xi − g||2n

i=1 (7)

El término inercia inter clases, es el valor

que indica qué tan distantes o diferentes están

las clases una de otra, y su cálculo, se realiza

calculando la distancia del centro de gravedad

de cada clase al centro de gravedad total, para

luego realizar un promedio ponderado de esas

distancias y elevarlo al cuadrado.

B(P) = ∑|Ck

|

n

KK=1 ||gk − g||2 (8)

Dónde Ck= Número de elementos.

El término inercia de una clase o inercia

intra clase, es un valor que indica que tan bien

están acopladas las clases, o que tan parecidos y

semejantes son los individuos que integran la

clase (Graham 11, Chambers 09).

Su cálculo, implica la suma de las

distancias de los individuos que pertenecen a

una clase a su centro de gravedad, realizando el

mismo procedimiento para las n clases,

finalmente se suman los promedios y se dividen

entre el número de clases (Bullyinformate.org

15).

Page 7: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

330

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

W(P) = ∑ I(Ck) =1

n

KK=1 ∑ ∑ ||Xi −i∈Ck

KK=1

gk||2 (9)

El objetivo principal de esto, es

maximizar la distancia inter clases B (P) y

minimizar la distancia intra clases W(P), para

dejar clusters lo más diferentes uno de otro

B(P) y que los individuos de un cluster sean lo

más homogéneos posible W(P).

Con el método de K-means se logra

resolver el problema combinatorio del método

de clasificación jerárquica (CJ), ya que en este

último, los cálculos crecen exponencialmente, y

el método de k-means reduce sus cálculos a un

tiempo polinomial lo cual lo hace factible de

calcular (Husson 10, Graham 11, Fayyad 96).

c. Programa R-Comander.

El análisis de ambos métodos fueron

procesados en el programa estadístico de R a

través de la interfaz gráfica del paquete R

Commander, diseñada por John Fox, de la

Universidad de Hamilton, Ontario, Canadá, que

cubre la mayor parte de los análisis estadísticos

más habituales de R, a través de menús

desplegables (Arriaza 08, Artime 13, Cena 15,

Le 08, Torsten 09).

Resultados obtenidos

La encuesta de opinión sobre acoso escolar

aplicada a los 131 alumnos incluyó 7 preguntas

manejando 26 variables a considerar. Esta

encuesta fue diseñada considerando los

enfoques y propuestas de algunos organismos

sociales y gubernamentales especialistas en el

tema del acoso escolar (Bullyinformate.org 15,

Montaño 14, Pang-Ning 06, Merino 08, OCSE

15). En cada pregunta, los alumnos solo podían

elegir una única respuesta. La Tabla 1, muestra

el contenido de la encuesta que se aplicó:

1. El acoso escolar es:

p1a) Un pasatiempo

p1b) Algo normal que pasa.

p1c) Es un abuso y causa dolor.

P1d) Mostrar fortaleza y liderazgo.

2. Selecciona la que consideres la principal

consecuencia del acoso escolar.

p2a) Sentir miedo.

p2b) Bajas calificaciones, abandonar la escuela.

p2c) No tiene consecuencias.

p2d) Puede provocar que alguien llegue a suicidarse.

3. ¿Qué tendría que suceder para arreglar este

problema? p3a) No se puede arreglar.

p3b) Que hagan algo los profesores/as y las familias.

p3c) Que hagan algo los compañeros.

P3d) Solo con sanciones legales.

4. ¿Por qué crees que algunos/as intimiden a otros/as?

p4a) Por gastar una broma o molestar.

p4b) Porque se meten con ellos/as.

P4c) Porque son más fuertes.

P4d) Problemas en su familia.

5. ¿Dónde crees que se origina principalmente el acoso? p5a) En la casa.

p5b) Afuera con los amigos.

p5c) Es la personalidad de cada quien.

p5d) Por ver películas, videojuegos, programas de TV.

6. ¿Qué piensas de los chicos o chicas que intimidan a

otros? p6a) Nada, paso el tema.

p6b) Me parece mal.

p6c) Es normal que pase entre compañeros.

p6d) Hacen bien, tendrán sus motivos.

7. ¿Conoces a alguien o sabes de algún caso de acoso

escolar en esta institución?

p7a) No.

p7b) Si.

Tabla 1 Cuestionario de opinión sobre acoso escolar

En la Figura 4 se muestra la matriz

binaria de datos, generada de procesar los

resultados de la aplicación de las encuestas.

Por cuestiones de simplicidad se utilizó

una clave de identificación para cada posible

respuesta en cada pregunta, y como la encuesta

fue anónima no se utilizaron nombres de

alumnos, solo una nomenclatura que identifica

al grupo al que pertenece cada alumno y un

número consecutivo para control de la cantidad

de alumnos que respondieron la encuesta por

grupo.

Page 8: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

331

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Figura 4 Matriz binaria de datos

A continuación se detallan los

resultados obtenidos por cada método de

clusterización, que se utilizó para para analizar

la información de las encuestas.

a. Resultados obtenidos con el método de

Clusterización Jerárquica (CJ).

Mediante el método de Clusterización

Jerárquica se obtuvo lo siguiente: Se ingresó al

programa la matriz binaria de datos y se

calcularon los índices de disimilitud de todos

los individuos, utilizando la fórmula de la

distancia Euclídea generando como resultado la

matriz simétrica de distancias que se muestra en

la Fig. 5.

Figura 5 Matriz simétrica de distancias

Mediante el uso de la fórmula del índice

de agregación de Ward, para unir los grupos de

individuos, se obtuvo como resultado, los

siguientes dendogramas, en 3D y 2D Fig. 6 y

Fig. 7 respectivamente.

Figura 6 Dendograma 3D

Figura 7 Dendograma

Una vez creados los dendogramas en el

método CJ, se puede ver claramente que el

sistema, generó 2 clusters o grupos, el grupo

número 1 con 86 alumnos y el número 2 con

46.

Figura 8 Gráfico general

La Fig. 8 muestra el gráfico general

donde se observan las características que

definen a cada cluster, encontrando diferencias

muy marcadas en las preguntas 2, 3, 4 y 5.

Page 9: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

332

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Analizando los resultados por separado

de cada una de estas preguntas se tiene que: En

la pregunta 2 (Selecciona la que consideres la

principal consecuencia del acoso escolar), el

cluster 1 opina que puede llegar hasta el

suicidio (52%) y el cluster 2 considera que

causa miedo principalmente (60%). Fig. 9.

Figura 9 Histograma de la pregunta 2

En la pregunta 3 (¿Qué tendría que

suceder para arreglar el problema del acoso

escolar?), el cluster 1 opina que deben hacer

algo los profesores y las familias (67%), incluso

los compañeros (18%), en cambio el cluster 2

opina que el problema se puede parar aplicando

sanciones legales (39%) y está más a favor de la

intervención de los compañeros (30% en

comparación con el 18% del cluster 1). Fig. 10.

Figura 10 Histograma de la pregunta 3

En cuanto a los resultados de analizar las

respuestas de la pregunta 4.

(¿Por qué crees que algunos/as intimiden

a otros/as?), casi el 100% del cluster 1, opina,

que unos intimidan a otros porque tienen

problemas en su casa (98%), en cambio el

cluster 2 opina que lo hacen principalmente por

molestar o gastar una broma (71%) Fig. 11.

Figura 11 Histograma de la pregunta 4

Analizando las respuestas de la pregunta

5 (¿Dónde crees que se origina el acoso

escolar?), el cluster 1 opina que es en la casa

(71%) y en ocasiones con los amigos (25%), en

cambio los del cluster 2 opinan lo contrario,

que es principalmente con los amigos (65%) y

solo algunos que es en el hogar (25%). Fig. 12.

Figura 12 Histograma de la pregunta 5

En cuanto a los resultados de las

preguntas 1 (¿El acoso escolar es?) y 7

(Conoces de algún caso de acoso escolar en esta

institución), en ambos clusters los resultados

son muy parecidos, como puede observarse en

la Fig 13.

Page 10: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

333

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Por lo menos el 80% de de ambos

clusters opina que el acoso escolar es un abuso

y causa dolor. Y el 25% de todos los

encuestados en ambos clusters considera que ha

sufrido en algún momento acoso escolar en la

institución, lo cual representa 32 alumnos de los

encuestados.

Figura 13 Histograma de la pregunta 6

b. Resultados obtenidos con el método de K-

medias.

Se cargaron los datos de la matriz binaria, y se

le indicó al programa R-Comander que

mediante el método K-medias se debían generar

2 cluster’s, igual como los generó de manera

automática en el método de Clusterización

Jerárquica. En este método los clusters se

formaron de la siguiente manera: El cluster 1 se

creó con 44 alumnos y el cluster 2 con 87, un

resultado muy similar al obtenido con el

método CJ. Por cuestiones de la herramienta y

como la asignación de cada individuo al cluster

es al azar, el programa invirtió el número de

cluster, es decir, el cluster 1 del método de

clasificación jerárquica está representado por el

número 2 en este método, y viceversa, el cluster

2 del método CJ está representado por el

número 1 en el método de K-medias.

En este método el sistema generó el siguiente

biplot Fig. 14, donde indica, las tendencias de

las respuestas en cada pregunta para cada

cluster.

Figura 14 Biplot de K-medias

Las distancias de las flechas en el biplot,

indican la representación de las respuestas de

cada pregunta. Entre más cerca esté la flecha de

la periferia del cuadrado, significa que fue una

respuesta muy seleccionada en la encuesta, y en

el entorno de ésta, se encuentra el número de

cluster al cual pertenece dicha selección. Entre

menor sea la distancia de las fechas o estas

estén más cercanas al centro, significa que

dichas respuestas no fueron de las más

seleccionadas por los alumnos.

Pregunta Cluster1 con K-

medias

Cluster2 con CJ

2. Principal

consecuencia del

acoso escolar

P2a) Sentir miedo. P2a) Sentir miedo.

P2a) Bajas

calificaciones.

3. ¿Qué se debe

hacer para

arreglar este

problema?

P3c) Deben hacer

algo los

compañeros.

P3c) Deben hacer algo

los compañeros.

P3d) Con sanciones

legales.

4. ¿Por qué

Unos/as

intimiden a

otros/as?

P4a) Por gastar una

broma o molestar

P4a) Por gastar una

broma o molestar

5. ¿Dónde se

origina

principalmente

el acoso

P5b) y P5c) Con los

amigos y por la

personalidad de

cada quien.

P5b) Con los amigos y

por la personalidad de

cada quien.

Tabla 2 Comparación de características del cluster 1

Page 11: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

334

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Como puede observarse, el cluster 1

eligió las respuestas p2a, p3c, p4a, p5b y p5c,

detalladas en la Tabla 2. En cambio en el

cluster 2 se puede ver, que las respuestas más

seleccionadas son: p2d, p3c, p4d y p5a,

respuestas similares al cluster 1 del método CJ.

En la Tabla 3 se detalla cada respuesta,

especificando el método de clusterización

aplicado.

Pregunta Cluster2 con K-

medias

Cluster2 con CJ

2. Principal

consecuencia del

acoso escolar

P2d) puede

provocar que

alguien llegue a

suicidarse.

P2d) Puede provocar

el suicidio.

P2c) Bajas calific.

3. Que se debe

hacer para arreglar

este problema

P3c) deben hacer

algo los profesores

y las familias.

P3c) deben hacer algo

los profesores y las

familias.

4. Porqué Unos/as

intimiden a

otros/as?

P4d) Porque tienen

problemas en su

familia.

P4d) Porque tienen

problemas en su

familia.

5. ¿Dónde se

origina

principalmente el

acoso.

P5a) Se origina

principalmente en

la casa.

P5a) Se origina

principalmente en la

casa.

Tabla 3 Comparación de características del cluster 2

Los resultados de las respuestas en las

preguntas 1 y 7 no son visibles en el biplot, lo

que indica que están muy cerca del centro, es

decir, que son muy similares en sus respuestas

y no destacan diferencias considerables entre

ellas. En cuanto a las inercias obtenidas, la

inercia total indicó un valor de 2.856. El valor

de la inercia inter clases B(P) fue de 0.473 y la

inercia intra clases W(P) de 2.383, sumando

ambas inercias se tiene un total de 2.856, que es

el valor de la inercia total. Comprobando con

ello el teorema de la dualidad de Fisher, que

indica que la sumas de las inercias inter clases e

intra clases es igual a la inercia total de la nube

de puntos.

Trabajos relacionados

Se tienen varios trabajos relacionados a la

aplicación de métodos de clusterización

utilizados para analizar grupos de individuos

con características similares. Entre los trabajos

analizados, se encuentran el uso de métodos

exploratorios de minería de datos para

identificar alumnos con riesgos de deserción o

fracaso escolar (La Red 14, Márquez 12). El

uso de clusterización para encontrar patrones de

conducta delictivos, o patrones de consumo de

drogas (Valenga 07), (La Red 14), (Yakushev

14). Trabajos de clusterización para la

Segmentación de clientes (Jo-Ting 13), para el

apoyo en la toma de decisiones de procesos de

negocios (Pérez 12, Pinzón 11, Sadat 15) y

patrones para análisis de percepción de la

corrupción (Paulus 15), o para analizar la

calidad de los productores de información

(Cena 15).

Conclusiones y trabajo a futuro

Como puede observarse, los resultados

obtenidos en cada pregunta, por ambos métodos

de clusterización son muy similares, lo que ha

permitido obtener patrones de percepción sobre

acoso escolar que definen específicamente a

cada cluster. Este tipo de información puede ser

de suma importancia para el área de Tutoría o

área de asesoría sicopedagógica dentro de la

institución. Con el objetivo de establecer

programas de pláticas y conferencias enfocadas

a cada grupo de alumnos con características

similares. Para el cluster 2, se pueden organizar

programas de concientización sobre las

consecuencias del acoso escolar y técnicas de

integración grupal, para aquellos alumnos que

consideran que el acoso escolar se genera solo

por hacer una broma o por molestar, y que

opina que este tipo de conductas, se genera

principalmente en la calle con los amigos.

Page 12: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

335

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

Para los alumnos que integran el cluster

1, que piensa que el acoso se genera

principalmente en la casa y este se da por

problemas familiares principalmente, se puede

enfocar hacia ellos pláticas familiares, o de

orientación de ayuda especial cuando el caso así

lo requiera. Todo esto considerando que,

analizando los últimos porcentajes de deserción

escolar, en la institución, no se dan por bajos

rendimientos académicos, sino por problemas

personales que afectan a tal grado al alumno,

que deciden abandonar la escuela, debido a las

consecuencias que estos problemas implican

para ellos.

En relación al trabajo a futuro, la

aplicación de los métodos de aprendizaje

supervisado de minería de datos, tiene un

infinito campo de aplicación, ya que la

importancia de analizar datos e información

para identificar grupos con características afines

o simplemente para describir las características

de los mismos, es de suma importancia.

Específicamente para el tema del acoso escolar,

se planea analizar el tema, pero ahora desde el

uso de las redes sociales, donde mediante

métodos de aprendizaje supervisado, se

analizarán los comentarios realizados por los

alumnos, en sus publicaciones hacia otros

compañeros.

Referencias

(Arriaza 08) Arriaza Gómez A. J., Fernández

Palacín, F. López Sánchez M. A., Et al.,

Estadística Básica con R y R-Commander,

(2008) Publicaciones de la Universidad de

Cadiz. Recuperado: 10/06/2015, URL:

http://knuth.uca.es/moodle/mod/url/view.php?i

d=1126

(Artime 13) Artime Carleos C., Corral Blanco

N., Paquetes estadísticos con licencia libre,

(2013), Revista electrónica de metodología

aplicada, Vol. 18 No 2, pp. 12-33. Recuperado

9/06/2015. http:// www. Unioviedo .es

/reunido/index.php/Rema. Departamento de

Estadística e I. O. y D.M. Universidad de

Oviedo.

(Bullyinformate.org 15) Fundación en

Movimiento (Respetar para mejor convivir),

A.C. http://bullyinformate.org/tests/test-

escuela-segura.

(Cena 15) Cena A., Gagolewski M., Mesiar R.,

Problems and challenges of information

resources producers’ clustering. (2015).

Journal of Informetrics, recuperado:

16/04/2015. www.elsevier.com/locate/joi, 273–

284 ELSEVIER.

(Chambers 09) Chambers J. M., Software for

Data Analysis: Programming with R (Statistics

and computing), (2009). Stanford, ca. USD:

Springer-Verlag.

(Graham 11) Graham W., Data Mining with

Rattle and R: The Art of Excavating Data for

Knowledge Discovery (Use R!), (2011). New

York USD: Springer-Verlag.

(Hand 01) Hand D., Mannila H. & Smyth P.,

Principles of Data Mining, (2001). A Bradford

Book The MIT Press Cambridge,

Massachusetts London England. Massachusetts

Institute of Technology.

(Husson 10) Husson F., Le S., Pages J.,

Exploratory Multivariate Analysis by Example

Using R, (2010). Chapman & Hall/CRC

Computer Science & Data Analysis, Taylor &

Francis Group, an inform business, Boca Ration

London New York, CRC Press.

Page 13: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

336

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

(Jiawei 06) Jiawei H., Kamber M., Data Mining

Concepts and Techniques, (2006). Second

Edition. Morgan Kauffman Publishers.

(Jo-Ting 13) Jo-Ting W., Ming-Chun L.,

Hsuan-Kai Ch., Hsin-Hung W., Customer

relationship management in the hairdressing

industry: An application of data mining

techniques. (2013). Expert Systems with

Applications, Elsevier. Recuperado: 22/02/2015

www.elsevier.com/locate/eswa

(La Red 14) La Red, D. L. & Podestá, C. E.,

Metodología de Estudio del Rendimiento

Académico Mediante la Minería de Datos,

(2014). Campus virtuales, 3(1), Revista

Científica de Tecnología Educativa, Argentina.

(Le 08) Le S., Josse J., Husson F.,

“FactoMineR: An R Package for Multivariate

Analysis”, (2008). Volume 25, Issue 1, Journal

of Statistical Software, American Satistical

Association.

(Márquez 12) Márquez Vera C., Romero

Morales C., Ventura Soto Sebastián. Predicción

del Fracaso Escolar mediante Técnicas de

Minería de Dato. (2012.). IEEE-RITA Vol. 7,

Núm. 3, Nov.

(Merino 08) Merino González J., Revista de

estudios de la violencia. Núm. 4, (Ene-Mar

2008). Instituto Catalán de Estudios de la

Violencia (ICEV).

(Mirkin 05) Mirkin B., Clustering for Data

Mining: A Data Recovery Approach, (2005)

Chapman & Hall/CRC Computer Science &

Data Analysis, Taylor & Francis Group, a

Chapman & Hall Book, Boca Ration London

New York: CRC Press.

(Montaño 14) Montaño J., Gervilla E., Et al.

Técnicas de clasificación de data mining: una

aplicación al consumo de tabaco en

adolescentes. (2014). Anales de Psicología, vol.

30, núm. 2 633-641, May-Ago. Murcia, España.

(OCSE 15) Observatorio Ciudadano de la

Seguridad Escolar.

http://www.iea.gob.mx/ocse/default.aspx.

(OCSE).

(Paulus 15) Paulus M., Kristoufek L.,

Worldwide clustering of the corruption

perception, (2015). Physica A,

www.elsevier.com/locate/physa 351–358,

Procedia Computer Science Volume 29, ICCS

14th International Conference on

Computational Science.

(Pang-Ning 06) Pang-Ning T., Steinbach M.,

Kumar V., Introduction to Data mining, (2006).

Pearson Addison Wesley.

(Perez 08) Pérez López C., Santín González D.,

Minería de datos Técnicas y Herramientas,

(2008). International Thomson Ediciones.

(Pérez 12) Pérez S., Puldón J. J., Espín Andrade

A., Modelo clustering para el análisis en la

ejecución de procesos de negocio, (2012).

Revista investigación operacional, Vol 33, No.

3. Instituto Superior Politécnico José Antonio

Echeverría.

(Pinzón 11) Pinzón L. L., Aplicándo minería de

datos al márquetin educativo, (2011). Notas D

Marketing, Escuela de márquetin y publicidad

USA.

(Shu 2012) Shu-Hsien L., Pei-Hui Ch., Pei-

Yuan H. Data mining techniques and

applications – A decade review from 2000 to

2011,(2012). Expert Systems with

Applications. Recuperado: 22/04/2015. URL:

www.elsevier.com/locate/eswa

Page 14: Clusterización en minería de datos: CJ y K-Medias ... · Un grupo de alumnos consideran que el acoso escolar se genera principalmente porque tienen problemas en la familia, y el

337

Artículo Revista de Análisis Cuantitativo y Estadístico

Septiembre 2015 Vol.2 No.4 324-337

ISSN 2410-3438

ECORFAN®All rights reserved.

MEDINA, Gricelda, LUNA, Francisco, TAVAREZ, Felipe y MARTÍNEZ, Rocío.

Clusterización en minería de datos: CJ y K-Medias aplicados a una encuesta de

opinión sobre acoso escolar en la UTNA. Revista de Análisis Cuantitativo y

Estadístico 2015.

(Torsten 09) Torsten H., Brian S. E., A

Handbook of Statistical Analyses Using R,

Second Edition, (2009). Taylor & Francis

Group, a Chapman & Hall Book, Boca Ration

London New York: CRC Press.

(Fayyad 96) Fayyad U., Piatetsky-Shapiro G.,

and Smyth P. From Data Mining to Knowledge

Discovery in Databases, (1996). AI Magazine

Volume 17 Number 3.

(Valenga 07) F. Valenga, E. Fernández, Et al.

Aplicación de minería de datos para la

exploración y detección de patrones delictivos

en Argentina. (2007) Instituto Tecnológico de

Buenos Aires, Argentina.

(Yakushev 14) Yakushev A., & Mityagin S.,

Social networks mining for analysis and

modeling drugs usage, (2014). Procedia

Computer Science Volume 29, ICCS 14th

International Conference on Computational

Science. Elsevier.