valoraciÓn del impacto de la producciÓn cientÍfica … · bibliográficos y el resto de las...

27
V SEMINARIO INTERNACIONAL SOBRE ESTUDIOS CUANTITATIVOS Y CUALITATIVOS DE LA CIENCIA Y LA TECNOLOGÍA ¨Prof. Gilberto Sotolongo Aguilar¨ VALORACIÓN DEL IMPACTO DE LA PRODUCCIÓN CIENTÍFICA DEL ICIMAF DENTRO DEL PROGRAMA NACIONAL DE CIENCIAS BÁSICAS Autores: Lic. Ariagna Martínez Cuesta Dr. Armando Plasencia Salgueiro Instituto de Cibernética, Matemática y Física (ICIMAF) Email: ariagna @ icmf.inf.cu [email protected]

Upload: others

Post on 29-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

V SEMINARIO INTERNACIONAL SOBRE ESTUDIOS CUANTITATIVOS Y CUALITATIVOS DE LA CIENCIA Y LA

TECNOLOGÍA ¨Prof. Gilberto Sotolongo Aguilar¨

VALORACIÓN DEL IMPACTO DE LA PRODUCCIÓN CIENTÍFICA

DEL ICIMAF DENTRO DEL PROGRAMA NACIONAL DE CIENCIAS

BÁSICAS

Autores: Lic. Ariagna Martínez Cuesta Dr. Armando Plasencia Salgueiro

Instituto de Cibernética, Matemática y Física (ICIMAF)

Email: ariagna @ icmf.inf.cu [email protected]

ANTECEDENTES

Se requiere gestionar el conocimiento generado por el ICIMAF, dentro del Programa Nacional de Ciencias Básicas.

Se desea conocer el impacto de la producción científica de este centro dentro de este mismo programa.

Carencia de una metodología y de herramientas adecuadas para la valoración de la producción científica del ICIMAF.

Carencia de una base de datos nacional que incluya las disciplinas contempladas en el Programa Nacional de Ciencias Básicas.

NECESIDAD DEL ESTUDIO

FACTOR DE IMPACTO

ORGANIZACIONES CIENTÍFICAS DEL CITMA

ORGANIZACIONES CIENTÍFICAS EMPRESARIALES,

UNIVERSITARIAS, ETC.

Publicaciones científicas

VALORACIÓN DE LA PRODUCCIÓN CIENTÍFICA

ESTADO ACTUAL

Proponer una

Metodología

fundamentada en:

Bibliometría

Cibermetría

Bibliominería

Cienciometría

SOLUCIÓN PROPUESTA AL PROBLEMA DE INVESTIGACIÓN

PASOS DE LA METODOLOGÍA A SEGUIR.

SELECCIÓNHERRAMIENTAS

IDENTIFICACIÓNALGORITMOS

APLICACIÓN CONTROL

CLUSTERING

REPRESENTACIÓNCLUSTERS

DOCUMENTOS

AGRUPAMIENTODOCUMENTOS

IDENTIFICACIÓNINDICADORES

BIBLIOMÉTRICOS

METODOLOGÍA

1

2

4

35

6

DE IMPACTO

DE ACTIVIDAD DE COLABORACIÓN

Factor de utilización Análisis de citas

FU = ∑ dc / R FI = A / B

INDICADORES BIBLIOMÉTRICOS

Centralidad de Grado

Agrupar documentos similares o relacionados en una clase , o cluster.

El agrupamiento mejora la efectividad de la recuperación basada en la hipótesis de cluster.

AGRUPAMIENTO DE DOCUMENTOS

JERARQUÍA DE LOS CLÚSTERES DE DOCUMENTOS.

x

x x

x

xx

x

x

xx

x

xx

xx

xx x

xxx

xx

x Hipercentroide

Centroide de ClusterSupercentroide

Super cluster

cluster

Promedio de m

Un Cluster Representativo – El Centroide.

El centroide de un cluster puede ser representado por cualquier documento localizado en el cluster. Es preferible construir un vector centroide especial que este localizado centralmente en el cluster.

La definición típica es:

Ck es el peso del término k-avo en el centroide Tik es el peso del término k-avo en el i-avo documento en el cluster. m es el número de documentos en el cluster.

k iki

m

C Tm

==∑1

1

[ T1,1 T1,2 … … T1,V ][ T2,1 T2,2 … … T2,V ]… … …[ Tm,1 Tm,2 … … Tm,V ]

Control del Proceso de ClusteringSimilitud por umbral para la formulación de clusters.

D1 D4

D3 D5 D2 D6

Umbral > 0.5

D1 D4

D3 D5 D2 D6

Umbral > 0.7

D1 D4

D3 D5 D2 D6

Umbral >= 0.5

D1 D2 D3 D4 D5 D6D1 - 0.3 0.5 0.6 0.8 0.9D2 0.3 - 0.4 0.5 0.7 0.8D3 0.5 0.4 - 0.3 0.5 0.2D4 0.6 0.5 0.3 - 0.4 0.1D5 0.8 0.7 0.5 0.4 - 0.3D6 0.9 0.8 0.2 0.1 0.3 -

Algoritmos utilizados en la aplicación de la Bibliominería

Algoritmo de Clasificación (PageRank)

Algoritmo de Agrupamiento (K-Medias)

La idea de Page Rank es asignar a cada página web una categoría basada en su estructura de hipervínculo y categorizar las páginas retornadas al realizar la solicitud de la búsqueda por las palabras claves.

Estas categorías a los efectos de la presente de investigación serán el factor de umbral D.

ALGORITMO DE CLASIFICACIÓN PageRank

Google (http://google.com)

Hace uso de estructuras adicionales presentes en el hipertexto para proporcionar mejores cualidades en los resultados de las búsquedas. Page Rank

Este tiene información local de todos los impactos y así el hace uso extensivo de la proximidad en la búsqueda.

La categoría de las páginas de Google (Google’s PageRank)

El impacto de un artículo es enjuiciado por la cantidad de artículos en los que aparece como cita.

Las citas se corresponden al juicio subjetivo de importancia de la gente.

En la web, el número de las conexiones de entrada de una página se relaciona con la importancia/cualidad de la página, lo cual determina el rango de la página PageRank

POSICIÓN DE LAS PUBLICACIONES EN FÍSICA TEÓRICA

Posición 1

Posición 2

Posición de las publicaciones del Departamento de Física Teórica durante el año 2009 de acuerdo con la categorización de Google

APLICACIÓN DEL ALGORITMO DE CATEGORIZACIÓN PageRank

Total: 10 publicaciones (publ)

8 publ2 publ

La idea es representar el agrupamiento de publicaciones de los investigadores (objetos) por el centroide de documentos que pertenecen al grupo o cluster. El centroide “c” del grupo “S” está definido por:

c = (1/|S|)ΣdS.d).

ALGORITMO DE AGRUPAMIENTO K-MEDIAS

Selección de la cantidad de k.

Uno de los problemas potenciales para la aplicación del algoritmo de k-mean es: ¿Quién decide que cantidad de clusters deberán buscarse? o sea ¿quien decide k?

A menos que el analista tenga un conocimiento a priori del número de los clusters subyacentes deberá de añadírsele un lazo externo al algoritmo que se ejecute con varios valores prometedores de k.

Las soluciones de agrupamiento para cada valor de k puede entonces compararse, con el valor de las k resultantes en la menos SSE que haya sido seleccionada.

Nro. de K

Nro. de K

Así regresaremos a la referencia de la distancia Euclideana entre registros:

Agrupamiento…

Agrupamiento…

JabRef

WEKA

HERRAMIENTAS SELECCIONADAS

(Programa para el trabajo con las Bases de datos en formato BibTex)

(Herramienta de Software Libre para el aprendizaje automático de la Minería de Datos)

HERRAMIENTA JabRef

08/19/10 University of Waikato 25

WEKA

1. La evaluación, análisis y toma de decisiones sobre la producción científica, es una tarea sumamente compleja que debe ser acometida con un enfoque sistémico, multidisciplinario y con el empleo de las técnicas de aprendizaje automático.

2. Los indicadores bibliométricos iniciales a tener en cuenta son empleados en la metodología propuesta.

3. La herramienta JabRef se utiliza como interfase entre los datos bibliográficos y el resto de las herramientas.

4. Se utilizaron los resultados del algoritmo de categorización de Google para obtener los pesos relativos al impacto de las publicaciones del ICIMAF.

5. Se utilizó el algoritmo de minería de datos k-means para determinar los centroides de documentos.

6. Con la utilización de las técnicas expuestas es posible elaborar una metodología que permita valorar la calidad de la producción científica del PNCB.

CONCLUSIONES

GRACIAS……..