la evaluación del trabajo científico: algunas reflexiones. · [evidence report 2007, p. 3]...

Post on 17-Jul-2020






Click to see full reader


José Antonio de la Peña

Centro de Investigación en Matemáticas

Instituto de Matemáticas, UNAM

Enero 2014

Todo debe hacerse tan simple como sea posible, pero no más fácil. Albert Einstein.

La evaluación del trabajo científico:

algunas reflexiones.

Ante la necesidad (de las instituciones, el gobierno o la

sociedad) de evaluar el trabajo científico, tanto el

individual, como el de instituciones y aún el

desempeño de las naciones, se han considerado

gran número de criterios que pretenden entre otras


tener validez universal (tanto geográfica, como


ser objetivos;

ser sencillos de medir;

determinar, en lo posible, la calidad del trabajo.


La práctica de la evaluación

Las prácticas de evaluación del trabajo científico,

generalizadas en nuestros días, tienen una historia

reciente que responde no sólo a necesidades propias

del mundo académico, sino a cambios conceptuales

de carácter político, económico y social.

Dos desarrollos en las prácticas de evaluación del

trabajo académico, tanto en el orden individual como

en el institucional y aún en el orden nacional, son de

particular importancia en este contexto: la evaluación

por pares y la creciente exigencia social por la

rendición de cuentas.

Algo de historia.

El sistema de evaluación por pares fue desarrollado

por fundaciones filantrópicas en los Estados Unidos

antes de la Segunda Guerra Mundial y adoptado

ampliamente para la evaluación de artículos para

revistas y de proyectos sujetos a consideración de

agencias científicas.

Está basado en la idea que los científicos son los más

calificados para evaluar los proyectos de otros

científicos. Antes de los años 50’s del siglo XX, su

aplicación era opcional.

Los artículos revolucionarios de Albert Einstein en el

número de 1905 de Annalen der Physik no fueron

arbitrados. El de Watson y Crick en 1951 tampoco.

Importancia de los índices de citación.

Para evaluar personas, revistas, facultades, países se ha vuelto importante el conocimiento de indicadores de citación:

Número de citas;

Factor de impacto;

Número h

y otros indicadores.

Todos son herramientas útiles para entender mejor el desempeño académico de la entidad estudiada.

Producción científica latinoamericana

Country Docs.Citable Docs.

Cites Self-CitesCites per Doc.

1 Brazil 11.776 11.695 43.909 17.761 4,61

2 Mexico 5.447 5.414 17.479 5.986 4,04

3 Argentina 3.223 3.206 15.245 4.568 5,31

4 Chile 2.352 2.332 8.688 2.495 5,38

5 Venezuela 971 967 2.921 695 3,36

6 Colombia 603 599 2.059 366 4,84

7 Cuba 333 333 672 242 3,04

8 Uruguay 319 318 1.360 235 4,84

9 Puerto Rico 293 293 1.108 198 4,06

10 Peru 58 58 248 137 5,39

11 Costa Rica 58 57 236 53 4,70

Fuente: SCImago

Indicadores 1996-2007

¿Qué tan lejos ir en el uso de los índices?

It is the Government’s intention that the current

method for determining the quality of university

research—the UK Research Assessment Exercise

(RAE)—should be replaced after the next cycle is

completed in 2008. Metrics, rather than peer‐review,

will be the focus of the new system and it is

expected that bibliometrics (using counts of journal

articles and their citations) will be a central quality

index in this system. [Evidence Report 2007, p. 3]

Estudio sobre los índices de citación.

Joint IMU/ICIAM/IMS‐Committee on Quantitative Assessment of Research

Robert Adler, Technion–Israel Institute of Technology

John Ewing (Chair), American Mathematical Society

Peter Taylor, University of Melbourne

Del encargo:

The drive towards more transparency and accountability in the academic world has created a "culture of numbers" in which institutions and individuals believe that fair decisions can be reached by algorithmic evaluation of some statistical data; unable to measure quality (the ultimate goal), decision‐makers replace quality by numbers that they can measure. This trend calls for comment from those who professionally “deal with numbers”— mathematicians and statisticians.

¿Contar el número de artículos?

Probablemente el más simple de los índices de este tipo es

el número de artículos científicos. Sin entrar en una

discusión de las múltiples debilidades de este indicador,

señalaremos algunos puntos casi evidentes:

este índice ignora la corrección, la importancia, la

originalidad o la calidad de los artículos publicados;

muchos científicos notables han publicado un número

reducido de artículos; por ejemplo, uno de los más

grandes matemáticos del siglo XX, Kurt Gödel sólo

publicó 3 artículos formales a lo largo de su vida;

según algunos autores, la evaluación por medio de este

indicador promueve la publicación de resultados

insignificantes, repetitivos o inacabados.




/p. EUA




(promedio de

5 años)

citas en



de 5 años



/ año



investigador/ año

duración del

doctora-do (años)

Ingeniería Electrica p10 2.6 55 0.8 8.7 6.9

Ingeniería Eléctrica pEUA 1 14 0.4 3.6 7.8

Matemáticas p10 1.1 17.3 0.3 2.2 6.8

Matemáticas pEUA 0.7 6.7 0.15 1.5 8.1

Materiales p10 4.7 111 0.5 3.3 7

Materiales pEUA 2.4 48 0.4 2.5 7.6

Oceanografía y

Biología Marina p8 1.4 45 0.22 2.2 8.7

Oceanografía y

Biología Marina pEUA 1.1 24 0.18 1.8 9.3

Química p10 3.9 147 1 6.3 6.2

Química pEUA 2.1 56 0.5 4.2 7

Sociología p10 0.7 12.6 0.3 3.6 9.7

Sociologia pEUA 0.4 5.5 0.2 2.5 11.4


Research-Doctorate Programs in the United States: Continuity

and Change

National Research Council y National Academy of Sciences

publicado en 1995

Número de citas ¿un buen indicador?

A cita a B: A B

Juan 1

¿quién es mejor? Juan 2 B o Einstein B

Juan 3

Juan 4

c 1

b 1 c 2 b 1

o simplemente: b 2 a o bien c 3 a

° ° ° c 4 b 2

b 6 c 5

Número de citas ¿un buen indicador?

El factor de impacto vs la importancia de un

artículo. The impact factor is often misused to predict the

importance of an individual publication based on

where it was published. This does not work well since

a small number of publications are cited much more

than the majority - for example, about 90% of Nature's

2004 impact factor was based on only a quarter of its

publications, and thus the importance of any one

publication will be different and on the average less

than the overall number. The impact factor, however,

averages over all articles and thus underestimates the

citations of the top cited while exaggerating the

number of citations of the average publication.

Definición del índice de impacto de una revista. El número de citas promedio (en cualquier revista) de los

artículos publicados en los dos años previos en la revista dada.

¿Qué mide el factor de impacto?

PAMS tiene índice de impacto (en 2004) de 0.434 y

TAMS tiene 0.836. ¿Cuál es la probabilidad de que

mi artículo en TAMS reúna más citas que mi artículo

en PAMS, ambos escritos en 2004?

Sólo 38 % de probabilidades! ¿Porqué?

¿Qué mide el número h?

Por definición h es el número máximo i de artículos que tienen al

menos i citas.

En el artículo dónde definió el número h,

Hirsch dice que el índice “da una

estimación del impacto acumulado de

las contribuciones del científico”.

No se da ningún argumento sobre el

significado del índice, pero es fácil

construir ejemplos que muestran un

comportamiento errático del índice.


Artículos 2 100

Citas 2 c/u 1 c/u

h 2 1

Dos papers en Nature (2006 y 2008)

Compared with the h-index, the mean

number of citations per paper is a superior

indicator of scientific quality, in terms of

both accuracy and precision. The average

assignment of each n-bin is in error by 1.8

percentile points with an associated rms

uncertainty of 9. Similar calculations based

on authors' median citation give an

accuracy of 1.5 and an uncertainty of only

7 percentile points, suggesting that the

median copes better with long-tailed


La distribución de citas por número

de papers es igual para cada disciplina

si se normaliza por el número medio de

artículos x investigador. Lo mismo pasa

para el número h.

Sune Lehmann1, Andrew D. Jackson2 & Benny E. Lautrup2

Measures for measures Nature 444 (2006)

Here we use data from the theory section of the SPIRES

database in high-energy physics, which has the requisite

homogeneity. Within this database, the probability

that a paper will receive k citations falls slowly with increasing k

and is described by a power-law distribution, a/kb with b = 2.8,

for large k.

This long-tailed distribution has a number of consequences.

About 50% of all papers have two or fewer citations; the average

number of citations is 12.6. The top 4.3% of papers produces

50% of all citations whereas the bottom 50% of papers yields

just 2.1% of all citations. Measuring an author's mean or median

citation count per paper probe different aspects of their full

citation record: which is better?

Nature 444 (2006)

We analyse three measures of author quality: mean number of citations per

paper, number of papers published per year, and the Hirsch index. A scientist

is said to have Hirsch index h if h of their total, N, papers have at least h

citations each, and the remaining (N-h) papers have fewer than h citations1.

For this study, we adopt Hirsch's assumption that h divided by N "should

provide a useful yardstick". To calibrate our results, we also consider an

obviously meaningless measure; we rank authors alphabetically by name

Impact factors are widely used to introduce a citation measure into calculations

of publication frequency. But the citation rate for individual papers is largely

uncorrelated to the impact factor of the journal in which it was published. The

widespread use of publication frequency — with or without an impact factor — is

disturbing and requires further study

An alphabetical ranking of authors contains no information regarding scientific

quality, and so every author is assigned to every decile with equal probability. The

resulting root-mean-square (rms) uncertainty in author assignment thus

has the maximum value of 29 percentile points. One of the most widely used

measures of scientific quality is the average number of papers published by an

author per year This measure has a similar rms variation to alphabetization.

Nature 444 (2006)

A perfect measure of author quality would place all weight in the diagonal

entries of a plot of m versus n. The better the measure, the more weight

will be found in the diagonal boxes. Figure 1 reveals that both accuracy

and certainty are sensitive to the choice of indicator

Número de citas por area ¿qué es?


A cita a B = B es citado por A

Una propuesta.


Gráfica de citas entre articulos





ki cEE A




nodeat ending) (and

starting length of CWs ofnumber A




i ek


0 !!












Then the measure

accounts for the difference between the perturbations absorbed by a pair

of nodes in a network and that transmitted between them.

In matrix form

The communicability matrix.

Joint work with Ernesto Estrada

The self-communicability function, also known as the subgraph centrality

of a node, is given by


where for P= eA and 1 is a vector of ones.

2T T C s1 1s P

diags P



( ) j


pp j


G p e

2pq pp qq pqG G G

Illustration of the differences between the shortest path and q-

communicability distances for the airport transportation network in USA.

The shortest path connecting Youngstow to Elko is marked in blue,

while that using the communicability distance is marked in red. The

major hub in these routes is the airport of Dallas/Fort Worth, which is

depicted with a larger radius in the figure.



Evolution of the social network of scientific collaborations

A.L. Barabasi1,2, H. Jeong1, Z. Neda 1,2,∗, E. Ravasz1, A. Schubert3, T.

Vicsek 2,4

1Department of Physics, University of Notre Dame, Notre Dame, IN 46556, USA

2 Collegium Budapest, Institute of Advanced Study, Budapest, Hungary

3 Bibliometric Service, Library of the Hungarian Academy of Sciences, Budapest, Hungary

4Department of Biological Physics, E¨otv¨os Lor´and University, Budapest, Hungary

On the impact of scientific publications.

J. Informetrics vol 5 No.1 (2011). José A, de la Peña

Communicability distance in graphs

E. Estrada and J.A. de la Peña

¿Hay alternativas? ¿Porqué no se cambia?

Evaluar solo algunos


Evaluarlos menos


Usar otros indicadores

(más sofisticados)

Resistencia de las


Resistencia de la


Es más caro medir.

Conclusión (como el estudio de IMU)

We do not argue with the effort to evaluate research but

rather with the demand that such evaluations rely

predominantly on "simple and objective" citation‐based

metrics …Citation‐based statistics can play a role in the

assessment of research, provided they are used properly,

interpreted with caution, and make up only part of the


The lure of a simple process and simple numbers

(preferably a single number) seems to overcome common

sense and good judgment. …The sole reliance on citation

data provides at best an incomplete and often shallow

understanding of research—an understanding that is valid

only when reinforced by other judgments. Numbers are not

inherently superior to sound judgments.


José Antonio de la Peña

Todo debe hacerse tan simple como sea posible, pero no más fácil. Albert Einstein.

top related