de descriptors tesaurus, llista lliures i indexació...

44
Tesaurus, llista de descriptors lliures i indexació automàtica Manela Juncà Campdepadrós PID_00193277

Upload: lekhue

Post on 10-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Tesaurus llistade descriptorslliures i indexacioacuteautomagravetica Manela Juncagrave Campdepadroacutes PID_00193277

CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Els textos i imatges publicats en aquesta obra estan subjectes ndashllevat que sindiqui el contrarindash a una llicegravencia de Reconeixement-NoComercial-SenseObraDerivada (BY-NC-ND) v30 Espanya de Creative Commons Podeu copiar-los distribuir-los i transmetrelspuacuteblicament sempre que en citeu lautor i la font (FUOC Fundacioacute per a la Universitat Oberta de Catalunya) no en feu un uacutescomercial i no en feu obra derivada La llicegravencia completa es pot consultar a httpcreativecommonsorglicensesby-nc-nd30eslegalcodeca

CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Iacutendex

Introduccioacute 5

Objectius 6

1 Indexacioacute i recuperacioacute amb tesaurus 7

11 Tesaurus al Web 7

12 Com srsquoindexa amb un tesaurus 8

13 Creacioacute drsquoun tesaurus 12

14 Recuperacioacute amb tesaurus 13

141 Proceacutes de cerca amb un tesaurus 13

15 Activitats 16

151 Indexacioacute del contingut drsquoarticles 16

152 Construccioacute manual i automagravetica de tesaurus 16

153 Recuperacioacute amb tesaurus 19

16 Solucioacute 19

161 Indexacioacute drsquoarticles 19

162 Construccioacute manual i automagravetica de tesaurus 19

2 Indexacioacute amb llistes de descriptors lliures etiquetes i

indexacioacute social 24

21 Descriptors lliures al Web 24

22 Etiquetes i indexacioacute social 25

221 Etiquetes 25

222 Indexacioacute social 27

223 Folksonomia 29

23 La recuperacioacute amb descriptors lliures 32

24 Activitats drsquoindexacioacute amb descriptors lliures 33

3 Indexacioacute automagravetica 34

31 Com srsquoindexa automagraveticament 34

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament 39

321 Cercadors 39

322 Recuperacioacute en un web estructurat 40

323 Web semagraventic indexacioacute i recuperacioacute 41

Bibliografia 43

CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Introduccioacute

Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes

de paraules clau o indexacioacute automagravetica

Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de

tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-

quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica

i es pot recuperar per paraules clau en els seus iacutendexs permutats

En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com

srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-

sisteix a crear un tesaurus en tres presentacions diferents

Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute

al Web on ha representat una revolucioacute el fet de convertir cada internauta en

autor editor i documentalista alhora

Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de

la indexacioacute social o tagging i dels factors que els han fet adients per al Web

de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i

del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta

pel poble

La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-

porciona una gran comunitat de persones indexant davant els desavantatges

de la manca de control del vocabulari

Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com

funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat

decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-

nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-

nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-

cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics

La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del

Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que

srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-

perar en un web estructurat

CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Objectius

Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els

seguumlents

1 Indexar amb tesaurus de manera especiacutefica

2 Construir un tesaurus a mida

3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies

semagraventiques del llenguatge

4 Identificar les llistes de descriptors lliures al Web marcadors socials webs

per a compartir imatges i viacutedeos etc

5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies

6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-

tes

7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en

quines liacutenies de treball srsquoestagrave investigant

8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-

cadors generals i en un web estructurat amb metadades i ontologies

9 Adquirir prou elements de judici i coneixement per poder estar al corrent

de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges

documentals i del Web semagraventic

CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1 Indexacioacute i recuperacioacute amb tesaurus

Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-

coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant

la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute

sinoacute en la seleccioacute dels descriptors

11 Tesaurus al Web

Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-

rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-

cioacute nrsquooferim una seleccioacute classificada per temes

Llista de tesaurus en liacutenia

Temagravetica Nom del tesaurus

Agricultura AGROVOC

Astronomia The Astronomy Thesaurus

Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten

Biologia IEDCYT - Tesauro de Biologiacutea Animal

Ciegravencia IEDCYT - Tesauro SNIPES

Demografia Population Multilingual Thesaurus

Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea

Educacioacute EUROVOC Thesaurus

Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial

Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos

Geologia IEDCYT - Tesauro de Geologiacutea

Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya

Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus

Matemagravetiques BUCM Tesamat Biblioteca Complutense

Propietatindustrial CSIC - Tesauro de Propiedad Industrial

Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

Tesaurus

Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Els textos i imatges publicats en aquesta obra estan subjectes ndashllevat que sindiqui el contrarindash a una llicegravencia de Reconeixement-NoComercial-SenseObraDerivada (BY-NC-ND) v30 Espanya de Creative Commons Podeu copiar-los distribuir-los i transmetrelspuacuteblicament sempre que en citeu lautor i la font (FUOC Fundacioacute per a la Universitat Oberta de Catalunya) no en feu un uacutescomercial i no en feu obra derivada La llicegravencia completa es pot consultar a httpcreativecommonsorglicensesby-nc-nd30eslegalcodeca

CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Iacutendex

Introduccioacute 5

Objectius 6

1 Indexacioacute i recuperacioacute amb tesaurus 7

11 Tesaurus al Web 7

12 Com srsquoindexa amb un tesaurus 8

13 Creacioacute drsquoun tesaurus 12

14 Recuperacioacute amb tesaurus 13

141 Proceacutes de cerca amb un tesaurus 13

15 Activitats 16

151 Indexacioacute del contingut drsquoarticles 16

152 Construccioacute manual i automagravetica de tesaurus 16

153 Recuperacioacute amb tesaurus 19

16 Solucioacute 19

161 Indexacioacute drsquoarticles 19

162 Construccioacute manual i automagravetica de tesaurus 19

2 Indexacioacute amb llistes de descriptors lliures etiquetes i

indexacioacute social 24

21 Descriptors lliures al Web 24

22 Etiquetes i indexacioacute social 25

221 Etiquetes 25

222 Indexacioacute social 27

223 Folksonomia 29

23 La recuperacioacute amb descriptors lliures 32

24 Activitats drsquoindexacioacute amb descriptors lliures 33

3 Indexacioacute automagravetica 34

31 Com srsquoindexa automagraveticament 34

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament 39

321 Cercadors 39

322 Recuperacioacute en un web estructurat 40

323 Web semagraventic indexacioacute i recuperacioacute 41

Bibliografia 43

CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Introduccioacute

Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes

de paraules clau o indexacioacute automagravetica

Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de

tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-

quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica

i es pot recuperar per paraules clau en els seus iacutendexs permutats

En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com

srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-

sisteix a crear un tesaurus en tres presentacions diferents

Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute

al Web on ha representat una revolucioacute el fet de convertir cada internauta en

autor editor i documentalista alhora

Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de

la indexacioacute social o tagging i dels factors que els han fet adients per al Web

de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i

del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta

pel poble

La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-

porciona una gran comunitat de persones indexant davant els desavantatges

de la manca de control del vocabulari

Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com

funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat

decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-

nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-

nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-

cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics

La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del

Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que

srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-

perar en un web estructurat

CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Objectius

Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els

seguumlents

1 Indexar amb tesaurus de manera especiacutefica

2 Construir un tesaurus a mida

3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies

semagraventiques del llenguatge

4 Identificar les llistes de descriptors lliures al Web marcadors socials webs

per a compartir imatges i viacutedeos etc

5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies

6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-

tes

7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en

quines liacutenies de treball srsquoestagrave investigant

8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-

cadors generals i en un web estructurat amb metadades i ontologies

9 Adquirir prou elements de judici i coneixement per poder estar al corrent

de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges

documentals i del Web semagraventic

CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1 Indexacioacute i recuperacioacute amb tesaurus

Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-

coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant

la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute

sinoacute en la seleccioacute dels descriptors

11 Tesaurus al Web

Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-

rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-

cioacute nrsquooferim una seleccioacute classificada per temes

Llista de tesaurus en liacutenia

Temagravetica Nom del tesaurus

Agricultura AGROVOC

Astronomia The Astronomy Thesaurus

Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten

Biologia IEDCYT - Tesauro de Biologiacutea Animal

Ciegravencia IEDCYT - Tesauro SNIPES

Demografia Population Multilingual Thesaurus

Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea

Educacioacute EUROVOC Thesaurus

Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial

Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos

Geologia IEDCYT - Tesauro de Geologiacutea

Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya

Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus

Matemagravetiques BUCM Tesamat Biblioteca Complutense

Propietatindustrial CSIC - Tesauro de Propiedad Industrial

Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

Tesaurus

Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Iacutendex

Introduccioacute 5

Objectius 6

1 Indexacioacute i recuperacioacute amb tesaurus 7

11 Tesaurus al Web 7

12 Com srsquoindexa amb un tesaurus 8

13 Creacioacute drsquoun tesaurus 12

14 Recuperacioacute amb tesaurus 13

141 Proceacutes de cerca amb un tesaurus 13

15 Activitats 16

151 Indexacioacute del contingut drsquoarticles 16

152 Construccioacute manual i automagravetica de tesaurus 16

153 Recuperacioacute amb tesaurus 19

16 Solucioacute 19

161 Indexacioacute drsquoarticles 19

162 Construccioacute manual i automagravetica de tesaurus 19

2 Indexacioacute amb llistes de descriptors lliures etiquetes i

indexacioacute social 24

21 Descriptors lliures al Web 24

22 Etiquetes i indexacioacute social 25

221 Etiquetes 25

222 Indexacioacute social 27

223 Folksonomia 29

23 La recuperacioacute amb descriptors lliures 32

24 Activitats drsquoindexacioacute amb descriptors lliures 33

3 Indexacioacute automagravetica 34

31 Com srsquoindexa automagraveticament 34

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament 39

321 Cercadors 39

322 Recuperacioacute en un web estructurat 40

323 Web semagraventic indexacioacute i recuperacioacute 41

Bibliografia 43

CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Introduccioacute

Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes

de paraules clau o indexacioacute automagravetica

Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de

tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-

quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica

i es pot recuperar per paraules clau en els seus iacutendexs permutats

En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com

srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-

sisteix a crear un tesaurus en tres presentacions diferents

Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute

al Web on ha representat una revolucioacute el fet de convertir cada internauta en

autor editor i documentalista alhora

Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de

la indexacioacute social o tagging i dels factors que els han fet adients per al Web

de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i

del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta

pel poble

La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-

porciona una gran comunitat de persones indexant davant els desavantatges

de la manca de control del vocabulari

Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com

funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat

decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-

nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-

nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-

cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics

La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del

Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que

srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-

perar en un web estructurat

CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Objectius

Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els

seguumlents

1 Indexar amb tesaurus de manera especiacutefica

2 Construir un tesaurus a mida

3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies

semagraventiques del llenguatge

4 Identificar les llistes de descriptors lliures al Web marcadors socials webs

per a compartir imatges i viacutedeos etc

5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies

6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-

tes

7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en

quines liacutenies de treball srsquoestagrave investigant

8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-

cadors generals i en un web estructurat amb metadades i ontologies

9 Adquirir prou elements de judici i coneixement per poder estar al corrent

de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges

documentals i del Web semagraventic

CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1 Indexacioacute i recuperacioacute amb tesaurus

Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-

coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant

la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute

sinoacute en la seleccioacute dels descriptors

11 Tesaurus al Web

Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-

rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-

cioacute nrsquooferim una seleccioacute classificada per temes

Llista de tesaurus en liacutenia

Temagravetica Nom del tesaurus

Agricultura AGROVOC

Astronomia The Astronomy Thesaurus

Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten

Biologia IEDCYT - Tesauro de Biologiacutea Animal

Ciegravencia IEDCYT - Tesauro SNIPES

Demografia Population Multilingual Thesaurus

Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea

Educacioacute EUROVOC Thesaurus

Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial

Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos

Geologia IEDCYT - Tesauro de Geologiacutea

Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya

Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus

Matemagravetiques BUCM Tesamat Biblioteca Complutense

Propietatindustrial CSIC - Tesauro de Propiedad Industrial

Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

Tesaurus

Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 5 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Introduccioacute

Aquest mogravedul tracta dels tesaurus les llistes de descriptors lliures i les llistes

de paraules clau o indexacioacute automagravetica

Els tesaurus soacuten un llenguatge documental que ha sabut unir els avantatges de

tots els llenguatges anteriors eacutes una classificacioacute en la seva presentacioacute jeragraver-

quica eacutes una llista de relacions semagraventiques en la seva presentacioacute alfabegravetica

i es pot recuperar per paraules clau en els seus iacutendexs permutats

En el primer apartat srsquoexpliquen tres operacions amb aquest llenguatge com

srsquoindexa com es crea un tesaurus nou i com es recupera Lrsquoactivitat final con-

sisteix a crear un tesaurus en tres presentacions diferents

Lrsquoapartat sobre els descriptors lliures tracta especialment de la seva aplicacioacute

al Web on ha representat una revolucioacute el fet de convertir cada internauta en

autor editor i documentalista alhora

Aixiacute mateix tracta de les etiquetes o tags els seus inicis i tipus I tambeacute de

la indexacioacute social o tagging i dels factors que els han fet adients per al Web

de les motivacions de lrsquoindexador (egoista amiguista altruista o populista) i

del resultat final de tot plegat conegut com a folksonomia o classificacioacute feta

pel poble

La recuperacioacute amb aquest llenguatge planteja sospesar els avantatges que pro-

porciona una gran comunitat de persones indexant davant els desavantatges

de la manca de control del vocabulari

Finalment el darrer apartat tracta sobre la indexacioacute automagravetica explica com

funciona un programa drsquoaquest tipus i quines opcions srsquousen en lrsquoactualitat

decidir quina part del text srsquoindexa automagraveticament mantenir o eliminar sig-

nes de puntuacioacute i nombres quegrave srsquoha de fer amb les paraules buides (elimi-

nar-les des del comenccedilament contextualitzar-les mantenir-les per a fer opera-

cions meacutes endavant) aplicacioacute de megravetodes estadiacutestics linguumliacutestics o semagraventics

La recuperacioacute amb aquest llenguatge passa ineludiblement pels cercadors del

Web ja que eacutes la base dels seus robots Lrsquoapartat srsquoacaba amb els canvis que

srsquoespera que comportaragrave el Web semagraventic sobre aixograve ja que passarem a recu-

perar en un web estructurat

CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Objectius

Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els

seguumlents

1 Indexar amb tesaurus de manera especiacutefica

2 Construir un tesaurus a mida

3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies

semagraventiques del llenguatge

4 Identificar les llistes de descriptors lliures al Web marcadors socials webs

per a compartir imatges i viacutedeos etc

5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies

6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-

tes

7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en

quines liacutenies de treball srsquoestagrave investigant

8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-

cadors generals i en un web estructurat amb metadades i ontologies

9 Adquirir prou elements de judici i coneixement per poder estar al corrent

de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges

documentals i del Web semagraventic

CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1 Indexacioacute i recuperacioacute amb tesaurus

Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-

coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant

la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute

sinoacute en la seleccioacute dels descriptors

11 Tesaurus al Web

Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-

rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-

cioacute nrsquooferim una seleccioacute classificada per temes

Llista de tesaurus en liacutenia

Temagravetica Nom del tesaurus

Agricultura AGROVOC

Astronomia The Astronomy Thesaurus

Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten

Biologia IEDCYT - Tesauro de Biologiacutea Animal

Ciegravencia IEDCYT - Tesauro SNIPES

Demografia Population Multilingual Thesaurus

Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea

Educacioacute EUROVOC Thesaurus

Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial

Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos

Geologia IEDCYT - Tesauro de Geologiacutea

Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya

Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus

Matemagravetiques BUCM Tesamat Biblioteca Complutense

Propietatindustrial CSIC - Tesauro de Propiedad Industrial

Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

Tesaurus

Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 6 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Objectius

Els objectius que ha drsquoassolir lrsquoestudiant amb aquest mogravedul didagravectic soacuten els

seguumlents

1 Indexar amb tesaurus de manera especiacutefica

2 Construir un tesaurus a mida

3 Conegraveixer el proceacutes de recuperacioacute amb tesaurus i saber usar les referegravencies

semagraventiques del llenguatge

4 Identificar les llistes de descriptors lliures al Web marcadors socials webs

per a compartir imatges i viacutedeos etc

5 Aprendre quegrave soacuten les etiquetes la indexacioacute social i les folksonomies

6 Ser conscient dels avantatges i inconvenients en la recuperacioacute per etique-

tes

7 Aprendre quines opcions drsquoindexacioacute automagravetica hi ha en lrsquoactualitat i en

quines liacutenies de treball srsquoestagrave investigant

8 Conegraveixer el paper dels llenguatges documentals en la recuperacioacute amb cer-

cadors generals i en un web estructurat amb metadades i ontologies

9 Adquirir prou elements de judici i coneixement per poder estar al corrent

de les noves investigacions que vagin sorgint en lrsquoentorn dels llenguatges

documentals i del Web semagraventic

CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1 Indexacioacute i recuperacioacute amb tesaurus

Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-

coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant

la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute

sinoacute en la seleccioacute dels descriptors

11 Tesaurus al Web

Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-

rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-

cioacute nrsquooferim una seleccioacute classificada per temes

Llista de tesaurus en liacutenia

Temagravetica Nom del tesaurus

Agricultura AGROVOC

Astronomia The Astronomy Thesaurus

Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten

Biologia IEDCYT - Tesauro de Biologiacutea Animal

Ciegravencia IEDCYT - Tesauro SNIPES

Demografia Population Multilingual Thesaurus

Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea

Educacioacute EUROVOC Thesaurus

Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial

Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos

Geologia IEDCYT - Tesauro de Geologiacutea

Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya

Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus

Matemagravetiques BUCM Tesamat Biblioteca Complutense

Propietatindustrial CSIC - Tesauro de Propiedad Industrial

Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

Tesaurus

Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 7 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1 Indexacioacute i recuperacioacute amb tesaurus

Indexar amb un tesaurus igual que amb tots els llenguatge documentals post-

coordinats eacutes molt senzill Soacuten llenguatges en quegrave no hi ha sintaxi per tant

la dificultat no estagrave en la composicioacute lrsquoordre i la sintaxi del terme drsquoindexacioacute

sinoacute en la seleccioacute dels descriptors

11 Tesaurus al Web

Hi ha un gran nombre de tesaurus en liacutenia i gratuiumlts a la Xarxa Trobem tesau-

rus drsquoagricultura astronomia biblioteconomia biologia art etc A continua-

cioacute nrsquooferim una seleccioacute classificada per temes

Llista de tesaurus en liacutenia

Temagravetica Nom del tesaurus

Agricultura AGROVOC

Astronomia The Astronomy Thesaurus

Biblioteconomia IEDCYT - Tesauro de Biblioteconomiacutea y DocumentacioacutenDOCUTES Universitat de Leoacuten

Biologia IEDCYT - Tesauro de Biologiacutea Animal

Ciegravencia IEDCYT - Tesauro SNIPES

Demografia Population Multilingual Thesaurus

Economia EUROVOC ThesaurusIEDCYT - Tesauro ISOC de Economiacutea

Educacioacute EUROVOC Thesaurus

Empresa EUROVOC ThesaurusIEDCYT - Tesauro de Propiedad Industrial

Geografia EUROVOC ThesaurusGetty Thesaurus of Geographic NamesIEDCYT - Tesauro de Topoacutenimos

Geologia IEDCYT - Tesauro de Geologiacutea

Histograveria IEDCYT - Tesauro de Historia Contemporaacutenea de EspantildeaHistograveria de Catalunya

Llenguailiteratura Traces Base de dades de llengua i literatura catalanes - Tesaurus

Matemagravetiques BUCM Tesamat Biblioteca Complutense

Propietatindustrial CSIC - Tesauro de Propiedad Industrial

Psicologia IEDYCT - Tesauro ISOC de Psicologiacutea

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

Tesaurus

Els tesaurus soacuten llenguatgesnaturals controlats postcoor-dinats jeragraverquics i alfabegravetics ique indexen per conceptes

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 8 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Temagravetica Nom del tesaurus

Sociologia EUROVOC ThesaurusIEDCYT - Tesauro de Sociologiacutea

Topogravenims CSIC - Tesauro de Topoacutenimos

Urbanisme IEDCYT - Tesauro de Urbanismo

Genegraverics UNESCOHistograveria de CatalunyaMicrotesaurus temagravetics de la UBSPINES del IEDCYTERIC

La majoria dels tesaurus soacuten especialitzats perograve alguns soacuten genegraverics com lrsquoEUROVOC o els darrers de la llista

12 Com srsquoindexa amb un tesaurus

El proceacutes per a indexar amb tesaurus i per extensioacute amb qualsevol llenguat-

ge documental postcoordinat el trobem gragraveficament explicat en la norma

UNE-50-121-91 annex A pagraveg 7

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 9 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Descripcioacute del proceacutes drsquoindexacioacute amb llenguatges postcoordinats

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 10 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lrsquoindexador examinaragrave el document i nrsquoextrauragrave conceptes que despreacutes tra-

duiragrave a descriptors del tesaurus Primer se cerca en la presentacioacute alfabegravetica

i despreacutes es comprova en la presentacioacute jeragraverquica (aquesta segona consulta

ajuda a visualitzar la posicioacute del descriptor en tot lrsquoarbre) Els descriptors que

li interessen poden ser en diverses microdisciplines i en diferents nivells de

sagnia

Exemple de descriptors en diferents microdisciplines

Document Indexacioacute

Keefer Alice ldquoLos repositorios digitales universitarios y los autoresrdquo [en liacutenia] Analesde Documentacioacuten No 10 (2007) pag 205-214Disponible a httprevistasumesanalesdocarticleviewFile11511201

Biblioteques universitagraveriesFonts drsquoinformacioacuteDocuments electrogravenicsUniversitatsDocumentacioacuteBases de dades

Hem indexat amb el Tesaurus drsquoHistograveria de Catalunya (httpsdhlcuabcatTesaurushtm) Els tres primers descriptors soacuten de la microdisciplina [Documentacioacute i informacioacute] El quediu Universitats eacutes drsquo[Educacioacute] Els dos uacuteltims soacuten de [Ciegravencia i Tecnologia]

Exemple de descriptors en diferents nivells de sagnia

Document Indexacioacute

Programa electoral presentat per Convergegravenciai Unioacute de Sant Andreu de Llavaneres a les elec-cions municipals de 2007 i que tambeacute conteacute lallista de candidats drsquoaquest partit

Partits poliacuteticsPrograma electoralEleccions municipals 2007Candidatures electoralsConvergegravencia i Unioacute (provinent de LENOTI)Sant Andreu de Llavaneres (provinent de laGEC)

En aquesta ocasioacute hem necessitat nomeacutes una microdisciplina la de poliacutetica perquegrave el document no fa referegravencia a altres temes

Noms propis i geogragravefics

Recordem que els noms propisi el geogragravefics no es troben enel tesaurus sinoacute que provenende llistes drsquoautoritats com elsde lrsquoexemple (LENOTI i GranEnciclopegravedia Catalana)

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 11 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

En primer lloc conveacute fixar-se que els descriptors seleccionats formen part de

cadenes jeragraverquiques diferents Un error seria indexar Eleccions perquegrave eacutes el

terme ampli (TA) de Candidatures electorals Eleccions municipals Programa elec-

toral No podem indexar el descriptor (o terme) especiacutefic (TE) i el seu TA alhora

En segon lloc conveacute fixar-se que cal ajustar lrsquoenunciat al descriptor aprovat i

admegraves en el tesaurus llista de candidats per Candidatures electorals

En el proceacutes de manteniment drsquoun tesaurus eacutes possible que conceptes no re-

collits en un primer moment srsquohi acabin afegint posteriorment perograve aixograve eacutes

una tasca que correspon a lrsquoadministrador del tesaurus i no al documentalista

en tot cas el documentalista pot proposar la necessitat drsquoun descriptor nou en

un camp que es diu Descriptors candidats

Reflexioacute

Aquesta eacutes lrsquouacutenica regla quenecessitem saber per a indexaramb tesaurus no indexar el TAi el TE a la vegada

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 12 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

13 Creacioacute drsquoun tesaurus

Els tesaurus tenen les presentacions bagravesiques de tot llenguatge documental la

jeragraverquica lrsquoalfabegravetica la gragravefica i la permutada

Recordem que les fases de construccioacute drsquoun tesaurus soacuten vuit en els monolin-

guumles i nou en els multilinguumles

1) Recollida del vocabulari en llenguatge natural dins el domini que inclouragrave el te-saurus

2) Subdivisioacute del conjunt dels dominis que es tindran en compte en una segraverie demicrodisciplines

3) Transformacioacute del vocabulari lliure en un llenguatge controlat establiment de lesrelacions de pertinenccedila drsquoequivalegravencia semagraventica de jerarquia i redaccioacute de les notesexplicatives

4) Cerca de les equivalegravencies interlinguumliacutestiques (si es tracta drsquoun tesaurus multilin-guumle)

5) Enriquiment del tesaurus per mitjagrave de relacions associatives

6) Elaboracioacute de lrsquoesborrany del tesaurus

7) Formacioacute dels indicadors

8) Test del tesaurus

9) Revisioacute final i primera edicioacute

Els descriptors de cada microdisciplina poden estar ordenats de tres maneres

diferents

bull Cronologravegicament

bull Alfabegraveticament

bull Segons el proceacutes

Els dos primers criteris soacuten clars el tercer es refereix a processos que ja tenen

un ordre logravegic intern com en lrsquoexemple lrsquoordre dels estudis primer preescolar

despreacutes primagraveria secundagraveria i superior

Reflexioacute

Si sabem construir un tesaurussabem construir tots els llen-guatges documentals A meacutesen ser especialitzat eacutes el llen-guatge perfecte per a fer-nos-el a mida de les nostres neces-sitats Per tots aquests motiusdoncs eacutes convenient saberconstruir un tesaurus

Lectures recomanades

Per a meacutes informacioacute sobreel proceacutes i les fases recoma-nem les lectures seguumlentsAitchison (1987) Lancaster(2002) Slype van G (1991) iles normes UNE 50-106 (ISO2788-1986) i UNE-50-125(ISO 5964-1985)

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 13 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tres tipus drsquoordenacions

Finalment apuntem que les facetes drsquoun tesaurus es poden ordenar segons la

conveniegravencia dels constructors amb la finalitat que siguin meacutes entenedores

com per exemple aquestes facetes de la microdisicplina drsquo[ECONOMIA] en

quegrave veiem que Economia general precedeix la resta

bull [Histograveria econogravemica]

bull [Economia general]

bull [Economia agragraveria]

bull [Economia pesquera]

bull [Economia industrial]

bull [Comerccedil]

bull [Hoteleria i turisme]

bull [Finances]

bull [Economia de lrsquoempresa]

14 Recuperacioacute amb tesaurus

La recuperacioacute amb un llenguatge analiacutetic i postcoordinat com els tesaurus eacutes

meacutes senzilla que la de llenguatges precoordinats perquegrave no hi ha sintaxi i srsquohi

poden afegir tants descriptors com es consideri oportuacute

Igual que en la indexacioacute eacutes molt important que lrsquoindexador conegui fil per

randa el tesaurus que indexa la base de dades les microdisciplines i lrsquoabast

conceptual de cadascuna I tambeacute que conegui les llistes drsquoautoritats del seu

SID tant per noms geogragravefics com personals tiacutetols o entitats

141 Proceacutes de cerca amb un tesaurus

El proceacutes de cerca amb tesaurus teacute tres parts

bull Recollida de conceptes

bull Traduccioacute al llenguatge

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 14 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Formulacioacute de la cerca

Exemplificarem una cerca a la base de dades ISOC ndash Biblioteconomia i docu-

mentacioacute a partir del tesaurus de Biblioteconomia de lrsquoIEDCYT (IEDCYT ndash Te-

sauro de Biblioteconomiacutea y Documentacioacuten)

Recollidadeconceptes

El tesaurus eacutes un llenguatge documental analiacutetic i com a tal permet demanar

tants descriptors com calgui Eacutes important que la demanda drsquoinformacioacute es

formuli de manera exhaustiva a fi de recollir tots els conceptes interessants

per a lrsquousuari i que podem trobar idegraventics o no en el tesaurus

Lrsquousuari demana documentacioacute sobre documents drsquoarxiu drsquooficina a lrsquoempresa i el docu-mentalista acota la demanda als descriptors que coneix del seu tesaurus

Quin tipus drsquoempresa puacuteblica o privada De quin sector Documents comptables Nor-matives Com classificar-los Poliacutetica drsquoesporgada De quins anys Tot tipus de docu-mentals tots o nomeacutes un segment Etc

Traduccioacutealllenguatge

Un cop el documentalista tingui els conceptes la segona tasca eacutes localitzar-los

al tesaurus per a traduir-los Aquiacute el documentalista jugaragrave amb les tres pre-

sentacions bagravesiques de tot tesaurus lrsquoalfabegravetica la jeragraverquica i la permutada

El documentalista es pot trobar en dues situacions troba el concepte expressat

meacutes o menys de la manera que pensava o beacute no el troba

1) Per a localitzar el descriptor cal consultar la presentacioacutealfabegravetica del te-

saurus En un primer moment es consulta aquesta presentacioacute i no la jeragraverqui-

ca pels motius seguumlents

a) Perquegrave la presentacioacute alfabegravetica teacute les relacions drsquoequivalegravencia entre el no-

descriptor i el descriptor acceptat

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina que eacutes un no-descriptor que remet a Archivosde gestioacuten

b) Per a comprovar com srsquoescriu el descriptor eacutes a dir quina eacutes la forma ac-

ceptada

En lrsquoexpressioacute de lrsquousuari era Arxius drsquooficina a lrsquoempresa i en el tesaurus el concepte esformalitza en Archivos de empresas Archivos de gestioacuten

c) Perquegrave el documentalista no sap a quina microdisciplina o faceta pertany

el descriptor

Archivos de empresas i Archivos de gestioacuten no pertanyen a [Archiviacutestica] sinoacute a la microdis-ciplina de [Unidades de informacioacuten]

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 15 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

d) Si el busqueacutes per la sistemagravetica hauria de fullejar el tesaurus sencer per lo-

calitzar-lo en canvi amb lrsquoalfabegravetica els trobaragrave a la primera

Si el documentalista no troba el descriptor llavors li seragrave meacutes uacutetil la presentacioacute

jeragraverquica i la permutada

2) Consultar la presentacioacute jeragraverquica La seva utilitat rau en el fet que

lrsquoarborescegravencia li pot suggerir descriptors paralmiddotlels genegraverics i especiacutefics En

posarem un exemple de cada

Exemple de termes paralmiddotlels

El documentalista busca algun concepte que expressi la cadena documental a arxius Nohi eacutes en el tesaurus i tampoc no eacutes un no-descriptor Encara que no hi sigui srsquoadona quetotes les fases de la cadena es troben sistematitzades sota el descriptor Proceso documentalEn una segona opcioacute podria obrir el descriptor en termes meacutes especiacutefics i cercar per fasesi subfases concretes de la cadena per exemple Adquisiciones Anaacutelisis de contenido

Exemple de termes genegraverics

Lrsquousuari ha demanat pel concepte unitermes que no eacutes al tesaurus i tampoc no hi ha capaltre terme que pugui usar En aquest cas seleccionaria el descriptor immediatament su-perior conceptualment a altres descriptors paralmiddotlels eacutes a dir si uniterme eacutes al mateixnivell que descriptor i que paraula clau escolliria Teacuterminos que engloba tots els tipus determes drsquoindexacioacute Un altre cas es doacutena quan el documentalista troba el descriptor cor-recte per exemple Reglamentos de archivos perograve la base de dades li retorna zero resultatsper la qual cosa decideix consultar la jeragraverquica i reformular la cerca aquesta vegada ambel terme genegraveric de Reglamentos de archivos que eacutes Poliacutetica archiviacutestica

Exemple de termes especiacutefics

Lrsquousuari ha demanat pel tema llenguatges documentals El tesaurus recull aquest conceptecom a descriptor perograve el documentalista consultant la presentacioacute jeragraverquica veu quetambeacute pot cercar pels termes especiacutefics que soacuten en aquest tesaurus

TE Clasificaciones

TE Lenguajes de indizacioacuten

3) Consultar els iacutendexspermutats Els iacutendexs permutats (KWIC o KWOC)

permeten localitzar altres descriptors que continguin la paraula clau que cer-

quem enqualsevolposicioacutedeldescriptor

Si busquem archivos a meacutes de la lletra A de archivos si consultem lrsquoiacutendex KWIC podemtrobar

Automatizacioacuten de archivos

Historia de los archivos

Sistemas nacionales de archivos

Formulacioacutedelacerca

Observacioacute

Recordem que el documenta-lista no hauragrave indexat amb elTA i el TE a la vegada Per tantun manual general sobre llen-guatges documentals estaragrave in-dexat com a Lenguajes docu-mentales i no amb el descriptorde cada llenguatge concret

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 16 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Finalment formularagrave la cerca distribuint els conceptes en els camps de la

base de dades (per mategraveria abast cronologravegic format idioma etc) fent uacutes

drsquooperadors booleans si cal

15 Activitats

Seguidament us proposem un seguit drsquoactivitats perquegrave pugueu posar en pragravec-

tica els tesaurus

151 Indexacioacute del contingut drsquoarticles

A lrsquoaula a la seccioacute de Recursos i fonts hi trobareu una bateria drsquoarticles a text

complet de temes molt diferents Seguiu les instruccions de lrsquoaula per a saber

quin article i quin tesaurus heu drsquousar

152 Construccioacute manual i automagravetica de tesaurus

Creacioacute drsquoun petit tesaurus sobre anagravelisi de contingut a magrave i en segon terme

un programa de programari lliure amb les caracteriacutestiques seguumlents

bull Dues microdisciplines [Cadena documental] [Indexacioacute]

bull Tres presentacions jeragraverquica alfabegravetica i permutada KWIC

bull Tres tipus drsquoordenacions histograverica alfabegravetica i procedimental

bull Es faciliten els descriptors ordenats per microdisciplines

A lrsquohora de crear el tesaurus cal recordar que les relacions es posen en un ordre

predeterminat i que les sigles que hem drsquousar soacuten les que hi ha recollides en

aquesta taula

Taula resum de sigles en catalagrave castellagrave i anglegraves

Catalagrave Castellagrave Anglegraves

Domini(noeacutesobligatori) DOM DOM DOM

Notesdrsquoaclariment NANE (aclari-mentexplicativa)

NA SC (scope note)

Equivalegravencia Empreu EM USE USE

Empratper EP UP UF

Termecapccedilalera(noeacutesobligatori) TC TC TT (top term)

Jerarquia Termegenegraveric TA TG BT (broad term)

Termeespeciacutefic TE TE NT (narrow term)

Relacioacuteassociativa TR TR RT

Descriptors de la microdisciplina [Cadena documental] Nota no srsquoobre en

facetes Aquests descriptors ja estan controlats en la forma

La presentacioacute jeragraverquicacom a base dels tesaurus

La presentacioacute jeragraverquica eacutes labase drsquoun tesaurus a partir dela qual neixen les altres presen-tacions alfabegravetiques gragravefiquesi permutades

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 17 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Acceacutes directe al fons

bull Acceacutes lliure

bull Adquisicioacute

bull Anagravelisi de contingut

bull Anagravelisi documental

bull Anagravelisi formal

bull Bases de dades

bull Catagravelegs

bull Causes de degradacioacute externes

bull Causes de degradacioacute internes

bull Cercadors

bull Compra

bull Descripcioacute bibliogragravefica

bull Dipogravesit legal

bull Directoris

bull Donacioacute

bull Emmagatzematge i conservacioacute

bull Fase drsquoanagravelisi i tractament

bull Fase de sortida

bull Fase drsquoentrada

bull Formacioacute drsquousuaris

bull Guies butlletins

bull Indexacioacute

bull Instruments de cerca

bull Intercanvi

bull Inventaris

bull Ordenacioacute

bull Ordenacioacute altament significativa

bull Ordenacioacute amb significat limitat

bull Ordenacioacute no significativa

bull Poliacutetica de seleccioacute

bull Portals

bull Preparacioacute del material

bull Preacutestec

bull Processament tegravecnic

bull Recepcioacute

bull Registre

bull Reprografia

bull Resum

bull Resum automagravetic

bull Resum indicatiu

bull Resum informatiu

bull Resum selectiu

bull Seleccioacute

bull Serveis de difusioacute

bull Serveis de referegravencia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 18 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Transferegravencia

Descriptors de la microdisciplina [Indexacioacute] Nota srsquoobre en tres facetes [Evo-

lucioacute histograverica] [Llenguatges documentals] i [Llenguatges naturals] Us donem els

descriptors ja classificats en les tres facetes i controlats en la forma

[Evolucioacute histograverica]

bull Bilindex [1983]

bull Guiacutea para los encabezamientos de materia [1934]

bull Indexacioacute automagravetica [1957]

bull Library of Congress subject headings [1909]

bull List of subject headings for small libraries [1923]

bull List of subject headings for use in dictionary catalogs [1895]

bull Lista de encabezamientos de materia para bibliotecas [1967]

bull Reacutepertoire drsquoautoriteacute-matiegravere encyclopedique et alphabetique unifieacute RA-

MEAU [1980]

bull Reacutepertoire de vedettes-matiegravere RVM [1946]

bull Rules for a dictionary catalog [1876]

bull Segle XIX

bull Segle XX (1900-1950)

bull Segle XX (1950-1999)

[Llenguatges documentals]

bull Autoritats

bull Descriptor

bull Descriptors controlats

bull Descriptors lliures

bull Encapccedilalaments de mategraveria

bull Llenguatges codificats

bull Llenguatges controlats

bull Llenguatge de descriptors

bull Llenguatges de paraules clau

bull Llenguatges documentals

bull Llenguatge lliure

bull Llenguatges de mategraveria

bull Llenguatges de postcoordinacioacute

bull Llenguatges precoordinats

bull Llista drsquoautoritats

bull Llista drsquoencapccedilalaments de mategraveria

bull Llista de descriptors lliures

bull Llista de paraules clau

bull Notacions

bull Paraules clau

bull Segons el nivell drsquoanagravelisi

bull Segons el nivell de control

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 19 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull Segons el nivell de coordinacioacute

bull Segons la naturalesa dels termes

bull Sistema de classificacioacute

bull Termes drsquoindexacioacute

bull Tesaurus

bull Tipologies de llenguatges documentals

[Llenguatges naturals]

bull Ambiguumlitat del llenguatge natural

bull Homofonia

bull Homografia

bull Homoniacutemia

bull Polisegravemia

bull Sinoniacutemia

153 Recuperacioacute amb tesaurus

Ateacuten les demandes drsquousuari seguumlents a la base de dades ISOC de Biblioteco-

nomia i Documentacioacute indexada amb el tesaurus de Biblioteconomia i Docu-

mentacioacute

bull Informacioacute sobre la indexacioacute i recuperacioacute amb tesaurus en centres de

documentacioacute

bull Informacioacute sobre tractament de la documentacioacute dels museus militars i

lrsquoatencioacute als usuaris

bull Els dispositius de biblioteques mogravebils els tipus de fonts que porten i me-

sures de seguretat

bull Opcions laborals per a bibliotecaris i arxivers

bull Indexacioacute automagravetica i llei de Zipf

16 Solucioacute

Seguidament recollim les solucions dels exercicis que us hem plantejat meacutes

amunt

161 Indexacioacute drsquoarticles

La solucioacute es treballaragrave a lrsquoaula

162 Construccioacute manual i automagravetica de tesaurus

Aquesta eacutes la presentacioacute jeragraverquica dels descriptors proposats

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 20 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 21 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Solucioacuteenpartalapresentacioacutealfabegravetica

Presentem cinc exemples corresponents a totes les posicions que pot tenir un

descriptor en aquest tesaurus I totes les sigles que defineixen les relacions

semagraventiques existents

bull Amb un punt al davant Fase drsquoentrada

bull Amb dos punts al davant Seleccioacute

bull Amb tres punts al davant Poliacutetica de seleccioacute

bull Amb quatre punts al davant Ordenacioacute altament significativa

bull Amb cinc punts al davant Resum automagravetic

bull Drsquoun no-descriptor al descriptor acceptat Extracts

Extracts

EM Resum automagravetic

Faseentrada

Observacioacute

Fixeu-vos que els descriptorsvan en ordre alfabegravetic

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 22 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

TC Cadena documental

Seleccioacute

Adquisicioacute

TE

Recepcioacute

Ordenacioacutealtamentsignificativa

TC Cadena documental

TA Ordenacioacute

Llenguatges codificatsTR

Sistemes de classificacioacute

Poliacuteticadeseleccioacute

TC Cadena documental

TA Seleccioacute

Resumautomagravetic

EP Extracts

TC Cadena documental

TA Resum

Seleccioacute

TC Cadena documental

TA Fase drsquoentrada

TE Poliacutetica de seleccioacute

SolucioacuteenpartalrsquoiacutendexKWIC

Exemple lletra L del KWIC En aquesta solucioacute podem observar que tots els

unitermes dels descriptors que comencin per L srsquoordenen alfabegraveticament Tro-

barem iacutendexs KWIC que marquen la paraula en quumlestioacute en negreta (com en

lrsquoexemple) i drsquoaltres que la situen en una columna central del tipus

Dipogravesit legal

Llenguatge Lliure

Acceacutes lliure

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 23 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Fixeu-vos que descriptors com llenguatges lliures apareixeran dues vegades al

KWIC tant per la Ll de llenguatges com per la ll de lliures Els descriptors que

tenen algun article com les no srsquoindexen ja que es consideren paraules buides

(per aquest motiu no apareix per exemple Segons la naturalesa dels termes)

Dipogravesit legal

List of subject headings for small libraries [1923]

Library of Congress subject headings [1909]

Ordenacioacute amb significat limitat

List of subject headings for small libraries [1923]

List of subject headings for use in dictionary catalogs [1895]

Lista de encabezamientos de materia para bibliotecas [1967]

Ambiguumlitat del llenguatge natural

Llenguatge lliure

Llenguatges codificats

Llenguatges controlats

Llenguatges de descriptors

Llenguatges documentals

Tipologies de llenguatges documentals

Llenguatges de mategraveria

Llenguatges de paraules clau

Llenguatges de postcoordinacioacute

Llenguatges precoordinats

Llista drsquoautoritats

Llista drsquoencapccedilalaments de mategraveria

Llista de descriptors lliures

Llista de paraules clau

Acceacutes lliure

Llenguatge lliure

Descriptors lliures

Observacioacute

Els iacutendexs permutats actuencom a llistes de paraules clauJa que de fet estem descompo-nent el descriptor en unitatssoltes

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 24 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

2 Indexacioacute amb llistes de descriptors lliuresetiquetes i indexacioacute social

La llista de descriptors lliures eacutes un llenguatge que es crea dinagravemicament en

temps real a mesura que lrsquoindexador va llegint i assignant un terme Els termes

del vocabulari no consten en cap full previ Lrsquoindexador no comprova que el

terme existeixi No comprova com srsquoescriu Hi ha plena llibertat

21 Descriptors lliures al Web

Al Web hi ha moltes iniciatives drsquoindexacioacute amb descriptors lliures les meacutes

meritoses soacuten els marcadors socials (Delicious) webs per a compartir imatges

(Tagzania Flickr Youtube) i aplicacions del Web 20 com blogs (Blogger) xar-

xes socials i webs (Buzzillions) que recullen lrsquoopinioacute de consumidors sobre

marques de tota mena de productes

bull Delicious (httpswwwdeliciouscom) Diigo (httpwwwdiigocom) Mr

Wong (httpwwwmister-wongcom) soacuten serveis de gestioacute drsquoadreces

drsquointeregraves mitjanccedilant el Web Permeten guardar i recuperar a la Xarxa les

adreces drsquointeregraves que clagravessicament srsquoemmagatzemaven des del navegador

localment a lrsquoordinador de manera que soacuten consultables en liacutenia i no so-

lament localment

bull Tagzania (httpwwwtagzaniacom) eacutes un sistema que usa folksonomies

sobre lrsquoAPI del potent Google Maps Eacutes un mashup de geolocalitzacioacute de

fotografies similar a Panoramio (httpwwwpanoramiocom) que ofereix

altres funcionalitats de valor afegit als mapes

bull Flickr (httpwwwflickrcom) eacutes un lloc web de Yahoo per a organitzar

fotografies digitals que funciona com una xarxa social Eacutes un servei molt

utilitzat pels usuaris de blogs com a dipogravesit de fotos

bull Youtube (httpwwwyoutubecom) eacutes un lloc web per a compartir viacutedeos

clips de pelmiddotliacutecules clips de televisioacute viacutedeos musicals i tambeacute contingut

amateur Els usuaris no registrats poden veure viacutedeos i els usuaris registrats

poden pujar un nombre ilmiddotlimitat de viacutedeos

bull Blogger (httpsaccountsgooglecom) eacutes un servei per a crear i publicar

un blog fagravecilment

bull Buzzillions (wwwbuzzillionscom) eacutes un lloc web que recull prop de dis-

set milions de criacutetiques de productes drsquouna agravemplia gamma de categories

(electrogravenica moda salut etc) Les recomanacions provenen de persones

Llistes de descriptorslliures

Les llistes de descriptors lliuressoacuten llenguatges naturals lliu-res postcoordinats alfabegravetics ianaliacutetics per conceptes

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 25 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

reals (no es paguen per les revisions) amb la intencioacute drsquoassessorar compra-

dors nous a partir del grau de satisfaccioacute dels productes

22 Etiquetes i indexacioacute social

Cada usuari indexa els descriptors lliures que li semblen millors Milions

drsquousuaris indexen els seus descriptors Entre tots creen un espai drsquoaportacions

sense una intervencioacute centralitzada ni meacutes autoritat que la que fan els usuaris

no hi ha descriptors predeterminats

Aquesta manera drsquoindexar no professional i sense llenguatge documental con-

trolat es coneix com a indexacioacutesocial Hi intervenen les etiquetes o tags el

tagging o accioacute drsquoindexar lliurement i les folksonomies o conjunt total de totes

les etiquetes assignades pels usuaris

Eacutes una revolucioacute en el moacuten del Web perquegrave srsquoha invertit el paradigma abans

pocs autors escrivien per a molts lectors i ara molts autors no sols escriuen

sinoacute que tambeacute editen i descriuen els seus documents

Com diu Mari Carmen Marcos (2009)

ldquocadascuacute eacutes autor editor i documentalista alhorardquo

Terminologia

Trobarem diversos termes per a cada concepte

bull Per als termes drsquoindexacioacute descriptors lliures o etiquetes o tags Del conjunt de tags sersquondiu nuacutevol de tags que seria el meacutes semblant a un llenguatge documental

bull Per a lrsquoaccioacute drsquoindexar lliurement tagging o etiquetatge social i meacutes especiacuteficament socialbookmarking o website bookmarking quan es tracta de descriure els recursos web

bull Per al conjunt de tags de tots els usuaris folksonomies o classificacioacute feta pel poble

221 Etiquetes

James Surowiecki

James Surowiecki (2004) hoanomena la saviesa de les mas-ses (the wisdom of crowds)

Una etiqueta o tag eacutes un terme drsquoindexacioacute que srsquoafegeix a un objecte

digital com un web un viacutedeo o una foto per tal de descriurersquol en forma

i contingut

Les primeres etiquetes van aparegraveixer als blogs i proporcionaven enllaccedilos i co-

mentaris sobre recursos tipus ldquorecomano el web tal per a tal temardquo Es conside-

ra que van ser les primeres metadades encara que molt mancades drsquoestructura

Avui dia els usuaris indexen amb etiquetes els seus webs preferits les localit-

zacions de les fotos les emocions drsquounes imatges el grau de satisfaccioacute drsquoun

rentaplats etc

Exemple

Per exemple enciclopedia_artenciclopegravedia (forma) drsquoart(contingut) No eacutes un descrip-tor controlat eacutes un descriptorlliure

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 26 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Les etiquetes soacuten funcionals perquegrave soacuten les autoritats dels usuaris Lancaster ja

observava lrsquoany 1995 que els termes srsquohavien drsquoobtenir dels usuaris potencials i

que nrsquohavien de representar els interessos concrets O meacutes reculat en el temps

Cutter ja postulava que els termes drsquoindexacioacute havien de representar lrsquouacutes comuacute

i posar el focus en el lector

Les etiquetes poden ser unitermes o descriptors compostos eacutes a dir poden es-

tar formades per una sola paraula (tesaurus) o per dues paraules (per exemple

Llenguatges_documentals)

Ros-Martin (2008) va classificar les etiquetes en aquests grups

1) Les basades en el contingut temagravetic

Exemple Capiacutetol_indexacioacute_social

2) Les basades en el context o emmagatzematge

Exemple Mogravedul3_cap2

3) Les subjectives

Exemple Uacutetil

4) Els atributs que no es derivin del contingut

Exemple UOC

5) Les drsquoorganitzacioacute o de recordatori de tasques

Exemple Guardar Relacionar_amb_Recuperacioacute Per_Joan

El conjunt drsquoetiquetes es coneix com a nuacutevoldrsquoetiquetes Aquest nuacutevol eacutes un

espai pla en quegrave les etiquetes no tenen relacions de parentiu ni de jerarquia

entre elles perograve que permeten la comparticioacute de categories entre usuaris Es

presenten en ordre alfabegravetic i destacades amb tipografia meacutes grossa segons la

frequumlegravencia drsquouacutes

Separacioacute amb guioacute

Les paraules srsquoacostumen a se-parar amb guioacute perquegrave lrsquoespaieacutes el signe que marca el finalde lrsquoetiqueta

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 27 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Font imatge presa de Flickr

222 Indexacioacute social

Els descriptors lliures soacuten el llenguatge ideal per a indexar el Web pels factors

seguumlents

1) Perquegrave eacutes un llenguatge lliure El Web no es pot indexar amb els llenguatges

controlats perquegrave el temps i lrsquoesforccedil econogravemic que sersquon derivarien serien inas-

solibles Els llenguatge documentals controlats no soacuten adequats en entorns en

quegrave les metadades soacuten una opcioacute millor Les metadades poden ser de diversos

tipus creades per un documentalista per lrsquoautor del document o per un robot

Amb les etiquetes podem afegir una altra via la de les metadades creades pels

usuaris (Mathes 2004)

2) Perquegrave no necessiten formacioacute documentalista pregravevia les caracteriacutestiques

drsquoaquest llenguatge el fan ideal per a qualsevol colmiddotlectiu no professional de la

documentacioacute com els internautes del Web

3) El grup drsquousuaris eacutes tan nombroacutes que assumeixen quantitats enormes de

documents (ja no eacutes un indexador sinoacute una comunitat drsquoindexadors)

4) Permeten indexar documents com ara una imatge o un viacutedeo que no van

acompanyats de text o peus de foto que fins ara nomeacutes eren indexables per

humans i no per robots

5) Les etiquetes soacuten properes als usuaris no soacuten termes escollits per tegravecnics

sinoacute que soacuten termes intuiumltius La comunitat actua com un sedagraves que filtra les

paraules realment meacutes uacutetils

6) Soacuten eficaccedilos individualment ndasha nivell drsquousuarindash perquegrave organitzen la infor-

macioacute personal i socialment perquegrave tota la comunitat virtual es beneficia de

la indexacioacute que han fet els altres

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 28 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Lectures recomanades

Srsquohan fet diversos estudis sobre la consistegravencia drsquoindexar amb etiquetes entre indexadorsa lrsquohora drsquoindexar imatges i fins i tot emocions amb resultats molt bons de coheregravenciaentre usuaris (emocions identificades de manera homogegravenia) Un exemple el teniu aKnautz and Stock (2010) i a Ransom and Rafferty (2011)

KathrinKnautzWolfgangGStock (2010) ldquoCollective indexing of emotions in vide-osrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

NRansomPRafferty (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Els professionals de la informacioacute tambeacute usen la indexacioacute social o tagging

per a indexar els recursos web Srsquoutilitzen en intranets sistemes corporatius

bases de dades i biblioteques per a donar valor afegit a les seves bases de dades

(per exemple la base de dades Complured de la Universidad Complutense de

Madrid) tambeacute per a compartir els marcadors seleccionats amb altres usuaris

i per a reutilitzar els continguts en altres aplicacions com xarxes socials tipus

Twitter i aixiacute donar meacutes visibilitat a la institucioacute

Organitzacioacute de les colmiddotleccions a les biblioteques universitagraveries

La majoria de biblioteques universitagraveries organitzen les colmiddotleccions de la manera seguumlent

bull Colmiddotleccioacuteprogravepia catagraveleg indexat de manera controlada (sistemes de classificacioacute +llistes drsquoencapccedilalaments + llista drsquoautoritats tesaurus + llista drsquoautoritats) i automagrave-tica (llista de paraules clau)

bull RecursoselectrogravenicsdelWeb directoris temagravetics o guies temagravetiques (sistemes declassificacioacute) + Delicious (llista de descriptors lliures o tags)

Podeu comprovar que les etiquetes drsquoun Delicious soacuten descriptors lliures fent la compa-racioacute seguumlent busqueu una llista drsquoencapccedilalaments de mategraveria que srsquousi o es creiuml en unabiblioteca llavors consulteu el Delicious drsquoaquesta biblioteca

Per exemple la Biblioteca de Catalunya autora de la LEMAC indexa en el catagraveleg amblrsquoencapccedilalament Art ndash Histograveria perograve Delicious indexa Histograveria de lrsquoart que eacutes un termemeacutes progravexim a lrsquousuari

Nomeacutes cal consultar les biblioteques drsquouniversitats que imparteixen Informa-

cioacute i Documentacioacute per adonar-se que a meacutes del catagraveleg tenen Delicious

bull Delicious de la Universitat de Barcelona CRAI (httpwwwdeliciouscom

CRAIUBreferencia)

bull Delicious de la Universidad Nacional de Educacioacuten a Distancia (UNED)

(httpdeliciouscombrelreferencia20)

bull Delicious de la Universitat Complutense de Madrid (httpdeliciouscom

bibliotecacps)

Els indexadors tenen diverses motivacions per a fer indexacioacute social ja que

obtenen diversos beneficis socials Javier Cantildeada (2006) els va classificar tal

com queda recollit en la taula que hi ha a continuacioacute

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 29 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Tipologia de motivacions de les persones a lrsquohora drsquoetiquetar

Tipus drsquoetiquetatge Benefici social Motivacioacute

Lrsquoetiquetatgeegoista etiquetar en bene-fici propi acostumen a ser etiquetes moltsignificatives per a lrsquousuari perograve no per a lacomunitat Ex ldquoper_llegirrdquo

Si les etiquetes soacuten meacutes personals es creamolt de soroll A mesura que lrsquousuari inde-xa etiquetes meacutes consistents augmenta elbenefici social

Alta per benefici propi

Lrsquoetiquetatgeamiguista etiquetar per acompartir en un grup reduiumlt (amics com-panys famiacutelia) Usen etiquetes identifica-tives dins el grup perograve desconegudes perdrsquoaltres Ex Tinet

Molt uacutetil dins el grup perograve aporta poc a laresta de comunitats

Alta per a compartir i reforccedilar el sentimentde comunitat dins un grup

Lrsquoetiquetatgealtruista etiquetar per acompartir amb tothom Srsquoescullen etique-tes generalment comprensibles i conegu-des Ex muacutesica_funky

Molt alt Eacutes la que meacutes contribueix la meacutesgenerosa

Baixa No hi ha un benefici directe associattret de la satisfaccioacute personal

Lrsquoetiquetatgepopulista etiquetar per afer una cosa meacutes atractiva i que tingui meacutesvisites Ex Molt_interessant

Cap Eacutes correu brossa (spam) Alta Qui indexa aixiacute busca un benefici direc-te i evident

Font basat en Javier Cantildeada (2006)

La indexacioacute resulta barata ragravepida fagravecil drsquousar i teacute tot lrsquoespectre possible de la

terminologia des dels termes meacutes generals fins als meacutes especiacutefics i actualitzats

(si el document tracta de Tagzania lrsquousuari lrsquoindexa Tagzania sense necessitat

que un llenguatge documental controlat lrsquohagi recollit pregraveviament)

Ara beacute lrsquoexhaustivitat no eacutes homogegravenia ja que els objectes no soacuten descrits

amb el mateix grau

bull Hi pot haver un recurs amb moltes etiquetes (exhaustivitat alta) i recursos

amb poques etiquetes (exhaustivitat baixa)

bull Hi pot haver documents indexats per a moltes persones que ens dona-

ran enfocaments diferents sobre el mateix document o hi pot haver docu-

ments sense indexar

223 Folksonomia

La indexacioacute social eacutes el proceacutes distribuiumlt en quegrave els recursos es descriuen mit-

janccedilant etiquetes El resultat agregat es coneix com a folksonomia1 que signi-

fica lsquoclassificacioacute feta pel poblersquo Soacuten sistemes simples i eficients La seva uti-

litat es deriva de la capacitat drsquoemparellar les necessitats dels usuaris amb un

vocabulari habitual No busquen la precisioacute

Les folksonomies tenen dues dimensions relacionades (Hassan Montero

2006) la personal i la colmiddotlectiva

(1)Folksonomia de lrsquoanglegraves folkso-nomy eacutes un neologisme Volk (ale-many) = lsquodel poblersquo + Taxis (grec)= lsquoordenacioacutersquo + nomia (grec) = lsquore-glesrsquo Classificacioacute feta pel poble

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 30 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

bull En la personal personomia cada usuari confecciona el seu propi iacutendex

drsquoetiquetes

bull En la colmiddotlectiva cada usuari comparteix les seves etiquetes i contribueix a

generar un iacutendex global drsquoetiquetes o folksonomia Aquest aspecte resulta

molt interessant en indexacioacute perquegrave un document descrit per cent usu-

aris amb etiquetes coincidents eacutes una indexacioacute meacutes fiable (cal entendre

recuperable) que la que faria lrsquoautor Hassan Montero parla drsquoindexacioacute per

agregacioacute

Podem classificar les folksonomies en dos grups (Hernaacutendez Quintana 2008

i Weller 2007)

bull Les folksonomies estretes o narrow que soacuten del tipus ldquoun document un

indexadorrdquo eacutes a dir nomeacutes lrsquoautor en pot etiquetar el contingut seria el

cas de Flickr

bull Les folksonomies generals o broad en quegrave un document pot ser etiquetat

per diverses persones com eacutes el cas dels marcadors socials

La tecnologia que fa possible les folksonomies srsquoactiva el 2003 amb programes

com Delicious i Flickr i tenen un augment imparable fins al 2006 moment en

quegrave aquests programes ja ofereixen opcions de clusteritzacioacute de les etiquetes

(per exemple Flickr etiquetes agrupades per categories) Tots dos soacuten propietat

de Yahoo

Reflexioacute

Lrsquoany 2010 Yahoo propietagraveria de Delicious va fer un informe en quegrave anunciava que elweb arribava a la seva posta de sol (sunsetted) Molts ho van interpretar com el tancamentdel web i la comunitat social va esclatar per por de perdre tot els marcadors que haviaguardat al Delicious La quumlestioacute es va saldar amb la revenda de Delicious a lrsquoempresa AvosSystem Com a documentalistes seria bo que hi reflexioneacutessim i que ens adoneacutessim dela indefensioacute dels usuaris davant les decisions empresarials de productes gratuiumlts comaquest La recomanacioacute dels experts eacutes que exportem els nostres marcadors en paralmiddotlela altres programes com Diigo Mr Wong

Milers de persones que indexen etiquetes representa un volum considerable

Eacutes evident que contenen molta informacioacute no solament sobre el contingut del

document en quumlestioacute sinoacute sobre els usuaris del sistema i les seves rutines de

cerca Quegrave sersquon fa de tantes etiquetes Bagravesicament hi ha dos enfocaments

1) Aprofitar tot el coneixement de les folksonomies per tal de crear meacutes conei-

xement (Navoni i Gonzaacutelez 2009)

a) Usar les folksonomies com a complement drsquoaltres sistemes drsquoindexacioacute

que exerceixi algun control sobre les etiquetes Es tracta drsquoaplicar tegravecniques

drsquoindexacioacute automagravetica a les etiquetes eacutes a dir aplicar megravetodes estadiacutestics so-

bre frequumlegravencia drsquouacutes i coocurregravencia de les paraules

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 31 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

b) Combinar les folksonomies amb sistemes controlats com ontologies Es

tractaria que un llenguatge documental controlat2 proporcioneacutes meacutes noms

drsquoetiquetes que en el mateix context serien uacutetils a lrsquoetiqueta x introduiumlda per

lrsquousuari

Per exemple lrsquousuari introdueix lrsquoetiqueta moneda i lrsquoontologia li suggereix indexar ameacutes a meacutes bancs diners encunyacioacute finances or plata riquesa

2) Millorar la qualitat de la indexacioacute Es proposen dues liacutenies

a) Sistemes de recomanacioacute drsquoetiquetes Lrsquousuari introdueix el web que vol eti-

quetar i el sistema li respon amb les etiquetes que altres usuaris han indexat en

el mateix web per si li soacuten uacutetils Drsquoaquesta manera srsquoaconsegueix un cert con-

trol sobre el vocabulari i srsquoeviten alguns casos de sinoniacutemia El suggeriment eacutes

un suggeriment lrsquousuari sempre els pot obviar Podem classificar els llocs web

que permeten la indexacioacute social en dos grups els que permeten posar etique-

tes lliurement (Flickr o Youtube) i els que les suggereixen (Delicious) Suggerir

etiquetes beneficia la recuperacioacute perquegrave augmenta la coheregravencia entre inter-

nautes perograve empobreix lrsquoespontaneiumltat de lrsquousuari (Marcos 2009)

b) Alfabetitzar lrsquousuari Soacuten diversos els autors (Hernandez Quintana 2008

Noruzzi 2006 i Spiteri 2007) que proposen alfabetitzar lrsquousuari donant-li ins-

truccions per a indexar Apunten que les folksonomies han estat un canvi en

la metodologia per la distribucioacute i descentralitzacioacute de la indexacioacute i podrien

assolir meacutes fites si srsquoorganitzeacutes la manera drsquoindexar i classificar la informacioacute

Algunes de les propostes que es fan soacuten la redaccioacute de normes sobre

bull Lrsquouacutes de substantius quantitatius i no quantitatius

bull Lrsquoelaboracioacute drsquoetiquetes compostes (per exemple amb un espai o guioacute en-

tre unitermes)

bull Lrsquoavaluacioacute de la qualitat o aplicacions de cada iacutetem

bull Lrsquouacutes drsquoenllaccedilos a diccionaris que actuiumln com a autoritats i controlin la for-

ma de lrsquoetiqueta

bull Lrsquoaddicioacute de noms personals provinents de llistes drsquoautoritats i afegir el rol

que teacute amb el concepte que srsquoetiqueta

bull Lrsquoaddicioacute de tota mena de facetes (faceted tagging) geogragravefiques (noms ge-

ogragravefics provinents de llenguatges controlats com tesaurus) de temps de

forma de gegravenere

Les propostes que fan referegravencia a copiar lrsquoetiqueta des drsquoun vocabulari con-

trolat (diccionari tesaurus o classificacioacute) soacuten les meacutes interessants i hi ha for-

ccedila articles que proposen usar la LCSH o la CDU o tesaurus perograve tambeacute hi ha

(2)Tambeacute hi hauria una sinergia po-sitiva a la inversa el llenguatge do-cumental controlat es podria be-neficiar de lrsquoaportacioacute continuada iactualitzada de vocabulari que endefinitiva eacutes el que usa lrsquousuari

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 32 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

la proposta drsquoindexar a partir dels articles de la Viquipegravedia (creats de manera

colmiddotlaborativa i amb el mateix esperit intuiumltiu de les etiquetes) com a vocabu-

lari controlat

Observacioacute

Fixeu-vos que si lrsquointernauta escull un terme suggerit vingui de la Viquipegravedia del Word-Net o drsquoun cagravelcul estadiacutestic del Delicious ja estagrave indexant de manera controlada i nolliure Amb tot el canvi no rau en la tipologia lliure respecte de la controlada sinoacuteen una tipologia nova el que en anglegraves srsquoanomena uservocabulary (o provinent de lacolmiddotlaboracioacute social) davant el controledvocabulary (vocabulari fet per professionals)

23 La recuperacioacute amb descriptors lliures

La indexacioacute amb descriptors lliures que tothom ha fet de manera individual

(persona que indexa la seva biblioteca personal) pren una altra dimensioacute quan

milers de persones fan el mateix Malgrat els inconvenients de la manca de

control sobre el vocabulari que soacuten evidents eacutes tan gran la seva aportacioacute en el

moacuten del Web que malgrat ser imperfecta resulta molt uacutetil en la recuperacioacute

Avantatges i inconvenients de la recuperacioacute amb descriptors lliures

Avantatges Inconvenients

1) La comunitat es beneficia drsquoun volum immens de documenta-cioacute mitjanament descrita La qualitat pot ser discutible perograve estagraveoperativa accessible2) Es trenca la subjectivitat drsquoun uacutenic indexador3) Els punts drsquoacceacutes soacuten meacutes diversos4) No necessita traduccioacute dels conceptes del llenguatge naturaldels documents a un llenguatge artificial5) Es tracta drsquoun tipus de llenguatge ragravepid i fagravecil drsquoactualitzar6) Srsquoadapta perfectament al nivell drsquousuaris i tipus de SID ja queeacutes un llenguatge fet a mida7) No cal una formacioacute pregravevia dels analistes Precisamentlrsquoabsegravencia de regles i principis fan innecessagraveria la formacioacute8) Indexen text perograve tambeacute imatge fixa (foto) i en moviment (viacute-deo pelmiddotliacutecula)9) Vocabulari amb autoritat drsquousuari10) El nombre drsquoindexadors augmenta la taxa de consistegravencia

1) Tots els que es deriven del llenguatge naturalbull Sinogravenimsbull Polisegravemicsbull Manca de termes relacionats que ampliiumln la cercabull Sigles o acrogravenimsbull Paraules sense significat en determinats contextos (ex la pa-

raula tuya que nomeacutes teacute significat en Botagravenica)

2)Ego-centered tag o etiquetes amb termes buits per a la comuni-tat ja que nomeacutes tenen sentit individualment3) Nivell drsquoexhaustivitat divers no tots els documents estan inde-xats amb el mateix grau

En resum

La indexacioacute social participa en les caracteriacutestiques de les llistes de descriptors lliuresen la filosofia de la indexacioacute ja que cada participant indexa uns descriptors lliuresseleccionats per un proceacutes intelmiddotlectual a partir de lrsquoexamen del recurs sense verificarsi els descriptors proposats existeixen o no en un llenguatge controlat A mesuraque han passat els anys el volum drsquoetiquetes ha permegraves anar meacutes enllagrave i crear unvocabulari de termes amb autoritat drsquousuari (user vocabulary) Sobre els seus termeses poden fer cagravelculs estadiacutestics i seleccionar les etiquetes amb la taxa de coheregravenciaentre indexadors meacutes elevada o fer clusteritzacioacute El pas seguumlent seragrave importar lesetiquetes drsquoaltres llenguatges aquesta vegada controlats com llistes drsquoautoritats (perals noms propis) tesaurus (per a noms geogragravefics) etc El Web semagraventic permet alsdescriptors lliures crear sistemes basats en llenguatge natural i lliure que de mica enmica srsquoaniran estructurant i controlant La meta eacutes un Web semagraventic amb ontologies

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 33 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

24 Activitats drsquoindexacioacute amb descriptors lliures

1) Creeu un Delicious i introduiumlu-hi deu webs que indexareu amb etiquetes

Analitzeu les etiquetes que us suggereix Delicious Soacuten les que utilitzariacuteeu o

en proposariacuteeu de noves

2) Calculeu la taxa de coheregravencia entre indexadors a Delicious

3) Creeu un compte a Tagzania o Flickr Quines opcions drsquoetiquetes us oferei-

xen

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 34 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

3 Indexacioacute automagravetica

La indexacioacute automagravetica eacutes el megravetode per al qual un ordinador aplica un

algoritme (o programa) a un document electrogravenic per tal drsquoidentificar

els termes que puguin representar la mategraveria i ser usats com a termes

drsquoindexacioacute i recuperacioacute en un iacutendex o llista

La indexacioacute automagravetica eacutes juntament amb la indexacioacute social lrsquoalternativa

meacutes viable per a indexar el Web

31 Com srsquoindexa automagraveticament

El primer pas eacutes llegir el text Per a fer-ho cal que el document es trobi en

format electrogravenic i sigui accessible Aquesta afirmacioacute tan senzilla implica

bull Deixar fora la documentacioacute audiovisual imatge fixa (fotografies) o en

moviment (viacutedeo) que habitualment no va acompanyada de text

bull Tambeacute en queda fora tota la documentacioacute que pertanyi a intranets (on cal

contrasenya) i tota la que es generi dinagravemicament (continguda en bases de

dades) el que coneixem com a internet invisible i que es calcula que supera

en cinc vegades el Web visible

Despreacutes es prenen tot un seguit de decisions

1) El document electrogravenic pot ser un text pla amb algun camp tipus resum i

paraules clau o pot estar estructurat amb metadades tant per al contingut com

per a la forma Caldecidirsielprogramasrsquoaplicaragraveeneltextcompletoen

campsdeterminatsdeldocument per exemple nomeacutes en el camp paraules

clau La qualitat del resultat seragrave molt diferent en un cas o en un altre en el

primer cas seragrave el programa que amb cagravelculs estadiacutestics seleccionaragrave les parau-

les meacutes representatives ndashper repetidesndash del text mentre que en el segon cas els

termes drsquoindexacioacute ja han estat seleccionats per un proceacutes intelmiddotlectual

Indexacioacute automagravetica

La indexacioacute automagravetica eacutes unllenguatge natural lliure post-coordinat alfabegravetic i analiacuteticper a paraules clau

Recordem que les metadades soacuten dades formalitzades i que soacuten una peccedila clau del Websemagraventic juntament amb el llenguatge XML i el format RDF

2)Quegravesrsquohadeferambelstermesquecontenennombressignesdepun-

tuacioacuteguionsmajuacutesculesminuacutesculesiaccents Habitualment soacuten caragravec-

ters que no aporten significat perograve que en determinats contextos poden ser

determinants

Observacioacute

LrsquoXML eacutes un llenguatge queteacute les propietats de lrsquoHTML i lapossibilitat drsquoincloure en el ni-vell de codi una infraestructurade metadades que expliciti lainformacioacute del recurs

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 35 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Nombre N2 TV1

Punts guions signes (wwwuocedu) Fonts_Informacioacute (eacutes una etiqueta progravepia de Deli-cious)

Accents (uacutetils per a diferenciar diacriacutetics) en catalagrave osoacutes en castellagrave teteacute

3)Quegrave srsquohade feramb lesparaulesbuides (articles pronoms preposici-

ons conjuncions adverbis numerals) Soacuten paraules molt frequumlents perograve que

aporten poc valor de contingut Es coneixen com a llistes de paraules buides

en catalagrave listas de detencioacuten en castellagrave i stopword list en anglegraves Els progra-

mes drsquoindexacioacute automagravetica tenen un fitxer amb les paraules buides que han

drsquoobviar Ara beacute aquest fitxer pot estar implementat de tres maneres diferents

a) Predeterminat El sistema disposa de bon comenccedilament de la llista de pa-

raules buides del seu idioma o idiomes De fet la seva realitzacioacute eacutes fagravecil ja

que nomeacutes cal afegir les categories buides drsquouna base de dades de terminolo-

gia en lrsquoidioma volgut Els articles sempre soacuten els mateixos les conjuncions

tambeacute fins i tot els verbs es poden arribar a comptabilitzar i flexionar en tots

els temps verbals

b) Contextualitzat (stop word context-dependent) Cada sistema elabora la llista

de paraules buides segons el seu agravembit temagravetic Contextualitzar la llista permet

evitar dos inconvenients greus

bull Paraules amb significat que esdevenen buides

En un centre especialitzat en medicina de lrsquoesport tots els documents faran referegravencia amedicina de lrsquoesport i per tant aquesta paraula seragrave buida en aquell context

bull Paraules buides que esdevenen importants en la indexacioacute

En un text drsquohistograveria els nombres (1319-1387) numerals (Pere III) i els adjectius podentenir molta cagraverrega significativa (el Cerimonioacutes) En aquest exemple podem veure quePere III el Cerimonioacutes 1319-1387 podria quedar indexat com a Pere si no es mantenenalgunes paraules buides

c) Evitat expressament per a possibilitar al sistema la cerca per frases i sintag-

mes

Per a recuperar un concepte com el nom del diari El Paiacutes en el qual lrsquoarticle teacute

un paper important Els sistemes que els eviten disposen drsquoaltres eines per a

reduir significativament el nombre de paraules indexades com per exemple

tegravecniques de stemming o lematitzacioacute En aquest sentit meacutes endavant parlarem

dels marcadors discursius on veurem com paraules en principi buides ajuden

molt en la decisioacute de quins termes seleccionar

4)Aplicarmegravetodesestadiacutestics Un cop eliminades les paraules buides ens

queda un conjunt drsquounitermes amb significat perograve aixiacute i tot el nombre pot

ser molt elevat El pas seguumlent consisteix a seleccionar les de meacutes rellevagravencia

Observacioacute

LrsquoRDF eacutes un marc de descrip-cioacute de recursos (resource des-cription framework RDF) per ametadades desenvolupat pelWorld Wide Web Consortium(W3C)

Exemple de metadades

Feu clic a la icona Indizacioacutende la base de dades de revis-tes de la Universitat de Muacuterciahttprevistasumes

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 36 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

en la descripcioacute del document Aquest pas es resol aplicant diversos megravetodes

estadiacutestics (o linguumliacutestics i semagraventics que veurem meacutes endavant) beacute en un ordre

sequumlencial beacute alternant els megravetodes

Els megravetodes estadiacutestics han estat la primera aproximacioacute a la indexacioacute auto-

magravetica i encara avui en dia en soacuten una part consubstancial La teoria de fons

eacutes el cagravelcul del pes (ponderacioacute) de les paraules ni les paraules meacutes repetides

(per buides) ni les menys repetides (per especiacutefiques) soacuten adequades per a ser

seleccionades Els megravetodes estadiacutestics aplicats en PLN soacuten de tres tipus (es po-

den usar sols o en combinacioacute)

PLN

El processament del llenguatge natural (PLN o NLP del seu nom en anglegraves natural langua-ge processing) eacutes la disciplina informagravetica que srsquoencarrega de tractar computacionalmentles llenguumles naturals o llenguatges humans

Les principals aplicacions o agraverees de treball del PLN en lrsquoactualitat soacuten les seguumlents

bull Recuperacioacute de la informacioacutebull Extraccioacute de la informacioacutebull Cerca de respostesbull Traduccioacute automagraveticabull Generacioacute de resumsbull Reconeixement de la parla

a)Frequumlegravencia Hans Meter Luhn (1957) aplica la llei de Zipf al camp de la

indexacioacute automagravetica Luhn proposa els passos seguumlents calcular la frequumlegraven-

cia de totes les paraules del text o colmiddotleccioacute Ordenar-les en ordre decreixent

Eliminar les de frequumlegravencia meacutes alta Eliminar les de frequumlegravencia meacutes baixa In-

dexar amb la resta

b)Frequumlegravenciainversa Sparck Jones (1972) va posar de manifest la capacitat

de discriminacioacute drsquoun terme enfront drsquoun altre Aquesta discriminacioacute ha de

ser vista en el conjunt de la colmiddotleccioacute no en un sol document Cal comparar

les paraules clau entre els documents del fons per detectar quines soacuten realment

discriminatives

c)Discriminacioacute G Salton (1989) a partir de la idea que les paraules drsquoun

text es classifiquen segons la seva capacitat per a discriminar uns documents

dels altres en una colmiddotleccioacute va idear un sistema drsquoindexacioacute conegut com el

modeldevalordediscriminacioacute que atribueix el pes o valor meacutes alt a aquells

termes que causen la magravexima separacioacute possible entre els documents drsquouna

colmiddotleccioacute Eacutes a dir el valor drsquoun terme depegraven de com varia la separacioacute mitjana

entre els documents Per tant les millors paraules soacuten les que aconsegueixen la

distagravencia meacutes gran Lrsquoanagravelisi del valordediscriminacioacute consigna una funcioacute

especiacutefica en lrsquoanagravelisi de contingut a les paraules simples a les juxtaposades

a les frases i a grups de paraules

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 37 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

5)Megravetodeslinguumliacutestics Els primers analitzadors linguumliacutestics soacuten de les degravecades

de 1960 i 1970 La seva aportacioacute a lrsquoanagravelisi del contingut eacutes cabdal ja que

permeten analitzar el text en tres nivells de profunditat paraula frase i text

Cadascun drsquoaquests nivells eacutes analitzat per mograveduls del programa basats en

diferents disciplines

Paraula Morfologia

Paraula dins la frase Sintaxi

Paraula dins el text Semagraventica

Amb aquestes operacions srsquoaconsegueix un fitxer invers en quegrave consten els

unitermes i els documents en quegrave apareixen Cada uniterme va associat a un

document i a una posicioacute dins el document (per exemple al tiacutetol)

6)Megravetodessemagraventics La semagraventica eacutes la ciegravencia que estudia el significat de

les paraules i eacutes una peccedila clau dins el PLN i el Web semagraventic valgui la redun-

dagravencia Algunes de les propostes soacuten els marcadors discursius i la participacioacute

de llenguatges controlats en tasques drsquoindexacioacute automagravetica

a)Elsmarcadorsdiscursius

El PLN encara eacutes lluny drsquooferir sistemes capaccedilos drsquoentendre semagraventicament

un text com ho faria una persona perograve estagrave treballant en una liacutenia molt in-

teressant que soacuten els marcadors discursius Es tracta de dotar lrsquoalgoritme del

robot de les relacions semagraventiques que es deriven de cinc grups de marcadors

i drsquoaquiacute inferir un coneixement

Els marcadors discursius soacuten unitats linguumliacutestiques invariables per la qual cosa

soacuten automatitzables Els cinc grans grups soacuten els marcadors (Portoleacutes)

Exemples drsquoalguns marcadors discursius

Marcadors Exemples

Estructuradorsdelainformacioacute Primer segonDrsquouna banda de lrsquoaltraDespreacutes llavors

Connectors Fins i tot eacutes meacutesAixiacute doncs per tantTot i aixiacute emperograve

Reformuladors Eacutes a dir a saber en altres termesEn tot cas en qualsevol cas

Operadorsargumentadors En realitat en el fonsEn concret en particular

Marcadorsconversacionals Naturalment sens dubteVeritat Eh

Lectura complementagraveria

Per a meacutes informacioacute sobrecada marcador discursiu po-deu consultar el Diccionariode partiacuteculas discursivas del es-pantildeol de Briz Pons Portoleacutes(httptextodigitalcomPDDPD)

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 38 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Un dels marcadors estructuradors soacuten els marcadors ordenadors que agrupen diversosiacutetems com si fossin parts drsquoun de sol com ara

bull Numegravericament primer segonbull En lrsquoespai drsquouna banda de lrsquoaltrabull En el temps despreacutes llavors a la fi

Si el programa teacute aquests marcadors podragrave inferir un discurs meacutes elaborat a

partir del document i controlaragrave millor les parts discursives (introduccioacute cos

conclusions) i les parts orgagraveniques del text

El programa mantindragrave unit el conjunt drsquoiacutetems que drsquouna manera o drsquouna

altra estaven ordenats amb els marcadors anteriors

Aixiacute si el text deia ldquoprimer Namiacutebia segon Veneccediluela tercer Nepalrdquo el programa inde-xaragrave els tres noms i no un i prou i els mantindragrave relacionats

Si el text deia ldquo[] el que investigava en el fons era el sodirdquo el programa detectaragrave unmarcador argumentador (en el fons) i indexaragrave la primera paraula amb significat que vagidarrere (sodi)

Observacioacute

Fixeu-vos que qualsevol drsquoaquests marcadors discursius es podria haver catalogat comuna paraula buida ja que soacuten adjectius conjuncions i adverbis i el programa hauriaperdut una informacioacute molt valuosa a lrsquohora de mantenir indexades parts del text

b)Laparticipacioacutedellenguatgedocumentalcontrolat

Es tracta drsquouna indexacioacute semiautomagravetica a diferegravencia de les anteriors pura-

ment automagravetiques

El funcionament a grans trets consisteix en el fet que el robot detecta

les paraules meacutes significatives del document i les compara amb un vo-

cabulari controlat com un tesaurus o algun tipus de classificacioacute que a

partir de les seves referegravencies proposa un terme controlat per indexar

En alguns sistemes aquest darrer pas eacutes automagravetic i en drsquoaltres eacutes una persona

qui valida la decisioacute De sistemes semiautomagravetics de categoritzacioacute nrsquohi ha de

tres tipus

bull Categoritzacioacute basada en regles

bull Basada en lrsquoaprenentatge automagravetic a partir de documents exemplars

bull Combinacioacute dels models anteriors Eacutes lrsquoopcioacute que meacutes bons resultats doacute-

na perograve cal dedicar un temps al disseny de les regles i lrsquoentrenament de

documents exemplars

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 39 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

7) La indexacioacute automagravetica no eacutes tan sols una manera drsquoindexar i per tant

un llenguatge documental en si sinoacute que tambeacuteeacutesunaaplicacioacute de la qual

tots els llenguatges documentals es beneficien

Al llarg de cada llenguatge srsquoha tractat com lrsquoautomatitzacioacute dels processos

drsquoindexacioacute i recuperacioacute pot agilitar tot el proceacutes Aixiacute hem vist com es pot

classificar de manera automagravetica o semiautomagravetica com es pot descompondre

un encapccedilalament de mategraveria controlat en una successioacute de paraules clau com

es poden crear tesaurus o indexar amb un tesaurus de manera automatitzada

el paper rellevant de les etiquetes i els cagravelculs estadiacutestics que srsquohi poden fer per

suggerir etiquetes noves

De cara al futur el meacutes interessant eacutes veure com els llenguatges documentals

meacutes potents i tambeacute meacutes experimentats estan al dia del Web semagraventic i ja els

tenim en format SKOS

bull Ex CDU en SKOS (httpwwwudccorgudcsummaryexportshtm)

bull LCSH en SKOS (httpidlocgovtechcentermetadatahtml)

bull la classificacioacute Dewey (httpoclcorgdeveloperdocumentationdewey-

web-servicesusing-api)

32 La recuperacioacute drsquoinformacioacute indexada automagraveticament

321 Cercadors

Al Web srsquohi pot cercar de dues maneres navegant o amb cercadors Eacutes a dir

podem arribar a trobar una dada saltant drsquouna pagravegina a una altra pels enllaccedilos

o beacute posant els termes que volem en una caixeta drsquoun buscador El primer siste-

ma no implica cap tasca drsquoindexacioacute el segon siacute i eacutes una indexacioacute automagravetica

Els algoritmesdelscercadors comparen la paraula de la cerca amb les paraules

contingudes en els textos de la seva base de dades Funciona beacute per a textos

perograve no per a material gragravefic i audiovisual que no porti text o peu de fotografia

Lrsquousuari teacute la sensacioacute que el cercador rastreja tota el Web buscant els termes

que ha demanat com si fos en temps real perograve aixograve eacutes una ilmiddotlusioacute perquegrave

seria mecagravenicament impossible (milers drsquousuaris cercant en paralmiddotlel al Google

i rebent respostes en temps real) En realitat els cercadors no rastregen el Web

en el moment de la consulta sinoacute en el moment de la indexacioacute Rastregen i

creen els seus fitxers inversos que es van actualitzant

Exemple

Lrsquoautor drsquoun blog penja unapunt sobre unes vacances aSiciacutelia Lrsquoautor no ha indexatel contingut de lrsquoarticle perogravenosaltres hi podem arribar beacutesaltant drsquouna pagravegina que teniaenllaccedilada o beacute buscant al Go-ogle

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 40 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Quan lrsquousuari fa una cerca el programa no consulta el Web sinoacute la seva

base de dades del fitxer invers per aixograve la cerca es resol en segons

La indexacioacute automagravetica no planteja gaires problemes tret drsquoun que eacutes en

quin ordre presenta els milers de resultats que troba Les solucions han anat

evolucionant en el temps primer eren els documents que contenien els ter-

mes despreacutes les cerques acotades amb els operadors booleans despreacutes Google

introdueix el concepte de rellevagravencia de la font en funcioacute dels enllaccedilos que teacute i

que rep eacutes a dir ja no eacutes solament la qualitat interna de la font sinoacute tambeacute

la qualitat externa que li atribueixen altres fonts

322 Recuperacioacute en un web estructurat

La recuperacioacute tal com lrsquoentenem avui en dia patiragrave una revolucioacute per lrsquouacutes

drsquoontologies i els motors drsquoinferegravencia

El futur es presenta meacutes enfocat cap a les cerques en context meacutes apropiades

per a aquests nous usuaris-editors-documentalistes Es preteacuten usar les metada-

des per a fer cagravelculs sobre la rellevagravencia del Web la navegacioacute per facetes (per

lloc temps forma o qualsevol altra faceta progravepia drsquoun tema) cercar per foacuter-

mules que altres usuaris hagin usat reiteradament

Com diu Mendez citant Witten Gori i Numerico anem cap a una ldquodi-

versitat descentralitzadardquo en quegrave interrogarem el Web de diverses ma-

neres i en quegrave coexisteixen amb una anarquia organitzada de dades

entrellaccedilades (documents opinions relacions etc)

Un dels avantatges de les metadades eacutes a dir de partir de documents estruc-

turats eacutes que lrsquousuari podragrave cercar al Web com cerca en una base de dades

percamps

Aixograve significaragrave que podragrave acotar la cerca per exemple demanant documents en quegrave esparli de Bedrich Smetana com a tema i no recuperar tota lrsquoobra drsquoaquest muacutesic (equivaldriaa un catagraveleg demanar Bedrich Smetana com a mategraveria o Bedrich Smetana com a autor)

Una altra aplicacioacute soacuten els sistemesdecercaderespostes que respondran

directament a la pregunta no oferiran un conjunt de documents en quegrave apa-

regui el terme de la consulta sinoacute que sortiragrave directament el fragment amb

la resposta

Des del punt de vista de la recuperacioacute i llenguatges documentals soacuten interes-

sants dues tegravecniques drsquoaquesta ldquodiversitat descentralitzadardquo que soacuten els vo-

cabularis postcontrolats i les tegravecniques de clusteritzacioacute Totes dues tegravecniques

parteixen drsquoun vocabulari lliure que el programa acabaragrave per controlar

Observacioacute

Fixeu-vos que eacutes el mateix cri-teri drsquoavaluacioacute de la quali-tat que es fa amb les publica-cions periogravediques i el factordrsquoimpacte com el JCR drsquoISIweb of knowledge In-recsRESH etc

Estadiacutestiques de buscadors

Els tres buscadors meacutes usatssegons les estadiacutestiques soacutenper ordre Google Yahoo iBing (AOL ho eacutes a Amegraverica)

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 41 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

1)Elsvocabularispostcontrolats (Lancaster) Es constata que els usuaris fan

cerques curtes drsquoun o dos termes que bolquen molts resultats Lrsquousuari no fa

cerques llargues i elaborades amb operadors booleans perograve els cercadors poden

emmagatzemar les cerques drsquoaltres usuaris i suggerir a lrsquousuari que busqui per

aquest concepte i aquest altre Drsquoalguna manera el cercador estagrave indexant la

pregunta i guarda la foacutermula per a altres usuaris El vocabulari eacutes lliure perograve

el robot el controla

Exemple

Els usuaris acostumen a demanar monovolums perograve el programa ha emmagatzemat lafoacutermula (Monovolums) and (Seat or Volkswagen or Nissan) que recuperaragrave de manerameacutes exhaustiva De fet el programa estagrave recollint els TE i TR (termes especiacutefics i termesrelacionats) de monovolums

2)Sistemesdecluacutesters La clusteritzacioacute de dades eacutes una tegravecnica molt comuna

en lrsquoanagravelisi estadiacutestica de dades Bagravesicament eacutes la classificacioacute drsquoobjectes simi-

lars en diferents grups Els cluacutesters soacuten carpetes classificades segons la coapa-

ricioacute dels termes en el text Se suposa que com meacutes sovint apareguin junts els

termes drsquoun tema determinat meacutes probable seragrave que els seus significats esti-

guin relacionats El programa presenta les carpetes o els cluacutesters en quegrave apareix

el tema que es busca aixiacute lrsquousuari pot escollir lrsquoenfocament que li interessi meacutes

Exemple

Un usuari busca el terme llista de paraules buides al cercador yippy (httpsearchyippycom) i aquest doacutena noranta registres classificats en deu carpetes inicials (al-gunes carpetes srsquoobren) perquegrave lrsquousuari esculli Search My SQL Manual Tools Downlo-ad etc En aquest cas el programa ha sintetitzat el contingut dels resultats en forma detaxonomia

323 Web semagraventic indexacioacute i recuperacioacute

El Web semagraventic eacutes un conjunt drsquoiniciatives destinades a promoure un

futur Web amb pagravegines organitzades estructurades i codificades de tal

manera que els ordinadors siguin capaccedilos drsquoefectuar inferegravencies i raonar

a partir dels seus continguts

Seragrave una granbasededades capaccedil de suportar un processament sistemagravetic i

coherent de la informacioacute (Codina Pedraza 2007)

El Web semagraventic es basa en un llenguatge XML i uns formats comuns (RDF)

que permeten la interoperatibilitat (linked data) amb independegravencia de la pla-

taforma des de la qual es treballi

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 42 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

La indexacioacute al Web semagraventic es fonamentaragrave en la informacioacute estructurada

els recursos web estaran descrits eacutes a dir indexats en forma i contingut amb

metadades (que poden haver estat generades manualment o automagraveticament)

se cercaragrave amb agents intelmiddotligents que srsquoadaptaran a la nostra situacioacute i els

termes drsquoindexacioacute srsquointerrelacionaran a partir drsquoontologies

Sembla que el meacutes sensat eacutes pensar que la indexacioacute al Web semagraventic consistiragrave

en una combinacioacute de tots els sistemes actuals aixiacute

bull Es continuaragrave indexant de manera intelmiddotlectual amb llenguatges controlats

(classificacions encapccedilalaments de mategraveria autoritats i tesaurus) les fonts

drsquoinformacioacute prou valuoses perquegrave el resultat no estigui condicionat per

la inversioacute econogravemica Per exemple bases de dades drsquoarticles en ciegravencies

de la salut com ara MESH

bull Lrsquouacutes de vocabularis controlats altament formalitzats i un PLN cada cop

meacutes potent propiciaran la implementacioacute drsquoontologies Es crearan onto-

logies automagraveticament i manualment i srsquoindexaragrave automagraveticament i ma-

nualment a partir drsquoontologies

bull Srsquoindexaragrave de manera semiautomagravetica o semiassistida la gran majoria del

Web que per la seva mida no albira altres possibilitats I srsquoespera que ca-

da cop meacutes els documents electrogravenics vinguin de segraverie amb metadades

Aquestes metadades al seu torn poden haver estat generades de manera

intelmiddotlectual o per un robot automagravetic

bull Srsquoindexaragrave socialment amb llenguatges lliures com els descriptors lliures

o etiquetes sobretot la informacioacute audiovisual que no eacutes fagravecilment inde-

xable de manera automagravetica per no portar text En aquest sentit srsquoestagrave in-

vestigant en robots que reconeguin formes simples en les imatges de tota

manera fins que no siguin una realitat la millor opcioacute soacuten les etiquetes

dels internautes

Un cas interessant els wikis i les ontologies

Podem trobar dos enfocaments el que considera un wiki una ontologia en la qual lespagravegines soacuten tractades com a conceptes i els enllaccedilos que en surten i hi van es considerenrelacions A mesura que es crea el wiki es crea lrsquoontologia I el segon enfocament queparteix de lrsquoexistegravencia pregravevia drsquouna ontologia a partir de la qual etiqueta semagraventicamentles pagravegines i relacions del wiki

La recuperacioacute en el Web semagraventic consistiragrave com diu Berners-Lee no

en una intelmiddotligegravencia artificial magravegica que permeti als ordinadors enten-

dre les paraules dels usuaris sinoacute en lrsquohabilitat drsquouna magravequina per a re-

soldre problemes ben definits a partir drsquooperacions ben definides que

es duran a terme sobre dades ben definides (W3C 1999)

Webs recomanats

Buscador al Web semagraventichttpswoogleumbceduSobre metadades httpcawikipediaorgwikiMeta-dades

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia

CC-BY-NC-ND bull PID_00193277 43 Tesaurus llista de descriptors lliures i indexacioacute automagravetica

Bibliografia

Manuals i articles de revista

AENOR (1990) Documentacioacuten Directrices para el establecimiento y desarrollo de tesauros mo-nolinguumles

AENOR (1996) UNE-50-125 (ISO 5964-1985) Documentacioacuten Directrices para la creacioacuten ydesarrollo de tesaurus multilinguumles

Aitchison J Gilchrist A Bawden D (2000) Thesaurus construction and use a practicalmanual (4a ed) Chicago Fitzroy Dearborn

Bonilla S (2007) ldquoWeb Semaacutentica y Agentes Metarrepresentacionales basados en Marca-dores Discursivosrdquo [en liacutenia] Hipertextnet (nuacutem 5) lthttpwwwhipertextnetgt

Cantildeada J (2006) Tipologiacuteas y estilos en el etiquetado social [en liacutenia] lthttpwwwterremotonettipologias-y-estlos-en-el-etiquetado-socialgt

Codina L Marcos M C Pedraza R (2009) Web semaacutentica y sistemas de informacioacutendocumental Gijoacuten Trea

Curraacutes Emilia (2005) Ontologiacuteas taxonomiacutea y tesauros manual de construccioacuten y uso GijoacutenTrea

Goacutemez Diacuteaz Raquel (2005) La lematizacioacuten en espantildeol una aplicacioacuten para la recuperacioacutende informacioacuten Gijoacuten Trea

Knautz Kathrin Stock Wolfgang G (2010) ldquoCollective indexing of emotions in vi-deosrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 975-994)

Lancaster F Wilfrid (2002) El control del vocabulario en la recuperacioacuten de informacioacutenValegravencia Universitat de Valegravencia

Naumis C (2007) Los tesauros documentales y su aplicacioacuten en la informacioacuten impresa digitaly multimedia Megravexic Alfagrama

Noruzzi Allreza (2006) ldquoFolksonomies (un)controlled vocabularyrdquo A Knowledge Orga-nization (vol 33 nuacutem 4 pagraveg 199-203)

Ransom N Rafferty P (2011) ldquoFacets of user-assigned tags and their effectiveness inimage retrievalrdquo Journal of Documentation (vol 67 nuacutem 6 pagraveg 1038-1066)

Slype van G (1991) Los lenguajes de indizacioacuten concepcioacuten construccioacuten y utilizacioacuten en lossistemas documentales Madrid Piraacutemide Fundacioacuten Germaacuten Saacutenchez Ruipeacuterez (ldquoBibliotecadel Librordquo)

Spiteri Louise (2007 setembre) ldquoThe structure and form and folksonomy tags the roadto the public library cataloguerdquo Information Technology and Library

Trant Jennifer (2009) ldquoStudying Social Tagging and Folksonomy A Review andFrameworkrdquo [en liacutenia] Journal of Digital Information (vol 10 nuacutem 1) lt httpdlistsirarizonaedu2595gt

  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia
  • Tesaurus llista de descriptors lliures i indexacioacute automagravetica
    • Introduccioacute
    • Objectius
    • Iacutendex
    • 1 Indexacioacute i recuperacioacute amb tesaurus
      • 11 Tesaurus al Web
      • 12 Com srsquoindexa amb un tesaurus
      • 13 Creacioacute drsquoun tesaurus
      • 14 Recuperacioacute amb tesaurus
        • 141 Proceacutes de cerca amb un tesaurus
          • 15 Activitats
            • 151 Indexacioacute del contingut drsquoarticles
            • 152 Construccioacute manual i automagravetica de tesaurus
            • 153 Recuperacioacute amb tesaurus
              • 16 Solucioacute
                • 161 Indexacioacute drsquoarticles
                • 162 Construccioacute manual i automagravetica de tesaurus
                    • 2 Indexacioacute amb llistes de descriptors lliures etiquetes i indexacioacute social
                      • 21 Descriptors lliures al Web
                      • 22 Etiquetes i indexacioacute social
                        • 221 Etiquetes
                        • 222 Indexacioacute social
                        • 223 Folksonomia
                          • 23 La recuperacioacute amb descriptors lliures
                          • 24 Activitats drsquoindexacioacute amb descriptors lliures
                            • 3 Indexacioacute automagravetica
                              • 31 Com srsquoindexa automagraveticament
                              • 32 La recuperacioacute drsquoinformacioacute indexada automagraveticament
                                • 321 Cercadors
                                • 322 Recuperacioacute en un web estructurat
                                • 323 Web semagraventic indexacioacute i recuperacioacute
                                    • Bibliografia