Download - SEA AnalisisTextual
-
7/23/2019 SEA AnalisisTextual
1/48
Minera de textos
ydatos para-textuales
Universitat Autnoma de Barcelona
SEA
2 de febrero 200
Mnica Bcue Bertaut
Universitat Politcnica de Catalunya
-
7/23/2019 SEA AnalisisTextual
2/48
!ndice"
#$ !ntroduccin
2$ M%todos de an&lisis$ 'odificacin y distancia
($ )rimer e*emplo" evaluacin de un productomediante una nota y comentarios abiertos
+$ Se,undo e*emplo" clasificacin de losentrevistados a partir de sus pre,untas cerradas yabiertas
Minera de textos y datos para-textuales
-
7/23/2019 SEA AnalisisTextual
3/48
Minera de textos y datos para-textuales
La minera de textos analiza textos en lengua naturalmediante procedimientos automticos para!
"extraer los temas
"determinar la estructura de un texto! localizacin delas rupturas#
"visualizar la proximidad entre documentos y$o entretrminos
"indexarles documentos %multi-indexacin&
"construir 'ases de documentos para unainterrogacin automticaposterior
"#
#$ !ntroduccin"
-
7/23/2019 SEA AnalisisTextual
4/48
Bs.ueda de informacin B! versusExtraccin de informacin E!
" B!! tratamiento glo'al de un gran n(mero dedocumentos) '(s*ueda de temas) construccinde una tipologa de los documentos
" E!! '(s*ueda de in+ormacin ,ci'lada) paraalimentar una 'ase de datos estructurada%relleno automtico de los campos de la 'ase&
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
5/48
Estadstica l%xica/ exicometra y
estadstica textual/ Minera de textosMedida del voca'ulario! recuento de las pala'ras
Minera de textos y .stadstica textual
" .stadstica lxica %Muller) La'') /olmes&0.structura de un texto o de una o'ra0 1nlisisde textos clsicos0 Modelos de urnas0
" .l corpus visto como una ta'la de
+recuencias %20P0 Benzcri) L0 Le'art&0 Mtodosmultidimensionales
"Ms recientemente) mtodos de data mining)
como L34) 35M) Mar6et 'as6et analysis
-
7/23/2019 SEA AnalisisTextual
6/48
1ipos de textos analiados
".ncuestas de opinin
".ncuestas de satis+accin de clientela
".ntrevistas semi-a'iertas en estudios de clientela"7evistas de prensa
"5igilia tecnolgica! res(menes de artculos
contenidos en las 'ases cient+icas) patentes) #
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
7/48
Minera de textos y datos
8extos e in+ormacin complementaria".ncuestas! preguntas a'iertas 3preguntascerradas
"ms generalmente) textos acompa9ados de unain+ormacin complementaria ,cerrada
- gua de vinos! comentarios 3nota dada al vino - sentencias de tri'unal! texto de la sentencia 3+ec:a) ;uez-ponente)delito
Mtodos *ue analizan simultneamente los textosy la in+ormacin cerrada
-
7/23/2019 SEA AnalisisTextual
8/48
=0 Mtodos de anlisis>os puntos importantes!
" la codi+icacin! se de'e sa'er cmo se
codi+ica el corpus %algunas veces) el so+t?areopera una codi+icacin parcialmentetransparente para el usuario&
"el papel +undamental de la distanciaescogidaen el anlisis estadstico de textos0 >istanciaentre *ue elementos %entrevistados) categoras
de entrevistados) pala'ras) etc0&
Minera de textos y datos
-
7/23/2019 SEA AnalisisTextual
9/48
4ndividuos$textos
'odificacin del corpus" tabla l%xica
4ariable textual
pal# palt2
kij
La codi+icacin trans+orma elcorpus en una ta'la *ue se
puede analizar mediantemtodos estadsticos
Minera de textos y datos
-
7/23/2019 SEA AnalisisTextual
10/48
Utilizar la in+ormacin cerrada
4ndividuos
!nformation a analiar" 5cu&l es la parteactiva6 5cu&l es la parte
suplementaria6
5aria'lescuantitativas5aria'les
textuales
5aria'lescualitativas
1abla mixta
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
11/48
1
2
1
a codificacin esco,ida tiene una incidencia
sobre la distancia
5A partir de .ueinformacin se
calcula la distancia6A partir
"de las pala'ras)
"de los lemas
"de las pala'ras y delas preguntas cerradas
@Cul es la distancia
escogidaA
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
12/48
7epresentacin gr+ica !
1nlisis de correspondencias
8ipologa de documentos!
Clasi+icacin
8ipologa a partir de ta'las m(ltipes!
1nlisis +actorial m(ltiple y clasi+icacin
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
13/48
".n+o*ue geomtrico *ue visualiza lasproximidades entre +ilas) las proximidades entrecolumnas) y las interrelaciones
$
$
$
$
$$
i
D
=
E
D
=
6
$
$ $
$
$
$
$
$
$
$
Minera de textos y .stadstica textual
1nlisis de correspondencias
-
7/23/2019 SEA AnalisisTextual
14/48
"ormacin de clases :omogneas
Clasi+icacin
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
15/48
Primer e;emplo!.valuacin de vinos mediante notas y
comentarios
-
7/23/2019 SEA AnalisisTextual
16/48
Castilla y Len
F denominaciones!
Bierzo, Cigales, Ribera del Duero, Rueda, Toro
Minera de textos y .stadstica textual
Mi d t t . t d ti t t l
-
7/23/2019 SEA AnalisisTextual
17/48
---- 7ote880 Valdelosfriales-20032oven tpico) con notas de tempranillo y 'alsmicosG en 'oca ama'le y +rutoso0
---- Note=91 Tares P3-2001 premiumMuc:o terru9o se detecta en el 'ou*uet de este gran tintoG plvora) slex) pizarra)casca;o caliente con el contraste de tierra :(meda y muc:a +ruta madura de:ueso0 concentrado) tacto graso so're el paladarG impresionante viscosidad en lalengua) otra vez impresiones de tierra :(meda y plvora en el largo +inal0
Minera de textos y .stadstica textual
E*emplo" ,ua de vinos de 'astilla y en
-
7/23/2019 SEA AnalisisTextual
18/48
9oble ob*etivo
" Estudiar la relacin entre la nota y la evaluacin en forma decomentario libre
" Si esta relacin existe/ sera posi'le construir un nuevo score *uetenga en cuenta a la vez la nota y los comentarios %mediante elrecuenta de las pala'ras utilizadas&A
Pro'lemtica similar a la a'ordada por los mtodos multicannicos! 'uscar la%s&varia'le%s& general%es& *ue constituye la me;or sntesis de varios grupos devaria'les
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
19/48
Mtodo dere+erencia! 1C
Mtode dere+erencia! 1CP
1abla a analiar
rupo textual Jf columnas rupo notas Jc columnas
Minera de textos y .stadstica textual
Mi d t t . t d ti t t l
-
7/23/2019 SEA AnalisisTextual
20/48
1abla l%xica activa
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
21/48
7ota y commentarios activosMinera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
22/48
Minera de textos y .stadstica textual
A )A:1!: 9E A;U >S 4!7>S 1!71>S
-
7/23/2019 SEA AnalisisTextual
23/48
7ota y commentarios activos
Minera de textos y .stadstica textual
HIHI
HJHJ
-($0 -#$? #$?
-#$?
#$?
($0
+$?
@$0
Mesoneros de Castilla %KJ&
8orondos %K=&
5aldelos+railes %KJ&
uentenarro %K=&
Bayu'ar %K=&
5aldetn %K=&
Carramim're %KJ&
5i9a .remos %KJ&
Mar*us de Pe9amonte %KD&
ILIL
IHIH
LKLK
LDLD L=L= LJLJLL LFLF LNLN
LILILHLH
LLLL HKHK HDHD H=H=
HH
HFHF
Axis 2 " #$?
Axis #" ($?2
aros 'Cafandn D0#
1ares )( D0#1ermantCia D02
San :om&n D0#7umantCia D02
Fran Elas Mora D00
Bienvenida Sitio de El )alo D0#Bienvenida Sitio de El )alo D02
4e,a Sicilia GHnicoG DI+4iJa Sastre )esusD0#
Kirst )rincipal )laneL!7ES MA:NS
Tinto joven
Gran Reserva
Tinto rian!a
Tinto reservaTinto ro"le
.;e de calidad
-
7/23/2019 SEA AnalisisTextual
24/48
-#$0 -0$? 0 0$? #$0
-K0IF
K0IF
D0FK
=0=Ftempranillo
tiempo
e*uili'rio
intensidad
estructuraconcentracin
n vinociruela
paladararomatinto
cuerpo
cuero
madurez mineralestilococo
tacto
vezpotencial
plvora
torre+acto
casca;o
ro'le
consistencia
crianzase*uedad
7i'erapaso
recuerdo acidez
+rutosidadexpresi n
so'remadurez capatuestes
gominola
+ondo
tierra zumo
cenizagrosella
ca+ :ier'aO'os*ue
montecarne
slexc:ocolate
'ou*uet
Kirst )rincipal )lane7>U7S
Axis 2 " #$?
+rutillos
Axis #" ($?2
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
25/48
-D0FK -K0IF K0IF
-K0IF
K
K0IF
D0FK
=0=F
tpico
;oven
ama'le
corto
:er'ceo+cil precioso
tradicional
+rutalligero
limpioamericano
+ranco
+rutoso primer gran
enrgico
salado
denso
impresionante
graso
granulosono'le
magn+ico
mo;ado
arom ticosalino
amargo
largo
rico
vigorososa'roso
silvestre;ugoso
potenteoscuro
voluptuosotodo
comple;oconcentrado
integradopulido
linealr(stico
vivo
Kirst )rincipal )laneA9E'1!4ES Axis2 " #$?
Axis#" ($?2
agrada'le
medio
accesi'le
a'iertoensam'lado
tostado
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
26/48
Minera de textos y .stadstica textual
=
:ig:est mar6s
enrgico
lo?est mar6s
1veragemar6! F0DN
corto
cocoplvoravoluptuosomagn+ico
-D)H -D)D D)JK)HK)F-D)F -K)I -K)J K)D
herbceo
tradicionalrsticojovenroblelineal
amable
denso
saladoimpresionante
J N
consistencia
frutalcrianzaalgolimpioligerobeberevolucionarfcil
agradable
sobremadurezsequedadmediotempranilloligeramenteamericanocapa
tuestesciertoabiertoalgndemasiadofranco
reducido
discretofrutosidadensambladosecoclsicodominar
rojotpicoexpresincompotadosuaveRiberacestatoque
vezgrasotorre+actogranulosograntiempo
todono'le
casca;o
estilo
concentradonecesitarpotencialsa'rososorprendetactocomple;olargo
potente
purode;armineralprimermodernocarnosoamargo
salino+inodondemuc:o
ser'ou*uetslexintenso+irmevinoc:ocolate
Mar6D F I H HK
-
7/23/2019 SEA AnalisisTextual
27/48
Minera de textos y .stadstica textual
=
:ig:est mar6s
enrgico
lo?est mar6s
1veragemar6! F0DN
corto
cocoplvoravoluptuosomagn+ico
-D)H -D)D D)JK)HK)F-D)F -K)I -K)J K)D
herbceo
tradicionalrsticojovenroblelineal
amable
denso
saladoimpresionante
J N
consistencia
frutalcrianzaalgolimpioligerobeberevolucionarfcil
agradable
sobremadurezsequedadmediotempranilloligeramenteamericanocapa
tuestesciertoabiertoalgndemasiadofranco
reducido
discretofrutosidadensambladosecoclsicodominar
rojotpicoexpresincompotadosuaveRiberacestatoque
vezgrasotorre+actogranulosograntiempo
todono'le
casca;o
estilo
concentradonecesitarpotencialsa'rososorprendetactocomple;olargo
potente
purode;armineralprimermodernocarnosoamargo
salino+inodondemuc:o
ser'ou*uetslexintenso+irmevinoc:ocolate
Mar6D F I H HK
Criterio dominante!potencia del vinoG las
pala'ras denso) graso)concentrado
3e oponen a ligero) +cil)1lgunos de+ectos!se*uedad) so'remadurez)evolucionado
de+ectos importantes en elmundo del vino
-
7/23/2019 SEA AnalisisTextual
28/48
Minera de textos y .stadstica textual
5aria'les suplementarias
-
7/23/2019 SEA AnalisisTextual
29/48
#$?
($0
+$?
#$?- ($0 - #$?
- #$?
JD
=
F
HK HD H=
HJ
H
HI
HF
IH
K
I
N I
Gran Reserva
FK-HH)H
JK-H)H
H
DF-DH)H
=K-=)H
=F-=H)H
Tinto joven
K-)H F-H)H
Tinto rian!a
DK-D)H
Tinto reserva
Tinto ro"le
Axis2
Axis#
5ega 3icilia QRnicoQ %H&5i9a 3astre Pesus%KD&
2aros C:a+andn %KD&
DKK-JKK
1strales %K=&
Punta .sencia %KD&
8ares PJ %KD&
8ermant:ia %K=&
ran .las Mora %KK&
Bienvenida 3itio de .l Palo %KD&
Bienvenida 3itio de .l Palo %K=&
-
7/23/2019 SEA AnalisisTextual
30/48
++= )()(1
)( 1111
xGS
xx
jGfiZX
i
Jjijf
f
++=
)()()( 11 xGjGniZfJj
ij
4mportancia relativa de los comentarios y de la nota
Contri'ucin de cada pala'ra al score glo'al
La nota aporta FD0IOde la varianza delscore glo'al y las
pala'ras 0JO
Minera de textos y .stadstica textual
pala'ra nota
-
7/23/2019 SEA AnalisisTextual
31/48
Tares P3-200 !remium"" score global m#$imo
" no%ainicial HD" emplea de las =K pala'ras con coordenadas mayores so'reel primer e;e %im!resionan%&) gran& 'ez graso&cascajo, !(l'oralargo&and %ac%o&
)ega *icilia +nico+ -../" .s slo el tercero en score glo'al" nota inicial HI" de las =K pala'ras con coordenadas mayores so're el
primer e;e %enrgico, %iem!o, gran) y largo1
egaris-200%F&!" le;os %por a'a;o& de los otros vinos con la misma nota"
-
7/23/2019 SEA AnalisisTextual
32/48
---- #ine 212mark4 561 $e%aris-20018uestes) gominolas y 'uenos 'alsmicos marcan la intensidad media +rutal deeste crianza0 .n 'oca aparece muy lineal) con consistencia mediaG el retrogusto+rutal todava tapado por una madera algo r(stica0
---- #ine 30 mark4.1Tares P3-2001 premiumMuc:o terru9o se detecta en el 'ou*uet de este gran tintoG plvora) slex)pizarra) casca;o caliente con el contraste de tierra :(meda y muc:a +ruta
madura de :ueso0 concentrado) tacto graso so're el paladarG impresionanteviscosidad en la lengua) otra vez impresiones de tierra :(meda y plvora en ellargo +inal0
---- #ine 31&mark4.71 Ve%a 'iilia ()nio-199&/ay *ue realizar un e;ercicio de disciplina gustativa de primer rango para
descri'ir este gran vino0 el 'ou*uet es +resco) 'ien armado de +ruta ro;a *ue seve potenciada por tintes de c:ocolates) ta'acos) notas de soto'os*ue y unamadera *ue se mani+iesta pero *ue resulta di+cil de localizar y menos deconcretar0 8enemos el caso raro de un tinto *ue sale ileso del paso del tiemposin lucir su armadura) *ue es la 'arrica0 .n 'oca ;oven) aun*ue ya tiene sucuerpo vigoroso y enrgico 'astante ensam'lado) con la excepcin de algunos
taninos saltamontes *ue *uedan para domesticar0 Largo y vi'rante +inal *uemezcla madurez con una nota'le +inura +resca0
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
33/48
)resentacin detallada de la metodolo,a en"
B%cue-Bertaut/ M$ )a,Ps $
QAnalysis of a mixture of .uantitative/ cate,orical and fre.uency datatCrou,C an extension of multiple factor analysis$ Application to surveydata*+
aeptado para pu"liai,n poromputational 'tatistis and .ata /nalsis
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
34/48
3egundo e;emplo!Los ni9os y la lectura
E t t
-
7/23/2019 SEA AnalisisTextual
35/48
D0 8n la escuela, leemos %poco) 'astante) muc:o&=0 8n casa, %enemos %pocos) 'astantes) muc:os li'ros&J0eo %poco) 'astante) muc:o&0eo %muy +cilmente) +cilmente) con di+icultades&F0ibros dados !or maes%ro %me gustan) no me gustan&N0eo cuando %me gusta) :ago tra'a;os) los dos&
IPrefiero leer %en silencio) en voz alta) las dos cosas&0Leer los li'ros escolares %me gusta) no me gusta) depende&
)re,untas cerradas
)re,untas abiertas Ddatos textualesPara m leer esCreo que leer es importante porque
Encuesta ectura7uria :a*adell/ UB
-
7/23/2019 SEA AnalisisTextual
36/48
----A130
es un rollo porque a! mu"as letras
####
si no sa$es leer no sa$es es"ri$ir
----%&1'
"omo (i(ir otra "lase )e (i)a* apren)o* me )i(ierto !me entre+o* no s, "omo expli"arlo* pero me +usta leer
####
apren)es "osas nue(as
Minera de textos y .stadstica textual
.;emplos de respuestas
AB!E:1> y
-
7/23/2019 SEA AnalisisTextual
37/48
espuestas a$iertas.----para m* leer eses muy interesante porque te puedes ir al mundo de la fantasa. porejemplo puedes viajar a la edad media o estar en la prehistoria++++/eer es importante por que
sin la lectura no podra viajar
----para m* leer es
aprender####/eer es importante por que
se aprenden cosas nuevas
J1&espuestas "erra)as.leo $astante* leo mu! f"ilmente
231'espuestas "erra)as.leo $astante* leo mu! f"ilmente
espuestas a$iertas.
AB!E:1> y'E::A9>
Mi d t t . t d ti t t l
-
7/23/2019 SEA AnalisisTextual
38/48
Preguntas cerradas categricas
SD S= SJ
4D 46D
Pregunta a'ierta D
1prender 1ventura#
Pregunta a'ierta =
1prender 4mportante
4ndD
4nd i
4nd n
KKD DKKK KDKK D # = K K K ##=#
.n el e;emplo! ta'la m(ltiple mixta
Minera de textos y .stadstica textual
Mi d t t . t d ti t t l
-
7/23/2019 SEA AnalisisTextual
39/48
Primer plano +actorial! 4ndividuos
-2 0 2 + @
-($0
-#$?
0
#$?
($0
actor D
actor =
#2
7(#+
Axis 1
DTD0G =O
Axis 2
=TD0=G D0IO
Minera de textos y .stadstica textual
Mi d t t . t d ti t t l
-
7/23/2019 SEA AnalisisTextual
40/48
-1 1 2 3
-1.50
-0.75
0
0.75
1.50
eje 1
eje 2
Ieo poco
Leo bastante
Leo muchoLeo con difcultadeLeo muy cilmente
aburrido
aburrimiento
aprender
aprendes
aprendo
aventura
aventuras
diversion
divertida
divertidodivertirme
divierto
ensea
entrar
entretenido
entretenimiento
fantasia
imaginacion
importante
interesante
mundo
rol
saber
aprende
aventuras
diviertes
imaginacin
importante
importantes
sinoNO! "#O$!#%&'&()N&O
NO! "#O$!#% )*+)#)N)
(!,).% &N )&',O&
+#!&) &O+!# )#)/!,!
(!,) )&. &'(
leo cilmente
11. 24
(21.2 1.74
Minera de textos y .stadstica textual
Mi d t t . t d ti t t l
-
7/23/2019 SEA AnalisisTextual
41/48
Anlisis Cluster de los individuos a partir desus coordenadas sore los ! primeros ejes
"#todo jerrquico$ con el criterio de %ard
! clases (una residual cluster con 11 ni&os)
Minera de textos y .stadstica textual
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
42/48
GRUPO '' *,-
CERRADAS eo mucho (/0 '20)eo muy fcilmente (210 /20)3.
PARA MI, LEER ES
"45*A 4 A "64-78A
9.2:AA;8A-
PALABRAS SOBRE-REPRESENTADASpasar (pasar un uen rato)$ diversi
-
7/23/2019 SEA AnalisisTextual
43/48
Pregunta Coef. de Cramer
n "asa tenemos 9"anti)a) )e li$ros:
/eer los li$ros es"olares
/eo 9"anti)a) )e le"tura:Para m, leer es (abierta)/eo 9fa"ili)a) )e le"tura:Leer es importante porque (abierta)/os li$ros )a)os por el maestro
Prefiero leer 9forma )e leer:
/eo "uan)o 9"ontexto )e la le"tura:
n la es"uela leemos 9"anti)a) )e le"turaes"olar:
./'.>>.>1
.?2.?/.'!.'9.'
.'.1>
Minera de textos y .stadstica textual
:"*rmin9n7
11
'
=
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
44/48
3i slo se tiene en cuenta las preguntas cerradas)tomando las pala'ras y respuestas como ilustrativas
3e o'tiene#
Minera de textos y .stadstica textual
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
45/48
GRUPO 168 NIOS
CERRADAS CATEGORIAS SOBREREPRESENTADAS4, "6C@, (2'0 '20)4, "6 BC*"474 (D?0 /20)3
PARA MI, LEER ES
"45*A 4 A "64-78A9.2:AA;8A-
PALABRAS SOBRE-REPRESENTADAS
*E6A
MEDIA$ !.9:AA;8A-
CREO QUE LEER ESIMPORTANTE PORQUE
"45*A 4 A "64-78A!.>:AA;8A-
PALABRAS SOBRE-REPRESENTADAS
Aprende$ cosasMEDIA!.2:AA;8A-
RESPUESTAS MODALES-Se apren)e-Se apren)e
Minera de textos y .stadstica textual
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
46/48
Pregunta Coeficiente de
Cramer/eo 9"anti)a) )e le"tura:/eo "on 9fa"ili)a) )e le"tura:/eo "uan)o 9"ontexto )e le"tura:
/os li$ros )a)os por el maestro/eer los li$ros es"olaresn la es"uela* leemos 9"anti)a):
; prefer rea)in+ 9manera )e leer:
At ome*
-
7/23/2019 SEA AnalisisTextual
47/48
'onclusin" textos e
informacin paratextual
lvidaros
s prtioTodo es automtio
Minera de textos y .stadstica textual
Minera de textos y .stadstica textual
-
7/23/2019 SEA AnalisisTextual
48/48
Bi'liogra+a
Le'art) 3alem) Bcue) =KKK) 1nlisis estadstico de textos
.ditorial M4L.terminationdVune note glo'ale) synt:se dVune valautaion numri*ue et dVapprciations li'res0
1pplication aux tudes de marc:0
:c%es des J:DT200