geo-information retrieval · geo-information retrieval m. andrea rodr guez tastets...
Post on 02-Aug-2020
8 Views
Preview:
TRANSCRIPT
Geo-Information Retrieval
M. Andrea Rodríguez Tastets
DIICC-Universidad de Concepción
CIW - Universidad de Chile
andrea@udec.cl
Geo-IR?
Refiere a enfoques destinados a la
recuperación con criterios geográficos
de información de objetos geo-
referenciados (GIOs):
Objetos o documentos que hablan de un
lugar específico
Refiere a enfoques destinados a la
recuperación con criterios geográficos
de información de objetos geo-
referenciados (GIOs):
Geo-IR?
Refiere a enfoques destinados a la
recuperación con criterios geográficos
de información de objetos geo-
referenciados (GIOs):
Source: USGS
Datos geo-espaciales (mapas, imágenes satelitales, etc..)
que representan un elemento espacial o conjunto de
elementos con sus respectivos atributos
Geo-IR?
Refiere a enfoques destinados a la
recuperación con criterios geográficos
de información de objetos geo-
referenciados (GIOs):
• Referencia a un lugar en particular:
¿Qué información se tiene de Santiago?
• Referencia a una ventana espacial
¿Qué información se tiene de la zona contenida en
la ventana W(x1,y1,x2,y2)?
• Referencia a una relación entre lugares
¿Qué información se tiene de 60 km al Sur de
Santiago?
Búsqueda Espacial
La búsqueda por criterios espaciales está basado
en la integración de representaciones espaciales y
relaciones espaciales.
Dos enfoques son:
Cuantitativo: basado en las propiedades
geométricas
Cualitativo: basado en propiedades no geométricas
Geometría en la Web:Estándares
GML- Geographic Markup Language
Web Map Services
Estándares para Información
Geo-Espacial
• Existen múltiples actores con distintos roles y
responsabilidades involucrados en la construcción de
Infraestructuras Digitales Espaciales (IDE):
– Organización Internacional de Estándares (ISO TC 211, TC
204, JTC-1)
– World Wide Web Consortium (W3C)
– OpenGIS Consortium (OGC)
– Normas de Organizaciones nacionales
Estándares en el Ambito Geo-Espacial
OpenGIS OpenGIS
ConsortiumConsortium, W3C, W3C
Especificaciones
de Implementación
ISO TC 211ISO TC 211
Normas
Generales
NormasNormas
NacionalesNacionalesEstándares de Datos
Autoridad de Datos
IDE
Otros
IDEs
Establish
definition of
and terms of
engagement
in *SDI
Interacciones
ISO
TC 211 TC 204
JTC-1
National
Standards
Organizations
Provide
expertise &
candidate stds.
Review &
approve
stds.
Adopter/
Implementer
Community
OpenGIS
Consortium
(OGC)
World Wide
Web Consortium
(W3C)
Internet Engineering
Task Force (IETF)
Facilitation Bodies
• GSDI
• ANZLIC
• PCGIAP
• FGDC
• PC-IDEA
• INSPIRE
• GeoConnections
• CODI/UNECA
• AGI
• …
W3C: HTTP, PNG, RDF, SOAP/XMLP
(Web Services Activity), XML, Xlink,
Xpath, Xpointer, XSL/XSLT, XML
Schema
OGC: Web Map
Server, Web Feature
Server, GML, Web
Coverage Server,
Style Layer
Descriptor, Catalog
Service
ISO: Ref Model, Terminology,
Conformance testing, Profiles, Spatial
Schema, Temporal Schema, Feature
Cataloguing Methodology, Spatial Ref by
Coords and Ids, Quality, Metadata, WMS,
GML, LBS, Registration of Geo-information
Items
Metadata Profile,
Data Content
Standards, etc.
XML Protocol (XMLP),
XML Signature, I18N
XML, I18N
OpenGIS Consorcio: GML
• OpenGIS es una organización sin afán de lucro
• Creada en 1994 para promover la interoperabilidad
• Compuesta de una comunidad internacional (204) de:
•Empresas
•Agencias gubernamentales
•Instituciones académicas
Objetivos de GML
• Orientado para aplicaciones GIS en la Internet
• Abierto, independiente del vendedor
• Soporta esquemas
• Comparte, enlaza y almacena esquemas y datos
• Extensible para soportar análisis
• Soporta interoperabilidad
Estructura de GML• Documentos GML contienen una colección de “features”
(GML-FCs)
• GML-FC es en sí misma una “feature” GML con una extensión
espacial • “Features” complejas pueden estar compuestas de otras
“features”
• Una “feature” GML tiene propiedades, una o más de las cuales
pueden ser geométricas
• Una colección de gemetría GML es una geometría GML
• Geometría GML:
- contiene coordenadas
- especifica un sistema de referencia en un archivo separado
GML v2.0: Esquema de Geometría
GML v2.0: Esquema de “Features”
GML y XML Schema
• GML usa W3C XML Schema Definition Language
para definir y restringir los contenidos de sus
documentos XML.
XML/Schema (XSD)
• Especificación desarrollada por W3C
• Part 0: Primer - http://www.w3.org/TR/xmlschema-0/
• Part 1: Structure - http://www.w3.org/TR/xmlschema-1/
• Tres recomendaciones propuestas
• Part 2: Datatypes - http://www.w3.org/TR/xmlschema-2/
• Reemplazá definiciones complejas de TDT
• Tipos simples o complejos definidos por el usuario
• Tipo de herencia/ derivación por entensión o restricción
• Soporta tipos simples definidos o derivados
• Soporta XML Namespaces, XLink / XPointer / XPath
GML v2.0 en XML/Schema
• Define tipos de base compleja para geometrías y “features”
• XML/Schema para “features” geográficas de OpenGIS
• Define XLink Attribute Group para asociaciones
de propiedades
• Modelo de contenido para propiedades geométricas y “features”
<Class>
<property>
<Class> … </Class>
</property>
<remoteProperty xlink:href=“http://…”/>
</Class>
Codificando “Features” sin Geometría
<element name="Dean" type="ex:DeanType" />
<complexType name="DeanType">
<sequence>
<element name="familyName" type="string"/>
<element name="age" type="integer"/>
<element name="nickName" type="string"
minOccurs="0" maxOccurs="unbounded"/>
</sequence>
</complexType>
<Dean>
<familyName>Smith</familyName>
<age>42</age>
<nickName>Smithy</nickName>
<nickName>Bonehead</nickName>
</Dean>
XMLXML/Schema
<element name="Dean" type="ex:DeanType"
substitutionGroup="gml:_Feature" />
<complexType name="DeanType">
<complexContent>
<extension base="gml:AbstractFeatureType">
<sequence>
<element name="familyName" type="string"/>
<element name="age" type="integer"/>
<element name="nickName" type="string"
minOccurs="0" maxOccurs="unbounded"/>
</sequence>
</extension>
</complexContent>
</complexType>
Schema
Codificando “Features” GML sin
Geometría
<Dean fid="D1123” >
<gml:description>A nice old chap</gml:description>
<familyName>Smith</familyName>
<age>42</age>
<nickName>Smithy</nickName>
<nickName>Bonehead</nickName>
</Dean>
<Dean>
<familyName>Smith</familyName>
<age>42</age>
<nickName>Smithy</nickName>
<nickName>Bonehead</nickName>
</Dean>
XML GML
Codificando “Features” GML sin
Geometría
• Point
• LineString
• LinearRing
• Polygon
• MultiPoint
• MultiLineString
• MultiPolygon
• MultiGeometry
<element name="coord" type="gml:CoordType" />
<complexType name="CoordType">
<sequence>
<element name="X" type="decimal"/>
<element name="Y" type="decimal" minOccurs="0"/>
<element name="Z" type="decimal" minOccurs="0"/>
</sequence>
</complexType>
<Point srsName="http://www.opengis.net/gml/srs/epsg.xml#4326">
<coord><X>5.0</X><Y>40.0</Y></coord>
</Point>
Codificando Geometría con GML
Definiendo Propiedad de Geometría en
GML/Schema
<element name="_geometryProperty" type="gml:GeometryPropertyType"
abstract="true"/>
<complexType name="GeometryPropertyType">
<annotation>
<documentation>A simple geometry property encapsulates a geometry element.
Alternatively, it can function as a pointer (simple-type link) that refers to a
remote geometry element. </documentation>
</annotation>
<sequence minOccurs="0">
<element ref="gml:_Geometry"/>
</sequence>
<attributeGroup ref="gml:AssociationAttributeGroup"/>
</complexType>
<element name="pointProperty" type="gml:PointPropertyType"
substitutionGroup="gml:_geometryProperty"/>
<complexType name="PointPropertyType">
<annotation>
<documentation>Encapsulates a single point to represent position,
location, or centerOf properties.</documentation>
</annotation>
<complexContent>
<restriction base="gml:GeometryPropertyType">
<sequence minOccurs="0">
<element ref="gml:Point"/>
</sequence>
<attributeGroup ref="gml:AssociationAttributeGroup"/>
</restriction>
</complexContent>
</complexType>
Definiendo Propiedad de Geometría en
GML/Schema
<element name="Dean" type="ex:DeanType" substitutionGroup="gml:_Feature"/>
<element name="deanLocation" type="gml:PointPropertyType"
substitutionGroup="gml:pointProperty"/>
<complexType name="DeanType">
<complexContent>
<extension base="gml:AbstractFeatureType">
<sequence>
<element name="familyName" type="string"/>
<element name="age" type="integer"/>
<element name="nickName" type="string"
minOccurs="0" maxOccurs="unbounded"/>
<element ref="ex:deanLocation" />
</sequence>
</extension>
</complexContent>
</complexType>
Definiendo “Features” con Geometría en
GML/Schema
Codificando “Features” GML con
Geometría<Dean fid="D1123” >
<gml:description>A nice old chap</gml:description>
<familyName>Smith</familyName>
<age>42</age>
<nickName>Smithy</nickName>
<nickName>Bonehead</nickName>
<deanLocation>
<Point srsName="http://www.opengis.net/gml/srs/epsg.xml#4326">
<coord><X>5.0</X><Y>40.0</Y></coord>
</Point>
</deanLocation>
</Dean>
Definiendo Colección de “Features” en
GML/Schema<element name="CityModel" type="ex:CityModelType"
substitutionGroup="gml:_FeatureCollection"/>
<element name="River" type="ex:RiverType"
substitutionGroup="gml:_Feature"/>
<element name="Road" type="ex:RoadType" substitutionGroup="gml:_Feature"/>
<complexType name="CityModelType">
<complexContent>
<extension base="gml:AbstractFeatureCollectionType">
<sequence>
<element name="dateCreated" type="month"/>
</sequence>
</extension>
</complexContent>
</complexType>
<complexType name="RiverType">
<complexContent>
<extension base="gml:AbstractFeatureType">
<sequence>....</sequence>
</extension>
</complexContent>
</complexType>
<complexType name="RoadType">
<complexContent>
<extension base="gml:AbstractFeatureType">
<sequence>.....</sequence>
</extension>
</complexContent>
</complexType>
Definiendo Colección de “Features” en
GML/Schema
<CityModel fid="Cm1456">
<dateCreated>Feb 2000</dateCreated>
<gml:featureMember xlink:type="simple"
xlink:href="http://www.myfavoritesite.com/rivers.xml#Rv567"/>
<gml:featureMember xlink:type="simple"
xlink:href="http://www.myfavoritesite.com/rivers.xml#Rv568"/>
<gml:featureMember>
<Road fid="Rd812">....</Road>
</gml:featureMember>
</CityModel>
Miembros de asociación remota
Codificando Colección de “Features”
<fema:Hurricane fid=”H1456">
<name>Kurt</name>
<dateTime>2000-08-21T13:20:00-06:00</dateTime>
<noaa:stormMember xlink:type="simple"
xlink:href="http://www.noaa.gov/stormsurge.xml#S567"/>
<ace:leveeMember xlink:type="simple"
xlink:href="http://www.ace.gov/levees.xml#Lv568"/>
<fl:hospitalMember xlink:type=“simple”
xlink:href=“http://www.fl.state.us/hospitals.xml#H235”/>
<dot:interstateMember xlink:type=“simple”
xlink:href=“http://www.dot.gov/interstates.xml#I95”/>
<tgr:countyMember xlink:type=“simple”
xlink:href=“http://www.census.gov/counties.xml#SC12011”/>
</fema:Hurricane>
con “features” compartidas
Colección de “Features” Distribuidas
Web Map Service
Información geométrica en la Web es típicamente
manejada a través de Web Mapping Services
(WPS) los cuales se caracterizan por ser:
- relativamente fáciles de usar,
- específicos para ciertas tareas,
- limitados en:
compartir información y
compartir servicios.
= Datos ! Aplicaciones
GeoMedia™ WebMap
MapGuide™
MapObjects IMSMapXtreme™
ELVIS
GIS ViewerModelServer Imager
Spatial Web Broker
CARIS Internet Server
OGDINetGIS
STAR Next Surf
TerraServer
Orthophoto Browser
Mapquest Internet
PARC Map Viewer
Internet Map ServerTIGER Map Server
GLOBE VisualizationEnviroMapper
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
GISDATA
Web B rowser Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
Web B rowser
GISDATA
X X X X X X X X X X X X X X X X X X X
Web B rowser
Algunos WMS
Objetivos de WMS
Whov ille
Whov illeCedar Lake
Vista integrada
Internet
•Descubrir, accesar y
recuperar vistas desdemúltiples servidores
•Desplegar múltipes “layers”de datos geográficos usando
una misma aplicación Web
•Consultar y actualizar
•Proveer una visualización
•Soportar datos tipo raster,
vector, etc..
Crimen
Social
Transporte
Uso
Clima
Medio Ambiente
Caminos
ParcelasComunas
...
Catálogo
Servicios
WMS - Web Map Server
WMS
Request
GIF, JPEGResponse
• Get Map
Gracias por la buena imagen de un
mapa…
Pero ahora quiero los datos
WMS - Web Map Server
WMS
• Get Map
Request
• Get Feature Info
• Get Data
ResponseGML
WFS - Web Feature Server
• Get Capabilities
• Describe Feature Type
• Get Features
• Lock Feature
• Transaction
- Insert
- Update
- Delete
XML
GML
GML
Schema
El Futuro de WMS in la Web
• Compartir objectos espaciales en GML usandoXlinks
• Datos actualizados servidos por losgeneradores de datos (descentralización)
Localización en el Contenido Textual
Memoria Chilena: Portal de la Cultura
Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.
Memoria Chilena: Portal de la Cultura
Tiempo
Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.
Memoria Chilena: Portal de la Cultura
Tiempo Espacio
Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.
Memoria Chilena: Portal de la Cultura
Tiempo Espacio Tema
Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.
Consultas
• Encontrar pasajes que hablen de
terremotos en el siglo pasado en :
– Sur de Chile
– Chile central
– Centro y Sur de Chile
Localizaciones en Páginas Web
• Categorías de localizaciones en laWeb:– Provider location: localización del propietario
de la página
– Content location: el contenido geográfico queuna página describe o contiene
– Serving location: el dominio geográfico que unapáginas puede alcanzar
• Categorías de localizaciones en laWeb:– Provider location: localización del propietario
de la página
– Content location: el contenido geográfico queuna página describe o contiene
– Serving location: el dominio geográfico que unapáginas puede alcanzar
Localizaciones en Páginas Web
Localización de Contenido
• Es el reconocimiento de la
localización en el contenido de
documentos textuales.
Gazetteers
• Es un diccionario espacial de nombres ytipos de lugares
• Contiene una representación espacial(footprints):– Puntos
– Rectángulos mínimos (bounding boxes)
– Polígonos generalizados
– Polígonos complejos
– Relaciones espaciales
Gazetteer (1)
Gazetteer (2)
• Maneja aspectos temporales tales como:– Nombres históricos
– Extensión espacial asociada al tiempo
– Relaciones administrativas históricas
– Atributos variables en el tiempo
– ..
• Algunas Gazetter:– Alexandria Digital Library http://www.alexandria.ucsb.edu/
– Getty Thesaurus of Geographic Nameshttp://www.getty.edu/research/conducting_research/vocabularies/tgn/
Determinando Geo-referencias
• Encontrar geo-referencias en páginas
Web a través de:
- códigos postales
- Teléfonos
- Nombre de lugares
Consideraciones de Geo-referencias
• Alta agregación de localidades
geográficas:
– Ciudades, comunas, regiones…
• La ocurrencia de un nombre de lugar no
implica necesariamente que la página
hable de ella.
• Ambigüedad en el uso de términos
!
Power(w,l) =References(w,l)
Locations(w)
Contenido Geográfico: Power
• Medida de interés de la localización l
en la página Web w :
!
Spread(w,l) =
"Power(w,li)
Power(w,l j )j=1
n
#$ log(
Power(w,li)
Power(w,l j )j=1
n
#i=1
n
# )
log(n)
Contenido Geográfico: Spread
• Medida de distribución del interes en
localización l de la página Web w:
Dominio Geográfico
• Candidatos CGS(w): conjunto de nodes (l) en la
jerarquía espacial tal que:– Spread(w,l) " #c
– Para todo l’ que es ancestro de l, Spread(w,l’) < #c
• Dominio estimado EGS(w): conjunto de
localizaciones de CGS(w) usando alguna de las
estretegias de “poda”:– Top-k pruning
– Absolute-threshold pruning
– Relative-threshold pruning
Procesando Referencias
• Tagging: extraer nombre propios de lenguaje
natural
• Normalización y manejo de ambigüedad:– Alias: sinónimos
– Ambigüedad: heurísticas definidas a priori
– A top-down enfoque de manera que se propagan top-level
referencias
Casos en la Web Chilena
• Uso gazetteer
• Uso de relaciones espaciales
• Dos casos de estudio:
– Turismo (http://www.turistel.cl, 3672)
– Noticias (http://www.emol.cl, 1307)
www.turismochile.cl
www.emol.cl
Similitud - Ranking
Indexación
Similitud Espacial: Geometría
• Similitud espacial es un indicador de relevancia decuánto el contenido espacial de un documento seasemeja al de una consulta
• Similitud espacial se aplica a:– Geometría de objetos
– Relaciones espaciales entre objetos
Similitud Espacial de Objetos
• Superposición simple
• Superposición topológica
• Grado de superposición
Similitud Espacial: Objetos
http://calsip.regis.berkeley.edu/pattyf/mapserver/cheshire2/cheshire_init.html
Aproximaciones geométricas
1) Minimum Bounding Circle (3) 2) MBR: Minimum aligned
Bounding rectangle (4)3) Minimum Bounding Ellipse (5)
6) Convex hull (varies)5) 4-corner convex polygon (8)4) Rotated minimum bounding rectangle (5)
After Brinkhoff et al, 1993b
Ranking
0.94
0.71
0.70
0.72
Precision
Where
Q = area de consulta
C = area de candidato GIO
O= area de superposición entre Q y C
Larson and
Frontiera 2004
Beard and
Sharma 1997
Walker et al
1992
Hill 1990
FormulaReferencia
!
Range = 2O
Q+ C
!
Range = MIN(O
Q,O
C)
!
Range1
=C
Q,Range
2=
%O
1"%O+100,Range
3=Q
C
!
Range = P(R |Q,D) = c0 + c1O
Q+ c2
O
C
Similitud de Relaciones Espaciales
• Relaciones Topológicas
• Relaciones de Orientación
• Relaciones de Distancia
Esfoque Cualitativo:
covered by contains
disjoint meet overlap equal
covers inside
Esfoque Cuantitativo:
aa
A
B
C
de
di
!"C
!
F(A,B) =area(A) " 2area(A# B)
area(A)+distance($A,$B)
diagonal($B)
Similitud de Relaciones (Godoy and Rodríguez
2004)
!
S(A,B) =area(A) " 2area(A# B)
area(A)+distance($A,$B)
diagonal($B)
0.46
0.55
0.66
PrecisionFormula
!
S(A,B) =area(A)
area(A" B)!
S(A,B) =diagonal(A)
diagonal(A" B)
Similitud: contextual
[cuantificador][tipo][zona]
La mitad de las comunas de la región del BioBio
La ciudad de concepción
Ranking: Cuantificación
Consulta= !!!"Comunas al norte de Concepción"
P1= La mitad de las comunas al norte de Concepción
P2= Todas las comunas al norte de Concepción
P3= !30 de las comunas al norte de Concepción
r=50%
r=100%
r=i/n=20/50=60%
1
2
3
rank
Indexación
Conclusiones
• Geo- IR no es sólo geometría, sino texto
• Ciertas nociones clásica de IR pueden ser
aplicadas a Geo-IR
• Explotar las característcias del dominio
• Incorporar técnicas de NLP
• Necesidad de estándares para datos y
procedimientos de evaluación
top related