subdominios y páginas personales - exordio.qfb.umich.mxexordio.qfb.umich.mx/archivos pdf de trabajo...

50
1 Subdominios y páginas personales Yahoo Search Comando feature: feature:index feature:homepage (sitios con ~) feature:homepage feature:index Errores Respuestas no subdominios Respuestas duplicadas GoogSpy Términos en dominios/subdominios

Upload: buihanh

Post on 02-Nov-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

1

Subdominios y páginas personales

� Yahoo Search

� Comando feature:

� feature:index

� feature:homepage (sitios con ~)

� feature:homepage feature:index

� Errores

� Respuestas no subdominios

� Respuestas duplicadas

� GoogSpy

� Términos en dominios/subdominios

2

Subdominios

3

GoogSpy

4

Ficheros ricos y ficheros media

� Ficheros ricos� Definición y tipos

� Adobe Acrobat (pdf) y Postscript (ps)� MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt)

� Tamaño: Google y Yahoo� Delimitadores: filetype (Google); originurlextension (Yahoo)

� Ficheros media� Definición y tipos

� FilExt www.filext.com� Localización en motores

� Términos� Delimitadores� Bases de datos autónomas

5

Google (filetype)

6

Google (filetype)

Tipos 11-nov-01 24-may-02 01-oct-02 29-mar-04 Tipos 11-nov-01 24-may-02 01-oct-02 29-mar-04

html, htm 63.600.000 98.800.000 120.700.000 240.000.000 ps 523.000 635.000 665.000 2.020.000

asp, aspx, dsp, jsp 12.120.000 23.900.000 31.156.700 78.260.100 xls 297.000 443.000 506.000 1.420.000

php, php3, php4 8.524.000 17.964.000 24.602.000 70.470.000 exe 287.000 393.000 693.000 1.360.000

pdf 3.990.000 6.310.000 7.410.000 22.000.000 ppt 257.000 419.000 442.000 1.170.000

cgi 4.350.000 7.500.000 8.060.000 19.200.000 stm 290.000 479.000 440.000 1.130.000

shtm, shtml 4.328.000 7.419.000 8.502.000 17.221.000 rtf 225.000 336.000 341.000 856.000

cfm 2.950.000 5.340.000 6.730.000 15.500.000 lasso 101.000 474.000

py 662.000 396.000

gsp 214.000 154.000 307.000

phtml, phtm 2.180.400 6.159.900 bmp, gif, jpg, png 9.070 19.610 163.000 187.270

fcgi 103.000 6.000.000 htx 124.000 156.000

doc 1.160.000 1.820.000 2.140.000 5.750.000 dwg 102.000 144.000

txt, text, csv 1.650.000 2.700.000 3.067.200 5.511.000 wml 133.000 139.000

swf 2.520.000 5.200.000 rdf 83.200 175.000 125.000 106.000

jhtml, jhtm 247.026 493.650 1.085.500 3.412.400 zip, gz, bz2 862 819 162.800 103.150

xml, xhtml, xsl, dtd 282.400 644.600 742.300 2.022.100 class, jar 319.500 56.000

Google: Composición y evolución de tipos de ficheros

c, cc, cpp, cxx,

inc, java, pas, pl,

sh, tcl, bat1.480.000 2.380.000 4.765.600 11.723.300

7

Exalead (filetype)

8

FilExt

9

Imágenes en Google

10

Idiomas en la red

� Fuentes y estudios� Usuarios según idioma

� Global Reach global-reach.biz/globstats/index.php3� Composición del webespacio

� Experimentos con buscadores� Google� Yahoo!� MSN Search� Ask� Copernic

11

Usuarios según idioma

http://www.glreach.com/globstats/index.php3

12

Idiomas en la red

Idiomas utilizados para acceder a Googlewww.google.com/press/zeitgeist.html

13

Idiomas (Google)

Language

<lr> value

Language

Idioma Código Idioma Código

Arabic lang_ar Icelandic lang_is

Chinese (S) lang_zh-CN Italian lang_it

Chinese (T) lang_zh-TW Japanese lang_ja

Czech lang_cs Korean lang_ko

Danish lang_da Latvian lang_lv

Dutch lang_nl Lithuanian lang_lt

English lang_en Norwegian lang_no

Estonian lang_et Portuguese lang_pt

Finnish lang_fi Polish lang_pl

French lang_fr Romanian lang_ro

German lang_de Russian lang_ru

Greek lang_el Spanish lang_es

Hebrew lang_iw Swedish lang_sv

Hungarian lang_hu Turkish lang_tr

14

Idiomas

Language

<lr> value

Language

Google, Enero 2006

15

Países (Google)

Language

Language

Andorra AD Bhutan BT Estonia EE Guinea-Bissau GW Kazakhstan KZ

United Arab Emirates AE Bouvet Island BV Egypt EG Guyana GY Lao PDR LA

Afghanistan AF Botswana BW Western Sahara EH Hong Kong HK Lebanon LB

Antigua and Barbuda AG Belarus BY Eritrea ER Heard and Mc Donald Islands HM Saint Lucia LC

Anguilla AI Belize BZ Spain ES Honduras HN Liechtenstein LI

Albania AL Canada CA Ethiopia ET Croatia (Hrvatska) HR Sri Lanka LK

Armenia AM Cocos (Keeling) Islands CC European Union EU Haiti HT Liberia LR

Netherlands Antilles AN Congo, DR CD Finland FI Hungary HU Lesotho LS

Angola AO Central African Republic CF Fiji FJ Indonesia ID Lithuania LT

Antarctica AQ Congo CG Falkland Islands (Malvinas) FK Ireland IE Luxembourg LU

Argentina AR Switzerland CH Micronesia, FS FM Israel IL Latvia LV

American Samoa AS Cote D'ivoire CI Faroe Islands FO India IN Libya LY

Austria AT Cook Islands CK France FR British Indian Ocean Terr. IO Morocco MA

Australia AU Chile CL France, Metropolitan FX Iraq IQ Monaco MC

Aruba AW Cameroon CM Gabon GA Iran IR Moldova MD

Azerbaijan AZ China CN United Kingdom UK Iceland IS Madagascar MG

Bosnia and Herzegowina BA Colombia CO Grenada GD Italy IT Marshall Islands MH

Barbados BB Costa Rica CR Georgia GE Jamaica JM Macedonia, FYR MK

Bangladesh BD Cuba CU French Quiana GF Jordan JO Mali ML

Belgium BE Cape Verde CV Ghana GH Japan JP Myanmar MM

Burkina Faso BF Christmas Island CX Gibraltar GI Kenya KE Mongolia MN

Bulgaria BG Cyprus CY Greenland GL Kyrgyzstan KG Macau MO

Bahrain BH Czech Republic CZ Gambia GM Cambodia KH Northern Mariana Islands MP

Burundi BI Germany DE Guinea GN Kiribati KI Martinique MQ

Benin BJ Djibouti DJ Guadeloupe GP Comoros KM Mauritania MR

Bermuda BM Denmark DK Equatorial Guinea GQ Saint Kitts and Nevis KN Montserrat MS

Brunei Darussalam BN Dominica DM Greece GR Korea, DPR KP Malta MT

Bolivia BO Dominican Republic DO South Georgia/South Sandwich I. GS Korea, Republic of KR Mauritius MU

Brazil BR Algeria DZ Guatemala GT Kuwait KW Maldives MV

Bahamas BS Ecuador EC Guam GU Cayman Islands KY Malawi MW

16

Países II (Google)

Language

Language

Mexico MX Qatar QA Tokelau TK

Malaysia MY Reunion RE Turkmenistan TM

Mozambique MZ Romania RO Tunisia TN

Namibia NA Russian Federation RU Tonga TO

New Caledonia NC Rwanda RW East Timor TP

Niger NE Saudi Arabia SA Turkey TR

Norfolk Island NF Solomon Islands SB Trinidad and Tobago TT

Nigeria NG Seychelles SC Tuvalu TV

Nicaragua NI Sudan SD Taiwan TW

Netherlands NL Sweden SE Tanzania TZ

Norway NO Singapore SG Ukraine UA

Nepal NP St. Helena SH Uganda UG

Nauru NR Slovenia SI United States Minor Outlying I. UM

Niue NU Svalbard and Jan Mayen Is. SJ United States US

New Zealand NZ Slovakia (Slovak Republic) SK Uruguay UY

Oman OM Sierra Leone SL Uzbekistan UZ

Panama PA San Marino SM Holy See (Vatican City State) VA

Peru PE Senegal SN Saint Vincent and the Grenadines VC

French Polynesia PF Somalia SO Venezuela VE

Papua New Guinea PG Suriname SR Virgin Islands (British) VG

Philippines PH Sao Tome and Principe ST Virgin Islands (U.S.) VI

Pakistan PK El Salvador SV Vietnam VN

Poland PL Syria SY Vanuatu VU

St. Pierre and Miquelon PM Swaziland SZ Wallis and Futuna Islands WF

Pitcairn PN Turks and Caicos Islands TC Samoa WS

Puerto Rico PR Chad TD Yemen YE

Palestine PS French Southern Territories TF Mayotte YT

Portugal PT Togo TG Yugoslavia YU

Palau PW Thailand TH South Africa ZA

Paraguay PY Tajikistan TJ Zambia ZM

17

Listados de universidades

Language

Language

Braintrack www.braintrack.com

Universities Worldwide univ.cc

Galilei www.galilei.com.ar

HEIR siu.no/heir

General Education Online www.findaschool.org

International Colleges and Universities www.4icu.org

Portal Tecnociencia www.tecnociencia.es

Universia www.universia.es

Canadian Universities www.uwaterloo.ca/canu

U.S. Universities by State www.utexas.edu/world/univ/state

Top American Reseach Universities thecenter.ufl.edu

UK Higher Education Map www.scit.wlv.ac.uk/ukinfo/uk.map.html

Times World Universities Rankings www.thes.co.uk/worldrankings

German University Ranking www.university-ranking.org

Academic Ranking of World Universities ed.sjtu.edu.cn/ranking.htm

All Universities around the World www.bulter.nl/universities

Ranking of China Universities rank2005.netbig.com

Alphabetical Index of Japanese Universities camp.ff.tku.ac.jp/TOOL-BOX/JapanUNIV

18

Internet invisible

� Características� Tamaño y Calidad� Fuentes

� Complete Planet www.completeplanet.com� Internet Invisible www.internetinvisible.com

� Descripción� Identificación

� Institución� País/Idioma� Temática

� Cuantitativa� Tamaño� Visibilidad

� Cualitativa� Estructura� Cobertura� Actualización� Recuperación

19

Agentes personales (I)

� VolcadoresAaronWebVacuum 2.5 www.surfwarelabs.comJOC WebSpider 3.72 www.jocsoft.comTeleportTeleportTeleportTeleport Pro 1.41Pro 1.41Pro 1.41Pro 1.41 www.tenmax.comLeech 4.3 www.aeria.comWebCopier 4.2 www.maximumsoft.comBlackWidow 4.4 www.softbytelabs.comMemoWeb 4.0 www.goto.frOffline Commander 2.1 www.zylox.comWebReaper 9.8 www.webreaper.netOffline Explorer Pro 3.9 www.metaproducts.comPowerSiphon 1.9 www.powersiphon.comWebsite Extractor 9.08 www.asona.orgWebWhacker 2000 5.0 www.bluesquirrel.comWebZip 7.0 www.spidersoft.com

20

Agentes personales (II)

� Inspectores de enlacesAlert LinkRunner 6.0 www.alertbookmarks.com/lrHTML Link Validator 4.4 www.lithopssoft.comHTML Validator Professional 7.0 www.htmlvalidator.comLink Checker Pro 3.3 www.kyosoft.comLinkScan Workstation 11.5 www.elsop.comWeb Link Validator 4.0 www.relsoftware.com/wlvXenu'sXenu'sXenu'sXenu's Link Link Link Link SleuthSleuthSleuthSleuth 1.21.21.21.2 home.snafu.de/tilman/xenulink.html

21

Agentes personales (III)

� Extractores HTML� WebData Extractor 4.3 www.webextractor.com

� Experimentos� Volcado de sede con el volcador Teleport Pro� Mapeado de la sede volcada con Xenu

� Inspección de links� Mapeado directo de la sede con Xenu

� Inspección de links� Tamaño de la sede según los motores de búsqueda

� Google, Yahoo, Teoma, Gigablast

22

WebDataExtractor

23

Volcado, inspección y mapeado

24

Cibermetria de motores de búsqueda

� Motores de búsqueda: Características y problemática� 7 grandes motores “distintos”

� Google� Yahoo Search� MSN Search (A9 “candidato”)� Ask (ex-Teoma)� Exalead (futuro Quaero)� Wisenut� Gigablast

� Estudios sobre motoresSearch Engine Showdown searchengineshowdown.com

Search Engine Watch searchenginewatch.com

25

¿Sólo siete (+uno)?

Sede Base de datos Sede Base de datos Sede Base de datos

GOOGLE GOOGLE GOOGLE

NETSCAPE NETSCAPE NETSCAPE

YAHOO YAHOO YAHOO

ALTAVISTA ALTAVISTA ALTAVISTA ALTAVISTA

ALLTHEWEB ALLTHEWEB ALLTHEWEB

LYCOS LYCOS TEOMA LYCOS

IWON GOOGLE IWON GOOGLE IWON

HOTBOT HOTBOT

MSN SEARCH MSN SEARCHMSN SEARCH LIVE LIVE

TEOMA TEOMA

ASK JEEVES ASK JEEVES

ALEXA GOOGLE ALEXA ALEXA ALEXA

A9 A9 LIVE

EXALEAD EXALEAD EXALEAD EXALEAD

WISENUT WISENUT WISENUT WISENUT WISENUT WISENUT

GIGABLASTHEREUARE

GOOGLE/MSN SEARCH

2003 2004-2005 2006-2007

GIGABLAST GIGABLASTGIGABLAST GIGABLAST GIGABLAST

GOOGLEGOOGLE

ASK

YAHOO

TEOMA ASK ASK

YAHOO

GOOGLE

FAST

INKTOMI

TEOMA

26

Cibermetria de motores de búsqueda

27

Delimitadores (I)

AGO'05 AGO'06

GOOGLE site:es 11.500.000 138.000.000

MSN SEARCH site:es 18.137.099 16.710.809

YAHOO SEARCH site:es 117.000.000 70.400.000

ASKsite:es

+inurl:es49.130.000 32.150.000

EXALEAD site:es 3.160.589 10.823.751

GIGABLAST site:es 1.288.876

DOMINIOMOTORES DE

BUSQUEDA

AGO'05 AGO'06 AGO'05 AGO'06

GOOGLE site:csic.es 346.000 3.320.000 site:www.cindoc.csic.es 4.590 21.700

MSN SEARCH site:csic.es 117.099 153.363 site:www.cindoc.csic.es 2.647 2.174

YAHOO SEARCH site:csic.es 199.000 272.000 site:www.cindoc.csic.es 2.430 3.930

ASKsite:csic.es

+inurl:csic.es256.100 129.500

site:www.cindoc.csic.es

+inurl:www.cindoc.csic.es3.270 3.520

EXALEAD site:csic.es 19.978 46.150 site:www.cindoc.csic.es 901 1.243

GIGABLAST site:csic.es 15.916 13.764 site:www.cindoc.csic.es 500 455

SUBDOMINIO / SITIOMOTORES DE

BUSQUEDA

28

Resultados aproximados

29

Google Data Centers

http://www.mcdar.net/dance/index.php

30

http://www.webrankinfo.com/english/tools/google-data-centers.php

31

Delimitadores (II)

AGO'05 AGO'06

GOOGLE inurl:cybermetrics 702 14.700

MSN SEARCH inurl:cybermetrics 0 0

YAHOO SEARCH inurl:cybermetrics 1.920 3.620

ASK inurl:cybermetrics 2.050 1.250

EXALEAD inurl:cybermetrics 977GIGABLAST suburl:cybermetrics 536 496

PALABRA EN URLMOTORES DE

BUSQUEDA

AGO'05 AGO'06 AGO'05 AGO'06

GOOGLE site:www.csic.es/cbic 8.050 29.700 site:www.cindoc.csic.es/cybermetrics 249 9.540

MSN SEARCH site:www.csic.es/cbic 1.926 2.228 site:www.cindoc.csic.es/cybermetrics 643 342

ASK inurl:www.csic.es/cbic 3.650 2.290 inurl:www.cindoc.csic.es/cybermetrics 1.890 2.290

EXALEAD site:www.csic.es/cbic 619 914 site:www.cindoc.csic.es/cybermetrics 217 183

MOTORES DE

BUSQUEDA

SUBDIRECTORIO

32

Delimitadores (III)AGO'05 AGO'06

MSN SEARCH linkdomain:csic.es 205.127 229.310

YAHOO SEARCH linkdomain:csic.es 152.000 245.000EXALEAD link:csic.es 26.637 24.941

AGO'05 AGO'06

MSN SEARCH linkdomain:cindoc.csic.es 36.608 45.184

YAHOO SEARCH linkdomain:cindoc.csic.es 19.000 26.400EXALEAD link:cindoc.csic.es 2.133 2.785

AGO'05 AGO'06

MSN SEARCH linkdomain:www.cindoc.csic.es 9.460 9.840

YAHOO SEARCH linkdomain:www.cindoc.csic.es 12.700 15.300EXALEAD link:www.cindoc.csic.es 1.448 2.016

MOTORES DE

BUSQUEDA

ENLACE A DOMINIO / SITIO

33

Delimitadores (IV)

AGO'05 AGO'06 AGO'05 AGO'06

GOOGLE link:www.csic.es/cbic 7 639 link:www.csic.es/cbic/cbic.htm 288 639

MSN SEARCH link:www.csic.es/cbic 15 16 link:www.csic.es/cbic/cbic.htm 3.015 2.666

YAHOO SEARCH link:http://www.csic.es/cbic 44 69 link:http://www.csic.es/cbic/cbic.htm 11500 3130

EXALEAD link:www.csic.es/cbic/cbic.htm 553 783

GIGABLAST link:www.csic.es/cbic/cbic.htm 429 221

MOTORES DE

BUSQUEDA

ENLACE A SECUENCIA DE CARACTERES

34

Delimitadores (V)

AGO'05 AGO'06

GOOGLE formulario (España) site:com 6.550.000 72.100.000

MSN SEARCH loc:es site:com 50.797.387 41.904.669

YAHOO SEARCH formulario (España) site:com 140.000.000 90.700.000

ASK sedes nacionales 32.560.000

EXALEAD formulario (España) site:com 15.902.881

AGO'05 AGO'06

GOOGLE formulario (español) site:com 18.000.000 163.000.000

MSN SEARCH language:es site:com 114.474.312 117.455.638

YAHOO SEARCH formulario (español) site:com 224.000.000 133.000.000

ASK lang:ES site:com 114.330.000 58.020.000

EXALEAD language:es site:com 12.333.552 31.087.150

MOTORES DE

BUSQUEDA

IDIOMAS

PAISES

MOTORES DE

BUSQUEDA

35

Delimitadores (VI)

AGO'05 AGO'06

GOOGLE filetype:pdf site:com 17.600.000 98.900.000

MSN SEARCH filetype:pdf site:com 74.963.752 60.397.991

YAHOO SEARCH originurlextension:pdf site:com 72.600.000 69.200.000

EXALEAD filetype:pdf site:com 4.082.595 8.115.109

GIGABLAST type:pdf site:com 133.271

AGO'05 AGO'06

GOOGLE filetype:doc site:csic.es 4.060 32.100

MSN SEARCH filetype:doc site:csic.es 264 185

YAHOO SEARCH originurlextension:doc site:csic.es 2.690 2.530

EXALEAD filetype:doc site:csic.es 317 471

GIGABLAST type:doc site:csic.es 109 195

MOTORES DE

BUSQUEDA

TIPO DE FICHERO

36

Tamaño

37

Solapamiento

38

Composición

Google by Google Google by Notess

39

Siguiendo a Notess

� Instalación de Copernico 5.2� Capacidad de exportación a Excel

� Experimentos� Cobertura� Tamaño (Copernic)

� Búsqueda de términos (varios motores)� Búsquedas delimitadas (cada motores)� Teoría del máximo

� Solapamiento (Copernic)� 300 primeros resultados

� Calidad de los enlaces (Copernic)� Porcentaje de enlaces muertos (un único motor seleccionado)

40

Copernic

41

Visualización

� Relaciones “ocultas”� TouchGraphTouchGraphTouchGraphTouchGraph GoogleGoogleGoogleGoogle www.touchgraph.comwww.touchgraph.comwww.touchgraph.comwww.touchgraph.com////TGGoogleBrowser.htmlTGGoogleBrowser.htmlTGGoogleBrowser.htmlTGGoogleBrowser.html

� Instalación previa del Java JRE 1.3+� Prácticas con un nodo� Prácticas con más de un nodo

� KartooKartooKartooKartoo www.kartoo.comwww.kartoo.comwww.kartoo.comwww.kartoo.com� Prácticas con términos institucionales

42

TouchGraph

43

Kartoo

44

Metabuscadores

� Primera generaciónVivisimo www.vivisimo.com

ZapMeta www.zapmeta.com

Mooter www.mooter.com

iBoogie www.iboogie.tv

Infonetware www.infonetware.com

MetaEureka www.metaeureka.com

Surfwax www.surfwax.com

Info www.info.com

� Segunda generaciónCopernico (5.2/6.1) www.copernic.com

45

Límites de los Metabuscadores

scientometrics ornithology "Albert Einstein" God

ALLTHEWEB 6.718 258.498 1.108.420 39.421.287

GOOGLE 8.260 112.000 554.000 36.800.000

WISENUT 2.932 90.608 565.892 13.475.757

ALTAVISTA 2.522 50.845 452.982 12.488.621

TEOMA 2.087 42.290 233.850 7.535.000

GIMENEI 73 70 71 82

ICYSPICY 33 57 55 72

METAEUREKA 42 46 56 73

EZ2WWW 395 339 302 335

IBOOGIE 221 238 236 299

VIVISIMO 307 466 220 454

FUZZLE 1.050 1.057 1.016 999

Resultados proporcionados por buscadores y metabuscadores (Octubre 2002)

Buscadores

Metabuscadores

Términos de búsqueda:

46

Metabuscadores

47

Recuperación automática inteligente

� Copernic 6.1 Pro www.copernic.com� Indización� Asignación automática de idiomas� Filtrado por región y dominio

� WebQL www.ql2.com� Demostración

� Identificación de los componentes de la URL� Cadena de caracteres a extraer� Muestra de trabajo

48

Copernic

49

WebQL

50

Calidad, visibilidad e impacto

� Evaluación cuantitativa de sedes Web� El modelo Google

� Instalación de la ToolBar (toolbar.google.com)� Page Rank

� Escala logarítmicarankwhere.com/google-page-rank.phpwww.rustybrick.com/pagerank-prediction.php

� Componentes: visibilidad + peso� Visibilidad

� Tipos de enlaces: inlinks, outlinks, selflinks, backlinks� Cálculo mediante el uso de motores de búsqueda� Impacto Web (WebIF)� Calidad de los enlaces: Inspectores de enlaces