sistemas de información ii tema 8. estructuras de datos en ... · sistemas de información ii tema...

Report

Post on 01-Jan-2021

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Sistemas de Información II

Tema 8. Estructuras de datos en memoria secundaria

Carlos Castillo

UPF – 2008

Bibliografía:Elmasri y Navathe: “Fundamentos de Sistemas de Bases de

Datos”3ª edición, 2002 (Capítulo 6).

Garcia-Molina, Ullman y Widom: “Database systems: the complete book”. Prentice-Hall (Capítulos 12 y 13).

Consulta

ÍndiceDatos

Respuesta

IndexaciónÍndice

Datos

Indexación

Índice

Estructura que permite encontrar rápidamente un registro de datos

Requerimientos

Bajo sobrecosto (overhead) en espacio

Alta velocidad de búsqueda

[Opcional] Alta velocidad de inserción

[Opcional] Alta velocidad de borrado

Índices en ficheros secuenciales

Fichero secuencial

10 | Juan20 | Pedro

30 | Diego40 | Ana

50 | María60 | Iván

Bloques

Persona(idpersona int, nombre char(12))

Asumimos bloque es de tamaño 32 bytes(anormalmente pequeño)

Índice denso

10 | Juan20 | Pedro

30 | Diego40 | Ana

50 | María60 | Iván

Todos los elementos están en el índice

10 B1R120 B1R230 B2R140 B2R250 B3R160 B3R2

ÍndiceDatos

Otro ejemplo índice denso

0 1

0123456789012345678

JUANPEDRODIEGOTOMAS

Índice (4 ints)

Datos (19 bytes)

Veloz en la recuperaciónde registros por número

ej.: recuperar registro 2

Índice disperso

10 | Juan20 | Pedro

30 | Diego40 | Ana

50 | María60 | Iván

Sólo algunos de los elementos están en el índice

Densidad del índice = claves indexadas / claves totales

10 B1R130 B2R150 B3R1

ÍndiceDatos

Índice primario

Aaron, Ed B1Adams, John B2...Wright, Pam Bn

Bloque 1Aaron, Ed – Acosta, Marc

Bloque 2Adams, John – Akers, Jan

...

Bloque nWright, Pam – Zimmer, Byron

Índice sobre el atributo según el cual están ordenados los elementos, con el primerelemento de cada bloque

Es un índice disperso

Cálculo costo accesosin índice

Datos

Número de registros r = 30,000 registros

Tamaño del bloque B = 1,024 bytes

Tamaño del registro R = 100 bytes

¿Costo búsqueda binaria?

Elementos por bloque = R/B ~ 10

Bloques totales = r / 10 = 3,000 bloques

Costo búsqueda binaria = log2(3000) ~ 12

Cálculo costo accesocon índice

Datos

Número de registros r = 30,000 registros

Tamaño del bloque B = 1,024 bytes

Tamaño del registro R = 100 bytes

Tamaño de la clave V = 9 bytes

Tamaño del #bloque P = 6 bytes

¿Costo búsqueda binaria?

Tamaño del índice: (V+P)*3,000 = 45,000

Número de bloques: 45,000/1,024 = 44

Búsqueda binaria = log2(44) ~ 6 + 1 = 7

Desventajas de este índice

Inserción y borrado son costosos

Solución:

Inserción: desbordamiento de bloques

Borrado: marca de “borrado” por elemento

Índice de agrupación

Registros ordenados por un campo que no es único.

Ej.: cod_aero, num_vuelo

Cod_aero BloqueAAR B1LAN B1QAT B2VAR B3

Bloque 1AAR, 222AAR, 333LAN, 444

Bloque 2LAN, 555LAN, 666QAT, 777

Bloque 3VAR, 888

Índice de agrupación con bloques separados

Se reserva espacio en cada bloque

Cod_aero BloqueAAR 1LAN 2QAT 4...

Bloque 1AAR, 222AAR, 333#next #

Bloque 2LAN, 444LAN, 555LAN, 666next 3

Bloque 3LAN,777##next #Bloque 4

QAT,888QAT,999#next #

Índice secundario

Se construye sobre un campo que no es clave primaria

Es un índice denso (cada registro tiene un lugar en el índice)

Índice secundario,sobre campo único

Ej.:

Pais( id_pais, nombre_pais )

nombre_pais id_bloqueArgentina 3Argelia 1Burundí 3Camerún 2Chad 2...

Bloque 11, Francia2, Argelia3, Suecia

Bloque 24, Camerún5, Chad6, México

Bloque 37, Burundí8, Noruega9, Argentina

Índice secundario,sobre campo no-único

Ej.: Persona( dni, nombre, apellido )

nombre id_indiceAnna 1Joan 2Jordi 3Xavier 4

Bloque 1x, Anna, xx, Joan, x

Bloque 2x, Jordi, xx, Anna, x

Bloque 3x, Joan, xx, Jordi, x

1B1R1, B2R2

2B1R2, B3R1

3B3R2, B2R1

Se utiliza un nivel intermedio de indirección

Índices multinivel

B-Tree

“Block-tree”

[Bayer & McCreight, 1972]

Árbol balanceado

Típicamente (mínimo) 3 niveles

Variante B+ es más popular

Nodo hoja (externo)

34 82

Al registro 34

Al registro 82

Al siguiente hermano

Al registro 95

Nodo interno

21 52 75

x < 21

21 <= x < 52 52 <=x < 75

75 <=x

21 52

B-Tree13

7 23 31 43

2 3 5 7 11 13 17 19 23 29 31 37 41 43 47

Búsqueda en B-Tree

Buscar un elemento

Nodo hoja: búsqueda binaria entre los punteros

Nodo interno: búsqueda binaria y descender por el nodo apropiado

Búsqueda de elementos dentro de un rango (WHERE x > 10 AND x < 20)

Reglas del B-Tree

La raíz tiene 1 elemento (2 punteros) al menos

Todas las hojas están al mismo nivel

Existe una ocupación mínima (no sólo máxima)

En nuestros ejemplos es 1

Existe una ocupación máxima (en este caso k=3)

Insertar � 12� en B-Tree (trivial)13

7 23 31 43

2 3 5 7 11 12 13 17 19 23 29 31 37 41 43 47

Insertar � 40� en B-Tree13

7 23 31 43

2 3 5 7 11 13 17 19 23 29

31 37

43 47

40 41

Insertar � 40� en B-Tree (cont.)13 40

7 23 31

2 3 5 7 11 13 17 19 23 29

31 37

43 47

40 41

Borrado de � 7� en B-Tree13

7 23 31 43

2 3 5 7 11 13 17 19 23 29 31 37 41 43 47

Borrado de � 7� en B-Tree (cont.)13

5 23 31 43

2 3 5 11 13 17 19 23 29 31 37 41 43 47

Borrado de � 11� en B-Tree13

5 23 31 43

2 3 5 11 13 17 19 23 29 31 37 41 43 47

Borrado de � 11� en B-Tree (cont.)13

5 23 31 43

2 3 5 13 17 19 23 29 31 37 41 43 47

Borrado de � 11� en B-Tree (cont.)13

13 23 31 43

2 3 5 13 17 19 23 29 31 37 41 43 47

Borrado de � 11� en B-Tree (cont.)23

13 31 43

2 3 5 13 17 19 23 29 31 37 41 43 47

Contenidos del B-Tree

Un B-Tree de orden k (datos por nodo) y altura h, ¿cuántos elementos puede tener?

Hashing

Función de Hashing

N claves en undominio de tamaño D

N << D

Típicamenteenteros entre0 y M

Con M > N

h(.)

Función de hashing típica

int hashfunction(char *s) {

int i;

for( i=0; *s; s++ ) {

i = 131*i + *s;

}

return( i % M );

}

Ejemplo simple

http://en.wikibooks.org/wiki/Data_Structures/Hash_Tables

Colisión: solución conlista enlazada

http://en.wikibooks.org/wiki/Data_Structures/Hash_Tables

Colisión: solución conlinear probing

http://en.wikibooks.org/wiki/Data_Structures/Hash_Tables

Hashing en memoria secundaria

Se usa M pequeño (M < N)

Cada bucket de la tabla de hashing es uno de los M bloques

Se admiten k colisiones, k=registros por bloque

Los bloques pueden tener punteros a bloques para desbordamiento

Cuando se llena (M*k) puede ser muy lento hacer rehashing

Hashing extensible

La función de hashing tiene x bits

Se ocupa primero 1 bit => sólo 2 buckets

Cuando se produce overflow, se reorganiza para ocupar 2 bits => 4 buckets

La tabla de hashing crece dinámicamente duplicando su tamaño

Resumen

Los SGBD ocultan una alta complejidad

Conocer cómo se organizan cada motor de bases de datos ayuda a obtener mejor eficiencia

Índices generan sobrecosto en espacio y sobrecosto en tiempo al modificar los datos => usar responsablemente

top related

temcco sistemas y estructuras: cálculos de estructuras

Documents

1 estructuras de archivos y bases de datos tanenbaum:...

Documents

estructuras de datos compactas

Documents

sistemas de estructuras

Documents

estructuras de datos avanzadas

Documents

estructuras dinamicas lineales (estructuras de datos)

Documents

estructuras de datos (arreglos)

Technology

estructuras de datos

Documents

tipos y estructuras de datos en los lenguajes...

Documents

estructuras de datos i

Documents

las estructuras de datos

Documents

estructuras de datos 2

Documents

estructuras de datos - … · asignatura: (tis-106)...

Documents

estructuras de datos-arreglos

Education

estructuras de datos - · pdf fileasignatura: (tis-106)...

Documents

estructuras de datos - geocities.ws · apunte de cátedra...

Documents

estructuras de datos ugr

Documents

estructuras de los sistemas educativos europeos...

Documents

estructuras de datos - cairo

Documents

estructuras de datos y algoritmos - unican.es ·...

Documents