todos los sistemas de archivos
TRANSCRIPT
-
7/25/2019 Todos los Sistemas De Archivos
1/42
Sistemas De ArchivosGrupo #10Nombre: Carnet:Kenia Marisol Zepeda Lpez 2012-12Ana Lucrecia Villatoro Rodriguez 2012-22Wendy Luca Mazariegos Samayoa 2007-14Sergio Giovanni de Len Torn 2013-14Cristi Juana Vsquez Jurez 2011-14Bryan Leinder Cordero Caballeros 2013-18Cristian Esteban Moino Rodriguez 2011-14
-
7/25/2019 Todos los Sistemas De Archivos
2/42
SISTEMA DE ARCHIVOS EXT4
(FOURTH EXTENDED FILESYSTE
Este sistema de archivos es el cuarto sistema de archivos ext
siguiente etapa del conjunto de sistemas de archivos extendido, q
ms utilizados por los usuarios de Linux.
Es un sistema de archivos con bitcora (en ingls: Journaling) co
una mejora compatible de ext3. El Ext4 fue publicado como estadiciembre de 2008 en la versin 2.6.28 del ncleo Linux y desde
encuentra disponible para el uso en sistemas de produccin.
-
7/25/2019 Todos los Sistemas De Archivos
3/42
GENERALIDADES DE LOS SISTEMA
ARCHIVOS EXT
El sistema de archivos (EXT) extendido en general fue el primer sist
archivos creado especficamente para el sistema operativo de Linux
reemplazado por el sistema de archivos EXT2. El EXT2 fue el sistem
por defecto de las distribuciones de LinuxReadHat Linux, Fedora C
Los lanzamientos de las nuevas versiones estables, EXT3 y EXT4,
desplazado considerablemente su uso.
https://es.wikipedia.org/wiki/Ext3https://es.wikipedia.org/wiki/Ext4https://es.wikipedia.org/wiki/Ext4https://es.wikipedia.org/wiki/Ext3 -
7/25/2019 Todos los Sistemas De Archivos
4/42
SISTEMA DE ARCHIVOS EXT4
(mejoras)
El sistema de archivos ext4 es capaz de trabajar con volmenes de
hasta 1 exbibyte ( unidad informtica utilizada como un mltiplo de
a 260bytes.) y archivos de tamao de hasta 16 TiB (unidad de info
utilizada como un mltiplo del byte. Equivale a 240bytes.).
Es una mejora compatible de ext3 que utiliza menos CPU y mejode lectura y escritura.
https://es.wikipedia.org/wiki/Byte -
7/25/2019 Todos los Sistemas De Archivos
5/42
SISTEMA DE ARCHIVOS EXT4
(caractersticas principales)
Soporte de volmenes de hasta 1 exabyte (260bytes) y archivos co
hasta 16 terabytes.
Menor uso del CPU.
Mejoras en la velocidad de lectura y escritura.
-
7/25/2019 Todos los Sistemas De Archivos
6/42
SISTEMA DE ARCHIVOS EXT4
El sistema de archivos tiene una tabla donde se almacenan los i-no
nodo almacena informacin del archivo (ruta, tamao, ubicacin fsic
a la ubicacin, es una referencia a un sector del disco donde estn t
una de las referencias a los bloques del archivo fragmentado. Estos
de tamao especificable cuando se crea el sistema de archivos, des
bytes hasta los 4 KiB, lo cual asegura un buen aprovechamiento del
con archivos pequeos.
https://es.wikipedia.org/wiki/Kibibyte -
7/25/2019 Todos los Sistemas De Archivos
7/42
DEFINICIONES RELACIONADAS CON ELSISTEMA DE ARCHIVOS EXT4
Un inodoalmacena toda la informacin sobre un archivo regular, direobjeto del sistema de archivos, excepto su nombre y su contenido. Testructura de datos propia de los sistemas de archivos tradicionales
-
7/25/2019 Todos los Sistemas De Archivos
8/42
Sistema de Archivos Amazon EFS
Es un servicio de almacenamiento de archivos para instancAmazon Elastic Compute Cloud .
La capacidad de almacenamiento es elstica, es decir, aumdisminuye automticamente a medida que agrega o elimin
de manera que sus aplicaciones disponen del almacenaminecesitan, cuando lo necesitan.
-
7/25/2019 Todos los Sistemas De Archivos
9/42
Casos de Uso:
-Repositorios de contenedores
-Entornos de desarrollo.
-Solucin ideal para aplicaciones de big data.
Precio: 0,30 USD/GB-mes
-
7/25/2019 Todos los Sistemas De Archivos
10/42
Ventajas:
Integracin absoluta
Escalado perfecto
Servicio totalmente gestionado
Almacenamiento de archivos compartidos entr
-
7/25/2019 Todos los Sistemas De Archivos
11/42
Rendimiento uniforme y escalable
Bajo coste
Alta disponibilidad y durabilidad
Seguridad
-
7/25/2019 Todos los Sistemas De Archivos
12/42
Amazon S3
Algunas opciones de almacenamiento en AWS:
-
7/25/2019 Todos los Sistemas De Archivos
13/42
Almacenamiento de Objetos:datos presentados como d
objetos
Datos accedidos por APIs a travs de Internet
Almacenamiento para Archiving: datos presentados com
vaults/archives de objetos. Storage de menor costo, parason accedidos frecuentemente
Almacenamiento de Bloques (anlogo a una SAN): datos
como discos o volmenes
Acceso de menor latencia a partir de las Instancias EC2
Almacenamiento de archivos (anlogo a un NAS): datos p
como un sistema de archivos (file system)
Acceso de baja latencia y compartido entre mltiples inst
Back up y archivadode datosen Amazon S3 y Ama
-
7/25/2019 Todos los Sistemas De Archivos
14/42
Amazon S3, Simple Storage Servic
-
7/25/2019 Todos los Sistemas De Archivos
15/42
Amazon S3 almacena datos como objetos dentro de recurso
como depsitos.
Se puede realizar operaciones de escritura, lectura y elimin
objetos almacenados en el contenedor.
El tamao de los objetos puede ser de hasta 5 terabytes.
Se puede controlar el acceso al depsito (por ejemplo, quin
eliminar y recuperar objetos del depsito), ver los registros d
depsito y a sus objetos, as como elegir la regin de AW
almacenar un depsito para optimizar la latencia, minimizar
abordar los requisitos normativos.
-
7/25/2019 Todos los Sistemas De Archivos
16/42
Capacidad, Seguridad y DisponibilidDispondremos de un nico contenedor con una capacidad virtualmente ilimitada.
almacenemos, ms pagaremos.
Fsicamente, nuestros datos estarn distribuidos por los Centros de Datos de Am
algo que permanece ajeno a nosotros .
Para la organizacin de nuestros archivos, Amazon ha creado tres conceptos:
Depsitos: son algo parecido a un directorio o carpeta de nuestro sistema o
colocaremos nuestros archivos. Los nombres de los depsitos estn comparti
red de Amazon S3, por lo que si creamos un depsito, nadie ms podr usar ese
nuevo dposito.
objetos: son las entidades de datos en s, es decir, nuestros archivos. Un objet
los datos como los metadatos necesarios para S3.
llaves: son una clave nica dentro de un depsito que identifica a los objetosd
Un objeto se identifica de manera nica dentro de todo S3 mediante su depsito+
-
7/25/2019 Todos los Sistemas De Archivos
17/42
Por defecto tendremos tres usuarios:
Owner (propietario), referente al usuario que aloja el archivo
Authenticated Users (usuarios autenticados), referente a usuari
autenticados en Amazon
Everyone (todos), referente a todos los usuarios no autenticado
cualquier cliente en todo internet.
Aunque podremos aadir nuevos usuarios de S3 con permisos
para nuestros datos.
-
7/25/2019 Todos los Sistemas De Archivos
18/42
Precios
-
7/25/2019 Todos los Sistemas De Archivos
19/42
Preguntas FrecuentesP: Qu es Amazon S3? Amazon S3 esalmacenamiento para Internet. Es un sen
almacenamiento que ofrece a los desarrolladores de software una inf
almacenamiento de datos altamente escalable, fiable y de baja latencia a precios m
P: Qu puedo hacer con Amazon S3? Amazon S3 proporciona una sencilla inte
web que puede utilizar para almacenar y recuperar la cantidad de datos que dese
y desde cualquier parte de la web. Con este servicio web los desarrollador
fcilmente aplicaciones que hagan uso del almacenamiento en Internet.
P: Qu permite hacer a los desarrolladores que no pudieran hacer antes? H
infraestructura de almacenamiento de datos sofisticada y escalable, como la de
fuera del alcance de los pequeos desarrolladores. Amazon S3 permite a u
aprovechar las propias ventajas de Amazon de escalado masivo sin necesidad de
ni compromisos de rendimiento.
-
7/25/2019 Todos los Sistemas De Archivos
20/42
P: Qu tipo de datos puedo almacenar? Podr almacenar prcticamente todo
cualquier formato. Consulte el Contrato de licencia de Amazon Web Servicesp
detalles.
P: Qu hace Amazon con los datos que tengo en Amazon S3? Amazon almac
realiza un seguimiento del uso asociado para calcular su factura. Amazon no
datos con ningn fin que no sea la oferta Amazon S3, a excepcin de cuando la
Consulte el Contrato de licencia de Amazon Web Services para obtener ms detal
P: Almacena Amazon sus propios datos en Amazon S3? S. Los desarrollad
utilizan Amazon S3 para diversos proyectos. Muchos de estos proyectos util
como almacn de datos autorizado, y confan en l para operaciones de vital imp
negocio.
P: De qu forma estn organizados los datos en Amazon S3? Amazon S3 es un
de datos basado en claves. Cuando almacena datos, asigna una clave de objeto
utilizarse posteriormente para recuperar los datos. Las claves pueden ser cua
pueden establecerse de forma que imiten atributos jerrquicos.
http://aws.amazon.com/agreement -
7/25/2019 Todos los Sistemas De Archivos
21/42
GOOGLE FILE SYSTEM (GFS)
Sistema de archivos distribuido que se invent e
para almacenar y administrar todos los archivos qu
el funcionamiento de este buscador.
Descendiente directo de BIG FILES el sistema d
que Larry Page y Sergey Brin desarrollaron cuan
empezaba.
-
7/25/2019 Todos los Sistemas De Archivos
22/42
EL EQUIPO UTILIZADO EN GOOGL
Las mquinas que forman los cluster son:
- Mquinas Linux.
- Procesadores Intel Celeron de doble ncleo de 2 GH.
- Memoria RAM de 2Gb
- Almacenamiento 800 Gb
En el 2009 el servidor promedio era de 16Gb de memoria RAM y
duro.
Se trabaj con estas caractersticas debido a que Larry y Sergey a
iniciar no posean los suficientes recursos para grandes mquinas.
-
7/25/2019 Todos los Sistemas De Archivos
23/42
QU ES UN CLUSTER?
Grupo de sistemas (servidores) independientes, lla
nodos, que trabajan como un sistema nico para ga
el alto rendimiento y asegurar la disponibilidad de s
una empresa.
Son llamados Mega Centros de Procesamiento de (CPD) ya que cuentan con aproximadamente 2 mill
mil servidores.
-
7/25/2019 Todos los Sistemas De Archivos
24/42
Lugares donde se encuentran los 13 CPD de Google:
-
7/25/2019 Todos los Sistemas De Archivos
25/42
COMPONENTES DE LOS CLUSTER
-
7/25/2019 Todos los Sistemas De Archivos
26/42
CHUNK SERVERSSus nicas funciones son almacenar los archivos del s
chunks" y enviar actualizaciones de su estado al nodo maest
Los chunks; tienen un tamao de bloque de 64Mb para reducde los metadatos asociados a ellos y as evitar que lo
sobrecarguen individualmente.DESVENTAJA: Que los chunk tengan un tamao de bloque
puede generar problemas si muchos clientes quieren acced
chunk lo cual puede generar un cuello de botella.Los chunks nunca son sobreescritos o reducidos en tamao s
lee o se les adiciona ms informacin hasta ocupar su espaci
Cada archivos se guarda 3 veces.
-
7/25/2019 Todos los Sistemas De Archivos
27/42
GUARDAR 3 VECES EL ARCHIVO!!
ESO NO OCUPA MUCHO ESPACIO?
R//NO,porque permite tener respaldos de informacin
facilita el acceso a archivos que son muy demandados.
-
7/25/2019 Todos los Sistemas De Archivos
28/42
LOS NODOS MAESTROS
Son los nodos que tienen la mayor carga de trabajo se en
guardar los metadatos de cada chunk y administra los
lectura y escritura de los chunks. Los nodos maestro tam
registros de los cambios crticos hechos a los archivos y rea
los archivos que no han sido replicados.
-
7/25/2019 Todos los Sistemas De Archivos
29/42
METADATOSLos metadatos de cada archivo se conforman po
de identificacin de cada chunk los cuales alime
en el nodo maestro para dar seguimiento a su ubic
-
7/25/2019 Todos los Sistemas De Archivos
30/42
PROCESO DE LECTURA
Las aplicaciones funcionando por medio de clientes crean una
modificacin en la que est el nombre del archivo y su ubicacin, el recibe esta solicitud y responde con la etiqueta de identificacin y lde las rplicas del archivo, el cliente con la respuesta del nodo mamandar la solicitud y empieza a trabajar con la rplica ms cercana.
Este proceso se hace cada vez que se hace una bsqueda, se hace m
bsquedas cada segundo o ms de mil millones de bsquedmencionar que el nmero de pginas indexadas tambin est emagnitud de miles de millones.
-
7/25/2019 Todos los Sistemas De Archivos
31/42
Google file system est optimizado para estos grande
informacin por lo que las mquinas de google opera
grandes anchos de banda en lugar de ser efe
operaciones de lectura y escritura pequeas lo cual es
que suceda si se puede traducir a unidades, google
cada flujo Petabytes de informacin (1 petabyte = 1 mil
-
7/25/2019 Todos los Sistemas De Archivos
32/42
PROCESO DE ELIMINACIN
Cuando el sistema decide borrar un archivo no se libera su espacio e
inmediatamente sino que se le asigna un estado oculto.
El sistema realiza peridicamente escaneos del estado de memoria yque los archivos llevan en estado oculto ms de tres das se libera sumemoria y se eliminan los metadatos asociados al archivo.
Es un desventaja tener archivos en espera en la memoria?R// S,pero evita que se borre informacin importante.
-
7/25/2019 Todos los Sistemas De Archivos
33/42
Yahoo! FILE SYSTEM
En febrero de 2008, Yahoo recibi una oferta de compra por parte
valorada en 44.600 millones de dlares. La propuesta fue rechempresa al considerarla muy baja. Un ao y medio ms tarde, sin emy Microsoft establecieron un acuerdo respecto al uso del motor de b
El equipo de bsqueda de Yahoo! con frecuencia bloguea acerca de
de anuncios, caractersticas, actualizaciones y mejoras. Estoactualizaciones de ndice denominadas climticas actualizacaracterstica de Yahoo! Search ASSIST.
-
7/25/2019 Todos los Sistemas De Archivos
34/42
Yahoo! Search
Yahoo! Search indexar y almacenar en cach los formatos de pgina
comunes, as como varios de los ms populares-tipos de archivo, coExcel hojas de clculo, PowerPoint, Word documentos, RSS/XML.Utiinterfaz de bsqueda avanzada o la configuracin de preferencias Yabsqueda permite la personalizacin de los resultados de bsquedade ciertos ajustes tales como: SafeSearch.
Tambin la seleccin de idioma, nmero de resultados, las restricciodominio, etc. Para una gua Basic y starter a Yahoo! Search, de tambproporciona un tutorial bsico de bsqueda.
-
7/25/2019 Todos los Sistemas De Archivos
35/42
MOTOR DE BSQUEDA DE YAHOO
En el caso de Yahoo!, ms que de un simple motor de bsquedas se
considerar como un portal web. Yahoo! no slo puedes realizar sus bla web, adems te ofrece un servicio de correo, agregador de noticiaagencia de viajes, juegos y entretenimiento, etc.
ES por ello que este motor de busca aun sigue vigente porque est e
tipo de personas que no les interesa la tecnologa ni como funciona, necesitan un buscador que sea atractivo y donde puedan navegar en
-
7/25/2019 Todos los Sistemas De Archivos
36/42
Hadoop
Es un framework de software que soporta aplicaciones distribuidas
licencia libre.Permite a las aplicaciones trabajar con miles de nodos de datos. El crecimiento exponencial de informacin digital y las limitransferencias de datos en las tecnologas de almacenamiento, ha psoluciones como Hadoop que nos permiten realizar de manera eficieprocesamiento, la lectura y la escritura de grandes cantidades de dat
paralelo y en mltiples discos, donde los discos estn ubicados en dmquinas.
Hadoop tiene un componente que gestiona los archivos de gran tam
-
7/25/2019 Todos los Sistemas De Archivos
37/42
Hadoop tiene un componente que gestiona los archivos de gran tamque crecen por encima de la capacidad de almacenamiento de una fsica, por lo cual este componente se encarga de dividir el archivo plas diferentes divisiones entre varias mquinas, el nombre del compo
HDFS.
HDFS
Es un sistema de archivos distribuidos que se encarga del almacenatravs de una red de mquinas, el cual est diseado para almacena
gran tamao con una filosofa de escribir solo una vez y permitir mlecturas, esta filosofa encaja comnmente con aplicaciones tipo ar(web crawler).
-
7/25/2019 Todos los Sistemas De Archivos
38/42
El sistema de archivos tiene la capacidad de realizar una replicacin(copias redundantes de los datos guardados en varias mquinas), coque en el caso de fallo de un nodo se utilice una copia disponible demquina, evitando as la prdida de datos y poder seguir trabajandointerrupcin perceptible para el usuario.
Cada bloque se replica en un pequeo nmero de mquinas separadfsicamente (normalmente tres). Permitiendo que en casos de que u
est disponible exista una copia de este bloque se puede leer desdeubicacin de una manera transparente para el cliente.
-
7/25/2019 Todos los Sistemas De Archivos
39/42
HDFS implementa la replicacin utilizando el concepto de bloque dees la cantidad mnima de datos que se pueden leer o escribir en un dcaso el sistema de archivos HDFS tiene un bloque por defecto de 6unidad de tamao bsico para la particin de un archivo , siendo es
superior al de los discos. La razn de su gran tamao es minimizar bsquedas, ya que este tamao presenta tiempos de bsqueda de bdisco inferior al tiempo de transferencia de bloque desde el disco RAM. Para mejorar la velocidad de transferencia de bloque a memodebe realizar una disposicin de los siguientes bloques del archivo e
secuencial y no aleatoria en el disco, permitiendo por la secuencia deflujo continuo o streaming de datos hacia la memoria.
-
7/25/2019 Todos los Sistemas De Archivos
40/42
HDFS tiene una caracterstica de los sistemas distribuidos contempoes la separacin de los datos de los metadatos, esto es con el fin deadministracin de almacenamiento, ya que en el caso de HDFS los bun tamao fijo y no almacenan informacin de los metadatos, lo queclculo para determinar la capacidad de bloques por unidad de discoque preocuparse por el espacio que genera la informacin de metadlos permisos de creacin, modificacin y tiempos de acceso para lorbol de directorios, entre otros, el cual se almacena en mquinas(nseparadas de los datos.
Para realizar esta separacin de los datos de los metadatos el sistem
-
7/25/2019 Todos los Sistemas De Archivos
41/42
ptiene dos tipo de nodos operativos que funcionan con un patrn maeel maestro es el NameNodes y el esclavo es el DataNodes.
-El Namenodes gestiona y almacena la informacin sobre cada arc
metadatos, como la ubicacin de los bloques que componen el archdatanodes, el rbol de directorios, los permisos, el nombre del archivfunciones ms, se debe tener en cuenta que los metadatos son modocupan poca memoria, por consiguiente, se busca que los metadatoestn en la memoria RAM para un rpido acceso y sincronizacin.
-El datanodes se encargan de almacenar y recuperar bloques, ademperidicamente le informan al namenode las listas de bloques que salmacenando(sincronizacin).
-
7/25/2019 Todos los Sistemas De Archivos
42/42
Oozie
Es el motor de workflow Yahoo! Para el Hadoop, es una solucin de f
trabajo de cdigo abierto para gestionar y coordinar los trabajos queen el Hadoop, fue diseado para flujos de trabajo complejos de Yahomecanismo fundamental para gestionar complejas cargas de trabajode datos a travs de Yahoo!.