![Page 1: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/1.jpg)
1
2º Jornada de Supercomputación E.T.S.I. Aeronaúticos UPM
Lustre: A High Performance Open Source File System
Gregorio ChillónTechnical SpecialistSun Microsystems
1
![Page 2: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/2.jpg)
2
Agenda
• Introducción• Arquitectura y funcionalidades• Hardware recomendado• Una solución completa con SAMQFS• ¿Quién lo utiliza?
![Page 3: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/3.jpg)
3
Introducción
![Page 4: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/4.jpg)
4
¿Qué es lustre?• Es un sistema de ficheros distribuido en red de alto
rendimiento• ¿Qué quiere decir esto?
> Que es un sistema de ficheros compartido. Los datos se comparten entre varios clientes (tipo NFS)
> Que es un sistema de ficheros en red. No se accede a través de una SAN
> Los clientes ven un solo sistema de ficheros> Varios clientes pueden acceder de forma simultanea al
sistema de ficheros y lustre gestina los bloqueos
![Page 5: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/5.jpg)
5
¿Qué es lustre?• Es una solución software• Es Open Source, licencia GNU GPL• Soporte para todo tipo de tecnologías de red
(LNET)• Proporciona alta disponibilidad (sin puntos únicos
de fallo)• Proporciona una gran escalabilidad y rendimiento
![Page 6: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/6.jpg)
6
Retos del almacenamiento para HPCQue necesitan nuestros clientes
Rendimiento Escalabilidad Facilidad instalación Reducir costes
![Page 7: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/7.jpg)
7
Respondiendo a estos retosRendimiento y escalabilidad
• Rendimiento escalando desde 1 a más de 240GB/s
• Escalabilidad casi lineal> Escalabilidad de ~90% del máximo teórico
• Crecimiento online de forma sencilla> Se puede aumentar facilmente capacidad y rendimiento
• Escalabilidad masiva cuando es necesaria> Sistema de ficheros escalable hasta 2000 millones de
ficheros y 32 petabytes para crecimientos de datos grandes
> Desde unos pocos hasta miles de clientes – escalabilidad real de pequeño a grande
![Page 8: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/8.jpg)
8
Respondiendo a estos retosFacilidad de instalación y configuración
• Servidores Sun Fire y almacenamiento de Sun probado y certificado para obtener los mejores resultados en el despliegue y funcionamiento de lustre
• Aproximación modular permite una configuración y despliegue más rápido
• Sun HPC Software Linux Edition: una pila de software para HPC que ha sido probado/certificado (incluye lustre)
• Servicios de instalación y configuración
![Page 9: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/9.jpg)
9
Respondiendo a estos retosRedución de costes
• Se beneficia del uso de componentes hardware estandar que permite el software open source> Sistemas estandar vs sistemas de
almacenamiento propietario
• Facilidad de instalación ahorra tiempo y dinero
![Page 10: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/10.jpg)
10
Arquitectura
![Page 11: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/11.jpg)
11
Arquitectura• Lustre es una arquitectura de almacenamiento
– Lustre separa metadatos (MDS) de datos (OSS)
– Escalabilidad horizontal de E/S entre todos los servidores – Paraleliza E/S gestionando bloqueos
– Aumentar la capacidad añadiendo almacenamiento
– Aumentar el rendimiento añadiendo servidores
– Puede usar cualquier tipo de almacenamiento (dispositivos tipo bloque)
![Page 12: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/12.jpg)
12
Arquitectura
OSS 7
Servidores de metadatos (HA)
Clientes Lustre
1 100,000
MDS disk storage containing Metadata Targets (MDT)
= failover
MDS 1
(activo)
MDS 2
(standby)
OSS 1
OSS 2
OSS 3
OSS 4
OSS 5
OSS 6
Servidores de datos (OSS)
11000’s
Commodity Storage
Almacenamiento de gama alta
Soporte simultaneo para distintos tipos de red
Router
GigE
Elan
Myrinet
InfiniBand
Almacenamiento compartido para permitir alta disponibilidad
OSS storage with Object Storage Targets (OST)
![Page 13: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/13.jpg)
13
Arquitectura
• Clientes– Acceden al sistema de ficheros
• Servidor de gestión (MGS)– Proporciona información de configuración a los clientes
– Notifica a otros nodos de cambios en la configuración
– Por defecto almacena su información en un MDT
– 1 servidor MGS (o dos en configuración Active/Standby) por site
![Page 14: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/14.jpg)
14
Arquitectura
• Servidor de metadatos (MDS)– Proporciona información de metadatos
– Almacena su información en MDT (Metadata Targets)
– 1 MDT por sistema de ficheros
– Cada MDT pertenece a un único sistema de ficheros
– Se puede configurar el alta disponibilidad
![Page 15: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/15.jpg)
15
Arquitectura
• Servidor de datos (OSS)– Proporciona E/S para los datos en el sistema de ficheros
(striping data)
– Almacena la información en OST (Object Storage Targets)
– Cada OST pertenece a un solo sistema de ficheros
– Tamaño máximo de OST: 8TB
– Máximo #OST/sistema de fichetos: 1020
– Se puede configurar un par de servidores de datos en cluster “Active/Active”, pero cada OST puede ser exportado únicamente por un servidor de datos
![Page 16: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/16.jpg)
16
Como funciona– El cliente obtiene información del sistema de ficheros del
servidor de gestión (MGS) (<mgsnid> is passed on mount.lustre)
– El cliente envía/recibe todos los metadatos del servidor de metadatos MDS (open/close ficheros y directorios)
– El cliente (LOV) escribes los datos (stripes) entre todos los OST exportados por los servidores OSS
![Page 17: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/17.jpg)
17
Alta disponibilidad• Sin punto único de fallo• Las modificaciones de metadatos son asíncronas
– El cliente salva una copia de sus escrituras
– Si el servidor falla, el cliente repite su petición
– El cliente solo descarta sus peticiones, cuando el MDS le informa que se han realizado los cambios en el MDT
• MDT y OST soportan configuración en HA– Configurar un par de servidores con almacenamiento compartido
– LinuxHA (Heartbeat) failover MDT/OST
– El cliente bloquea E/S e intenta reconectarse al servidor de respaldo, para repitir. La aplicación en el cliente se bloquea.
![Page 18: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/18.jpg)
18
Alta disponibilidad• MDT/OST Failover
– Failover se configura en modo activo/pasivo– Cada disco solo se puede montar en un servidor.– NUNCA se puede montar el mismos MDT/OST en dos servidores
(PERDIDA DE DATOS)
• Un par de servidores se puede configurar en activo/activo
– Cada servidor exporta uno o mas OST/MDT
![Page 19: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/19.jpg)
19
¿Qué nos proporciona lustre?
Quota, Failover, POSIX, POSIX ACL, secure portsFuncionalidades
TrainingFormación
Número de ficheros: 2000 millonesTamaño de un sistema de ficheros: 32PB, Tamaño max fichero 1.2PB
Capacidad
Soporte nativo para distintas tecnologías de redRedes
Servidores de metadatos (MDS): 1 + failoverServidores de datos (OSS): hasta 450
# servidores
Un solo cliente o servidor: 2 GB/s +BlueGene/L – primera semana: 74M ficheros, 175TB escritosE/S agregada (One FS): ~130GB/s (PNNL) Operaciones de metadatos: ~15,000 ops/second
Rendimiento
Software reliability on par with hardware reliabilityIncreased failover resiliency
Estabilidad
Clientes: 25,000 – Red StormProcesos: 130,000 – BlueGene/L
# clientes
![Page 20: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/20.jpg)
20
Hardware recomendado
![Page 21: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/21.jpg)
21
Hardware recomendado
![Page 22: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/22.jpg)
22
Una solución completa (SAMQFS)
![Page 23: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/23.jpg)
23
Solución completa de almacenamiento
Red IBSAN
Archive
Lustre – datos online SAM-QFS – datos archivados
Nodos de cómputo
Servidores de datos
Data Movers
Recuperar
Near Line Archive
Tier 1 Archive
Servidores demetadatos
![Page 24: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/24.jpg)
24
¿Quién lo utiliza?
![Page 25: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/25.jpg)
25
¿Quién lo utiliza?
• Lustre es el sistema de ficheros lider en entornos HPC
– Siete de los sistemas del TOP 10
– 50% de los treinta primeros sistemas del TOP 500
![Page 26: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/26.jpg)
26
Sandia Red Storm340 TB Storage; 50GB/s I/O throughput
12.960 multicore compute sockets
Livermore Blue Gene/LSCF3.5 PB storage; 52 GB/s I/O throughput
131.072 processor cores
TACC Ranger1.73 PB storage; 40GB/s I/O throughput
62.976 processor coresres
ORNL Jaguar10.5PB storage; 240 GB/s I/O throughput goal
265.708 processor cores
![Page 27: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/27.jpg)
27
FRAMESTORE CFC MediaNecesidades del cliente>Eliminar los cuellos de botella en el almacenamiento derivados de la falta de escalabilidad de NFS
>Aumentar el rendimiento y la estabilidad del almacenamiento
Propuesta de valor de lustre>Duplicó su almacenamiento con un coste tres veces menor al de otras soluciones
>Posilibilidad de proporcionar un sistema de ficheros único a sus artistas de producción
>Software open source con gran flexibilidad en el hardware que puede utilizar
“ While we were working on The Golden Compass, we faced the most intensive I/O requirements on any project to date. Lustre played a vital role in helping us to deliver this project. ”— Daire Byrne, senior systems integrator, Framestore
![Page 28: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/28.jpg)
28
Level3 Telecomunicaciones
Necesidades del cliente>Asegurar la disponibilidad permanente
>Porporcionar un servicio escalable
>Controlar los costes
Propuesta de valor de lustre>Posibilidad de escalar de forma sencilla
>Funciona con cualquier tipo de almacenamiento
>Alto rendimiento y fiabilidad
NBC broadcast 2008 Summer Olympics live online over Level 3 network using Lustre
“With Lustre, we can achieve that balancing act of maintaining a reliable network with lesscostly equipment. It allows us to replace servers and expand the network quickly and easily” Kenneth Brookman, Level 3 Communications
![Page 29: 2º Jornada de Supercomputación E.T.S.I. Aeronaúticos …webserver.dmt.upm.es/zope/JS/segunda-edicion/conferencias/Present... · • Se beneficia del uso de componentes ... •](https://reader031.vdocumento.com/reader031/viewer/2022021904/5baa674d09d3f209118c480e/html5/thumbnails/29.jpg)
29
Chebron EnergíaNecesidades del cliente>Procesar grandes cantidades de datos
>Mantener el coste del hardware dentro de lo razonable
>Escalar el cluster existente con facilidad
Propuesta de valor de lustre>Capacidad de dar respuesta al crecimiento exponencial de los datos
>Capacidad para que los clusters de computación escalen
>Reducir los costes hardware
>Reducir los costes de mantenimiento
More Success