Download - Reducción de datos con Dell EMC PowerMax
$ H17072.3
Documentación técnica
Dell EMC PowerMax: Data Reduction Compresión y desduplicación en línea
Resumen Dell EMC™ PowerMax Data Reduction es una función de eficiencia del
almacenamiento que combina compresión en línea y desduplicación en línea.
El uso de ambas funciones de eficiencia del almacenamiento en conjunto
mejora el ahorro de capacidad y, al mismo tiempo, mantiene un gran
rendimiento y confiabilidad.
Febrero de 2021
Revisiones
2 Dell EMC PowerMax: Data Reduction | $ H17072.3
Revisiones
Fecha Descripción
Mayo de 2018 Versión inicial
Septiembre de 2020 Actualizaciones para la versión de PowerMaxOS del tercer trimestre de 2020
Febrero de 2021 Actualización para la versión de PowerMaxOS del primer trimestre de 2021
Reconocimientos
Autor: Robert Tasker
La información de esta publicación se proporciona “tal cual”. Dell Inc. no se hace responsable ni ofrece garantía de ningún tipo con respecto a la
información de esta publicación y desconoce específicamente toda garantía implícita de comerciabilidad o capacidad para un propósito determinado.
El uso, la copia y la distribución de cualquier software descrito en esta publicación requieren una licencia de software correspondiente.
Esta guía puede contener ciertas palabras que no son coherentes con las pautas de lenguaje actuales de Dell. Dell tiene planes para actualizar esta
guía en versiones futuras posteriores para revisar estas palabras según corresponda.
Este documento puede contener lenguaje de contenido de terceros que no está bajo el control de Dell y no es coherente con las reglas actuales
de Dell para el contenido de Dell. Cuando el tercero pertinente actualice el contenido de terceros, este documento se revisará según corresponda.
Copyright © 2018–2021 Dell Inc. o sus filiales. Todos los derechos reservados. Dell EMC, Dell EMC y otras marcas comerciales son marcas
comerciales de Dell Inc. o sus filiales. Las demás marcas comerciales pueden ser marcas comerciales de sus respectivos dueños. [29/10/2021]
[Documentación técnica] [$ H17072.3]
Tabla de contenido
3 Dell EMC PowerMax: Data Reduction | $ H17072.3
Tabla de contenido
Revisiones .......................................................................................................................................................................... 2
Reconocimientos ................................................................................................................................................................ 2
Tabla de contenido ............................................................................................................................................................. 3
Resumen ejecutivo ............................................................................................................................................................. 4
1 Visión general de la reducción de datos ...................................................................................................................... 5
1.1 Descripción general del motor de compresión adaptable .................................................................................. 5
1.2 Descripción general de la deduplicación ............................................................................................................ 5
1.3 Terminología ....................................................................................................................................................... 6
2 Detalles de configuración ............................................................................................................................................. 7
3 Motor de compresión adaptable ................................................................................................................................... 8
3.1 Aceleración de hardware .................................................................................................................................... 8
3.2 Ubicación de los datos optimizada ..................................................................................................................... 8
3.3 Compresión basada en actividad ....................................................................................................................... 8
3.4 Empaquetado de datos minucioso ..................................................................................................................... 9
3.5 Compresión de datos extendida ......................................................................................................................... 9
4 Desduplicación ........................................................................................................................................................... 10
4.1 Aceleración de hardware .................................................................................................................................. 10
4.2 Algoritmo de desduplicación ............................................................................................................................. 10
4.3 Tabla hash ........................................................................................................................................................ 10
4.4 Objeto de administración de desduplicación .................................................................................................... 10
4.5 Flujo de I/O para reducción de datos ............................................................................................................... 11
5 Uso de la capacidad ................................................................................................................................................... 12
6 Configuración de reducción de datos ......................................................................................................................... 13
6.1 Pool de recursos de almacenamiento y sistema .............................................................................................. 13
6.2 Grupo de almacenamiento ............................................................................................................................... 13
7 Eficiencia del sistema ................................................................................................................................................. 14
7.1.1 Uso de recursos del sistema ............................................................................................................................ 16
7.1.2 Compresión de grupos de almacenamiento en Unisphere .............................................................................. 19
8 Servicios de datos compatibles .................................................................................................................................. 21
8.1 Replicación local (SnapVX) .............................................................................................................................. 21
8.1.1 Sesiones Nocopy (SnapVX, VP Snap) ............................................................................................................. 21
8.1.2 Sesiones de copia (destinos vinculados con copia completa de SnapVX, clon, espejeado) .......................... 21
8.2 Replicación remota (SRDF) .............................................................................................................................. 22
8.3 Cifrado de datos en reposo (D@RE) ............................................................................................................... 22
8.4 Volúmenes virtuales ......................................................................................................................................... 22
9 Conclusión .................................................................................................................................................................. 23
A Soporte técnico y recursos ......................................................................................................................................... 24
Resumen ejecutivo
4 Dell EMC PowerMax: Data Reduction | $ H17072.3
Resumen ejecutivo
La reducción de datos con el sistema Dell EMC PowerMax ofrece una mejora en la eficiencia del
sistema mediante la combinación de la compresión en línea con la desduplicación en línea y la detección
de patrones. El análisis de estas técnicas de ahorro de capacidad crea un sistema donde los usuarios
pueden lograr grandes ahorros de capacidad en datos reducibles. La reducción de datos no solo comprime
los datos, sino que también elimina las copias redundantes de los datos comprimidos y ofrece un excelente
rendimiento. El contenido de esta documentación técnica tiene como objetivo informar al lector cómo
funciona la reducción de datos dentro de los sistemas Dell EMC™ PowerMax.
Visión general de la reducción de datos
5 Dell EMC PowerMax: Data Reduction | $ H17072.3
1 Visión general de la reducción de datos En los sistemas de almacenamiento de datos PowerMax, la reducción de datos combina el motor de
compresión adaptable (ACE) y la desduplicación en línea para proporcionar una plataforma de alto
rendimiento con uso eficiente del espacio. La reducción de datos permite a los usuarios escribir más datos
de host que la cantidad total de capacidad útil disponible. La compresión y la desduplicación son dos
funciones diferentes que funcionan en conjunto. La compresión reduce el tamaño de los conjuntos de datos
y la desduplicación identifica los conjuntos de datos idénticos y almacena una sola instancia. La ejecución
de estas funciones en paralelo permite que el sistema sea eficiente en cuanto a la capacidad y ofrezca un
rendimiento óptimo.
1.1 Descripción general del motor de compresión adaptable El Motor de compresión adaptable (ACE) es la combinación de varios componentes que ofrecen el
rendimiento esperado de un sistema de almacenamiento todo flash y que mantienen la eficiencia del
almacenamiento de datos. Los datos entrantes se comprimen en línea mediante compresión basada en
hardware con compresión de software en el lugar y se usan según sea necesario. Los algoritmos inteligentes
aprenden de la carga de trabajo entrante para crear de manera dinámica un back-end personalizado que se
ocupa de la carga de trabajo entrante. El motor de compresión adaptable cambia el diseño del pool de
compresión de back-end según sea necesario a fin de garantizar que el sistema funcione en los niveles
óptimos de rendimiento y de eficiencia en el uso del espacio. Gracias a la estadística interna, los algoritmos
identifican los datos más utilizados en el sistema para permitirle omitir el proceso de compresión.
El resultado minimiza la sobrecarga de descompresión en los datos del sistema a los que se accede con
mayor frecuencia. En conjunto, estas funciones permiten que Data Reduction ofrezca un rendimiento
excelente y administre eficientemente el uso de la capacidad de back-end.
1.2 Descripción general de la deduplicación La desduplicación es un método de ahorro de capacidad que identifica las copias idénticas de datos y que
almacena una sola instancia. Hay algunas facetas de la desduplicación que son necesarias para que esta
proporcione un ahorro eficiente de la capacidad.
• ID de hash: el ID de hash es un identificador único para los datos entrantes que se utiliza para
determinar si se necesita una relación de desduplicación. El sistema utiliza un algoritmo SHA-256
para generar el ID de hash.
• Tabla de ID de hash: las tablas de hash son una asignación de memoria del sistema distribuida
entre los directores del sistema. Estas tablas son un catálogo de los ID de hash que utiliza el
proceso de desduplicación para determinar si se necesita una relación de desduplicación o si los
datos se pueden almacenar en el disco.
• Objeto de administración de desduplicación (DMO): el DMO administra los punteros para los
datos desduplicados entre los dispositivos de front-end y los datos almacenados en el disco.
Esto también administra en qué tabla de hash se almacenan los ID de hash cuando existen
relaciones de desduplicación.
Visión general de la reducción de datos
6 Dell EMC PowerMax: Data Reduction | $ H17072.3
1.3 Terminología Reducción de datos: la utilización de compresión o desduplicación para reducir el uso de la capacidad
y el costo del almacenamiento físico. En los sistemas anteriores al lanzamiento de Dell EMC PowerMax,
la reducción de datos es solo compresión.
Reserva de reducción de datos: una reserva de recursos del sistema en relación con su dimensionamiento
que se utiliza para determinar el ahorro máximo que se puede lograr al habilitar la reducción de datos. Esta
reserva actúa como una protección del sistema para la administración de recursos, como la capacidad de
disco y la caché, a fin de mantener un equilibrio entre el rendimiento y el uso eficiente de la capacidad.
Tasa de compresión de grupo de almacenamiento: la tasa de compresión que se visualiza para las
asignaciones relacionadas con un grupo de almacenamiento específico. Este valor puede ser mayor o menor
que la relación de reducción de datos del pool de recursos de almacenamiento o del sistema que se muestra
en las pantallas de la aplicación de administración.
Capacidad de compresión: la tasa de compresión máxima que se puede lograr para un grupo
de almacenamiento o un dispositivo. Este valor se puede presentar como un valor más alto que el
ahorro actual debido a la compresión basada en la actividad de diseño (ABC, consulte la sección 3.3).
Listo para reducción de datos: el estado del sistema cuando el pool de recursos de almacenamiento (SRP)
predeterminado es capaz de almacenar los datos comprimidos. Para que un sistema pueda comprimir datos,
debe contar con un módulo de I/O de compresión por director, tener habilitada la compresión y tener
configurada una tasa de reserva de reducción de datos del sistema.
Compatible con reducción de datos: un sistema instalado con PowerMaxOS de al menos el primer
trimestre de 2018, en el que la reserva de la reducción de datos aplicada al sistema IMPL es de 1.0:1.
Pool de compresión: el conjunto de dispositivos de datos configurados dentro de los discos físicos donde
el tamaño de segmento es el mismo. Por ejemplo, el pool de 64 KB está compuesto por dispositivos de
datos en los que todos los segmentos del dispositivo tienen un tamaño de 64 KB.
Terabytes usables (TBu): la capacidad de almacenamiento usable de back-end en ausencia de compresión
que hace referencia a la cantidad de almacenamiento físico en el sistema.
Ejemplo: 50 TBu es 50 terabytes de almacenamiento físico usable.
Terabytes eficaces (TBe): la capacidad de almacenamiento real de front-end en presencia de reducción
de datos. Esto representa la cantidad máxima potencial de datos de hosts o de aplicaciones que se pueden
escribir en el arreglo.
Ejemplo: 50 TBu de almacenamiento físico con una reserva de reducción de datos de proporción 3:1
se traduce en una capacidad de 150 TBe. El valor total de TBe se puede lograr suponiendo que la
capacidad de consumo de datos en el arreglo es reducible en un nivel igual o mayor que el conjunto
de reserva de reducción de datos en el sistema.
Detalles de configuración
7 Dell EMC PowerMax: Data Reduction | $ H17072.3
2 Detalles de configuración PowerMaxOS es compatible con los arreglos de almacenamiento de datos PowerMax y VMAX™ All Flash.
Existen algunos escenarios diferentes para los dos arreglos de almacenamiento. Consulte Tabla 1 para
obtener información adicional.
Detalles de configuración por plataforma de almacenamiento
PowerMax VMAX All Flash
Motor de compresión adaptable (ACE) Sí Sí
Compresión de datos extendida (EDC) Sí No
Desduplicación en línea Sí No
Módulo de I/O de reducción de datos Sí No
Módulo de I/O de compresión No Sí
Algoritmo de compresión DEFLATE Sí No
Algoritmo de compresión de LZS No Sí
Pool de recursos de almacenamiento (SRP) de FBA
Sí Sí
Pool de recursos de almacenamiento (SRP) de CDK
No No
Motor de compresión adaptable
8 Dell EMC PowerMax: Data Reduction | $ H17072.3
3 Motor de compresión adaptable El motor de compresión adaptable (ACE) es la combinación de varios componentes principales que
trabajan en conjunto para lograr la máxima eficiencia del sistema y ofrecer un rendimiento optimizado.
Estos componentes principales son:
3.1 Aceleración de hardware Cada sistema está equipado con un hardware de reducción de datos que maneja la compresión
y la descompresión reales de los datos. Para los sistemas PowerMax donde se aplica la desduplicación,
el hardware de reducción de datos también genera un ID de hash único necesario para el proceso de
desduplicación. Los arreglos se configuran con un solo módulo por director que equivale a 2 para cada
motor. El uso de los módulos reduce la sobrecarga de procesamiento de reducción de datos. Como
función secundaria, la compresión de software se aplica automáticamente en caso de que se produzca
una falla o un error en uno o más de los módulos de reducción de datos.
3.2 Ubicación de los datos optimizada Para maximizar la reducción de datos, el sistema debe aceptar varios tamaños de datos comprimidos.
A fin de admitir una variedad de tamaños de compresión, se utilizan varios pools de compresión para crear
un back-end óptimo. La función de ubicación de datos optimizada es responsable de cambiar dinámicamente
los pools de compresión según sea necesario. Esto altera el back-end mediante la creación de varios pools
de compresión que se adaptan a los datos entrantes. El resultado es un diseño en evolución de pools de
compresión que cambia dinámicamente para coincidir con la reducibilidad de los datos que se envían
al sistema.
Los pools de compresión se identifican mediante la etiqueta que representa el tamaño de segmento de
los dispositivos de datos dentro del pool. Por ejemplo, el pool de 128 KB está compuesto por dispositivos
de datos donde todos los segmentos tienen un tamaño de 128 KB. El pool de 8 KB está compuesto por
dispositivos de datos donde todos los segmentos tienen un tamaño de 8 KB. En comparación, la capacidad
de los dispositivos de datos entre los pools es la misma; sin embargo, el pool de 8 KB tiene 16 veces la
cantidad de segmentos. Esta es una lista completa de posibles pools de compresión: 8 KB, 16 KB, 24 KB,
32 KB, 40 KB, 48 KB, 56 KB, 64 KB, 72 KB, 80 KB, 88 KB, 96 KB, 104 KB, 112 KB y 128 KB. Debido
al diseño dinámico, cada sistema habilitado para compresión puede tener una combinación diferente
de pools de compresión que completan los datos reducidos.
3.3 Compresión basada en actividad La Compresión basada en actividad (ABC) tiene como objetivo impedir la compresión y la descompresión
constantes de los datos a los que se accede con frecuencia. Esta función permite que los datos más
ocupados eviten comprimirse. Esto diferencia los datos activos de los datos menos activos y representa
hasta un 20 % de las asignaciones en el SRP. Permitir que las asignaciones más utilizadas omitan la
compresión es un beneficio para el sistema así como para los usuarios finales. Esto garantiza un rendimiento
óptimo y una sobrecarga reducida que se originan por la descompresión constante de los datos a los
que se accede con frecuencia. El mecanismo que se emplea para determinar los datos más utilizados
no agrega carga adicional en el sistema. ABC aprovecha las estadísticas recopiladas de la I/O entrante
a los dispositivos de front-end para determinar qué conjuntos de datos son los más utilizados y los mejores
candidatos para omitir la compresión. Permite al sistema mantener el equilibrio de los recursos del sistema,
lo que proporciona un entorno óptimo para el ahorro de reducción de datos y el rendimiento.
Motor de compresión adaptable
9 Dell EMC PowerMax: Data Reduction | $ H17072.3
3.4 Empaquetado de datos minucioso El motor de compresión adaptable utiliza el hardware de reducción de datos para procesar datos entrantes
que se dividen en cuatro secciones. Cada sección está comprimida en paralelo, lo que maximiza la eficiencia
del módulo de reducción de datos. La suma de las cuatro secciones comprimidas corresponde al tamaño
de compresión final y determina dónde se almacenarán los datos. En los sistemas PowerMax donde la
desduplicación aplica un ID de hash único se aplica al conjunto de datos comprimidos. Este proceso incluye
la detección de patrones, una función de asignación distinta de cero. Esta función impide la asignación
de cualquiera de las cuatro secciones que contienen únicamente ceros. Este comportamiento genera
un proceso de reducción de datos eficiente que tiene un costo mínimo para el rendimiento.
Otro beneficio de dividir las extensiones en cuatro secciones surge cuando hay operaciones parciales
de lectura o escritura. En este caso, solo se procesan las secciones que contienen los datos solicitados.
Esto significa que cada sección se puede manejar de manera independiente.
La eficiencia de la compresión de datos se mide en términos de la tasa de compresión. Esta corresponde
a la tasa entre el tamaño original de los datos y su tamaño después de comprimirlos. Por ejemplo, el conjunto
de datos de 128 K se comprime en 64 K, lo que da como resultado una tasa de compresión de 2:1.
3.5 Compresión de datos extendida Los sistemas PowerMax incluyen una función adicional que comprime los datos ya comprimidos para
obtener más ahorros de capacidad. El objetivo de la Compresión de datos extendida (EDC) es aplicar
ahorros de compresión adicionales a los datos ya comprimidos. Esto se logra mediante la identificación
de los datos a los que no se ha accedido durante un período de tiempo determinado. Los factores que
hacen que los datos sean candidatos para EDC son los siguientes:
• Los datos pertenecen a un grupo de almacenamiento habilitado para reducción de datos.
• No se ha accedido a los datos durante 30 días.
• Los datos ya no están comprimidos por EDC.
Los datos que cumplen los requisitos para EDC se comprimen con el algoritmo Def9_128_SW y se
transfieren al pool de compresión correspondiente. Esto es un proceso en segundo plano automatizado
dentro del sistema. Se incluyen ahorros adicionales en el nivel del grupo de almacenamiento que alcanzó la
tasa de compresión. EDC solo está disponible con arreglos de almacenamiento PowerMax.
Desduplicación
10 Dell EMC PowerMax: Data Reduction | $ H17072.3
4 Desduplicación La desduplicación es el proceso de reducir las copias redundantes de datos que consumen capacidad
de almacenamiento. Las copias redundantes se reemplazan con punteros. Los punteros proporcionan
el acceso para las solicitudes subsiguientes de esos datos compartidos por múltiples orígenes. En los
sistemas PowerMax, la desduplicación se logra a través de una serie de funciones y componentes que
incluyen la aceleración de hardware, el algoritmo de desduplicación, la tabla hash y el objeto de
administración de desduplicación (DMO).
4.1 Aceleración de hardware La desduplicación es un proceso en línea que utiliza el mismo hardware de reducción de datos que
la compresión. Todos los datos entrantes habilitados para la reducción de datos se transfieren a través
del hardware de reducción de datos. En una única pasada, el hardware de reducción de datos maneja
la compresión, la detección de patrones y genera un ID de hash para la desduplicación. Esto produce
datos comprimidos con un ID de hash único. Aprovechar el hardware de reducción de datos para este
proceso permite que los recursos del sistema se centren en las operaciones de I/O del host y en otras
operaciones del sistema.
4.2 Algoritmo de desduplicación Los sistemas PowerMax utilizan el algoritmo de hash SHA-256 implementado en el hardware de reducción
de datos para encontrar datos duplicados. A continuación, los datos se almacenan como una sola instancia
para que varios orígenes los compartan. Esto proporciona una eficiencia de datos mejorada y, al mismo
tiempo, mantiene un largo historial de integridad de datos.
El algoritmo SHA-256 genera un código de 32 bytes por cada bloque de datos de 32 KB. Considere
un sistema con 1 PB de datos escritos con un 5 % actualizado por día. En 1 millón de años de operación,
hay un 20 % de probabilidad de colisión de hash. Como cada pista de 128 KB se maneja como 4 bloques
de 32 KB, tendría que haber una colisión de hash en los cuatro bloques en el mismo plan de 128 KB para
tener una colisión de hash real. Las probabilidades de tener los 4 conflictos hacen que esto sea solo teórico
(menos de un 1 % de posibilidades en un billón de años de operación).
4.3 Tabla hash Durante el proceso de reducción de datos, se genera un ID de hash cuando los datos se transfieren a través
del hardware de reducción de datos. La tabla hash almacena los ID de hash únicos que se usan para
la comparación como parte del proceso de desduplicación. Los ID de hash almacenados en la tabla son
una representación única de los datos en una relación de desduplicación. Los ID de hash generados por
el hardware de reducción de datos y el algoritmo SHA-256 para las escrituras nuevas se comparan con los
ID que ya completan la tabla hash. Si ya existe un ID de hash coincidente en la tabla hash, se genera una
relación de desduplicación para los datos escritos recientemente. Durante la comparación, si el ID de hash
no existe, se actualiza la tabla y se agrega ese ID de hash.
4.4 Objeto de administración de desduplicación El objeto de administración de desduplicación (DMO) es un objeto de 64 bytes dentro de la memoria
del sistema. Los DMO existen solamente cuando existen relaciones de desduplicación. Estos objetos
almacenan y administran los punteros entre los dispositivos de front-end y los datos duplicados que
consumen la capacidad de back-end en el arreglo.
Desduplicación
11 Dell EMC PowerMax: Data Reduction | $ H17072.3
4.5 Flujo de I/O para reducción de datos Todas las I/O se transmiten a través de la caché y, luego, las procesa el sistema. Esto significa que las acciones
de reducción de datos se realizan después de que el sistema recibe los datos, pero antes de que se coloquen
en el disco. El uso de un proceso en línea requiere comprobaciones adicionales en el flujo de I/O en el que se
aplica la reducción de datos. El sistema utiliza estas comprobaciones para determinar si los datos entrantes
deben pasar a través del hardware de reducción de datos o no. Los datos entrantes para un grupo de
almacenamiento con la reducción de datos habilitada seguirán el flujo de reducción de datos. Sin embargo,
debido a la función de compresión basada en actividad (ABC), los datos activos para un grupo de
almacenamiento con la reducción de datos habilitada omitirán el flujo de reducción de datos para la optimización
del rendimiento. Los datos que no se comprimen debido a ABC se pueden comprimir posteriormente y transferir
a un pool de compresión. Los datos de un grupo de almacenamiento con la reducción de datos deshabilitada
ignorarán el flujo de reducción de datos y se escribirán en el sistema sin que se reduzcan.
Hay algunos tipos de I/O diferentes por considerar: lectura, escritura y actualización de escritura.
• Lectura: una solicitud para obtener acceso a los datos que ya completan el arreglo.
• Escritura: operaciones de I/O entrantes que consumirán espacio de disco.
• Actualización de escritura: operaciones de I/O entrantes que pueden cambiar los datos asignados
al espacio de disco en el arreglo.
Figura 1 a continuación describe la ruta que seguirán las operaciones de I/O, la cual está determinada por
las características del conjunto de datos o del grupo de almacenamiento relacionado.
Flujo de I/O de reducción de datos para los sistemas de almacenamiento empresarial PowerMax
Write initiatedStartData reduction
enabled?
Perform normal I/O flow
Is it Active Data?
Yes
No
Allocate data to disk
Finish
YesCompress data
and create hash IDNo
Is hash ID in hash table?
Add hash ID to hash table
Update hash ID in hash table
No
Yes
Create new DMO
Does a DMO exist?
No
Are there <5 Front End
Pointers?
Yes
Add to existing DMO
Yes
No
Uso de la capacidad
12 Dell EMC PowerMax: Data Reduction | $ H17072.3
5 Uso de la capacidad La reducción de datos es una función diseñada para ofrecer ahorros de espacio a largo plazo. La reducción
de datos usa el aprendizaje automático que genera un uso eficiente de los recursos disponibles del sistema.
El uso de la estadística recopilada a partir de los datos entrantes determina lo que está activo y lo que
está inactivo. Por lo tanto, la función de compresión basada en actividad no se aplica a las escrituras
completamente nuevas. Se comprimen y se asignan a un pool de compresión. Esto también se aplica a la
desduplicación, ya que es posible que las escrituras completamente nuevas no consuman aún la capacidad
de las unidades. Esta sería la primera entrada de un ID de hash en la tabla hash. El acceso continuo a los
datos genera estadísticas que se utilizan para diferenciar el nivel de actividad de los datos.
El uso de la capacidad se representa de dos maneras; un porcentaje de capacidad física utilizada y un
porcentaje de capacidad real utilizada. Si bien ambos valores porcentuales reflejan la cantidad de datos
escritos del host que consumen el sistema, el recurso del sistema afectado es diferente. Cuando el
porcentaje de uso de la capacidad física es mayor que el porcentaje de uso efectivo, indica que existe
la posibilidad de que la capacidad útil alcance el 100 % de su capacidad total. Esto también indica que
la tasa de reducción de datos lograda es menor que la reserva de reducción de datos del sistema. Cuando
el porcentaje de uso real es mayor que el porcentaje físico utilizado, es una indicación de que puede haber
un impacto en la caché que admite los pools de compresión. La variable común relacionada con cualquiera
de los porcentajes utilizados es la tasa de reducción de datos actual.
Por ejemplo, suponga una reserva de reducción de datos de 3:1. Cuando la tasa de reducción de datos
lograda es inferior a 3:1, el porcentaje físico utilizado será mayor que el porcentaje utilizado real. Del mismo
modo, cuando la tasa de reducción de datos es mayor que 3:1, el porcentaje utilizado real será mayor que
el porcentaje físico utilizado. Con el mismo ejemplo de 3:1 que la reserva del sistema, se aplica a 100 TB
de capacidad útil de disco. Esto indica que el sistema administrará los recursos para lograr 300 TB de datos
del host que consumen 100 TB de capacidad útil. Cuando la relación lograda es inferior a 3:1, es menos
probable que el sistema tenga menos probabilidades de alojar 300 TB de datos de host en 100 TB de
capacidad útil. Cuando la relación lograda es mayor que la reserva del sistema, el sistema alojará 300 TB
de datos de host en 100 TB de capacidad de disco.
Configuración de reducción de datos
13 Dell EMC PowerMax: Data Reduction | $ H17072.3
6 Configuración de reducción de datos
6.1 Pool de recursos de almacenamiento y sistema La reducción de datos se establece en el nivel del sistema por pool de recursos de almacenamiento (SRP).
El conjunto de reservas de reducción de datos en el sistema se utiliza para determinar los posibles ahorros
de la reducción de datos que pueden ser compatibles con los recursos disponibles del sistema. El sistema
utiliza la reserva de reducción de datos para determinar cuánta caché se necesita para admitir la capacidad
real potencial. La caché utilizada para admitir la capacidad real se asigna como metadatos de back-end
para admitir el diseño del pool de recursos de almacenamiento. Esto también determina cómo se utilizará
la capacidad para almacenar datos reducidos por reducción de datos. A medida que los datos reducidos
llenan los pools de compresión, se expanden automáticamente para adaptarse a datos más reducidos.
Alcanzar la capacidad real potencial depende de que los datos que se escriben en el sistema se puedan
reducir a un nivel igual o mayor que la reserva de reducción de datos. Por ejemplo; un sistema con 100 TB
de capacidad útil donde el conjunto de reservas es 3,5:1 tiene una capacidad real potencial de 350 TB.
Los datos escritos deben ser reducibles a 3,5:1 o superior para que el sistema pueda alojar 350 TB de
datos del host y colocarlos en 100 TB de capacidad útil.
6.2 Grupo de almacenamiento Para que las cargas de trabajo de las aplicaciones logren ahorros de capacidad a partir de la reducción
de datos, se debe habilitar en el nivel del grupo de almacenamiento. Esto es compatible con Unisphere
y Solutions Enabler. La función está habilitada de manera predeterminada cuando se crean grupos de
almacenamiento. Hay dos flujos de I/O para los datos entrantes, la reducción de datos habilitada, donde
los datos se envían a través del hardware de reducción de datos y se reducen, o la reducción de datos
deshabilitada en la que los datos omiten el hardware de reducción de datos y se escriben en el disco sin ser
provocados. La configuración de reducción de datos del grupo de almacenamiento determina qué ruta de I/O
seguirán los datos. En ambos casos, la configuración habilitada o deshabilitada se realiza mediante la opción
de reducción de datos cuando se aprovisiona almacenamiento. La opción para habilitar o deshabilitar la
reducción de datos para grupos de almacenamiento individuales se puede cambiar en cualquier momento.
Sin embargo, cambiar la configuración simplemente informa al sistema qué ruta de I/O seguirán los datos.
Cambiar la configuración no aumenta de inmediato los datos ya reducidos ni intenta reducir los datos que
ya consumen capacidad.
Eficiencia del sistema
14 Dell EMC PowerMax: Data Reduction | $ H17072.3
7 Eficiencia del sistema Los ahorros de reducción de datos se presentan como proporciones y están disponibles en Unisphere for PowerMax y Solutions Enabler. El informe de capacidad proporciona una ubicación única para ver la eficiencia del sistema, la capacidad y el uso de recursos del sistema. Los datos se muestran en tres secciones: Uso del arreglo, Eficiencia y Uso del sistema. Existen dos niveles de detalles disponibles. La vista predeterminada (consulte la figura 2) ofrece una vista general de la eficiencia en forma de proporciones y el uso de la capacidad que se muestra como gráficos de barras. La vista detallada expande la información proporcionada en uso del arreglo, lo que revela más detalles sobre el uso de la capacidad (consulte la figura 3). La vista detallada también revela el uso del sistema en forma de porcentaje utilizado categorizado como metadatos.
Como parte de la versión de PowerMaxOS del primer trimestre de 2021, hay un desglose adicional en la sección de eficiencia para la relación de reducción de datos. Una pantalla flotante revela información adicional sobre la relación de reducción de datos. Los datos presentados se relacionan específicamente con las asignaciones habilitadas para la reducción de datos. Esto se divide en dos secciones: capacidad irreducible y capacidad reducible. Esta información está disponible en las vistas predeterminada y detallada del informe de capacidad.
• Capacidad irreductible: representa las asignaciones habilitadas para la reducción de datos que el sistema no pudo reducir. En la mayoría de los casos, esto se debe a datos ya comprimidos o cifrados en el nivel de host o aplicación. Además, hay conjuntos de datos que simplemente no se reducen bien, por ejemplo, archivos de imagen (jpeg, pdf, etc.) o archivos de audio.
• Capacidad reducible: esto representa las asignaciones habilitadas para la reducción de datos que el sistema ha determinado que son reducibles. Los valores se muestran como capacidad que representa datos reducibles que se reducirán. Agregar ahorros de compresión y desduplicación con ahorros de detección de patrones puede no ser igual al valor de capacidad reducible debido a la optimización del rendimiento (consulte la sección 3.3). El porcentaje de reducción de datos habilitado también será un factor cuando sea inferior a 100.
Informe de eficiencia del sistema, como se ve en Unisphere for PowerMax (vista de alto nivel predeterminada).
Cálculo de las proporciones de eficiencia: estos datos se revelan en la sección de uso del arreglo cuando se cambia el informe de capacidad a la vista detallada (consulte la figura 3 a continuación). Es necesario calcular las proporciones que se muestran en la sección de eficiencia. Los datos disponibles en la vista detallada se pueden utilizar en las siguientes fórmulas para calcular las proporciones que se muestran en la sección eficiencia.
Eficiencia del sistema
15 Dell EMC PowerMax: Data Reduction | $ H17072.3
Informe de eficiencia del sistema vista detallada del uso del arreglo en Unisphere for PowerMax
• Tasa de eficiencia general: el rango de valores que describen el ahorro de espacio de capacidad
que puede experimentar un usuario con respecto a la reducción de datos u otros servicios de datos
que ofrecen ahorros de capacidad, tales como la reducción de datos, la asignación distinta de cero,
el aprovisionamiento excesivo y SnapVX.
𝑆𝑢𝑏𝑠𝑐𝑟𝑖𝑏𝑒𝑑 𝑇𝑜𝑡𝑎𝑙 + 𝑆𝑛𝑎𝑝𝑠ℎ𝑜𝑡 𝑡𝑜𝑡𝑎𝑙
𝑈𝑠𝑒𝑟 𝑈𝑠𝑒𝑑
• Relación de reducción de datos: ahorros que representan la combinación de compresión en línea
y desduplicación en línea presentada como una relación. Para calcular la relación de reducción
de datos, el usuario debe alternar con la vista detallada que se muestra en la figura 3 anterior.
La información adicional necesaria se revela al pasar el cursor sobre las barras de uso. Al calcular
la relación de reducción de datos con los valores presentados en la parte de uso del informe de
capacidad. La relación puede reflejar un valor diferente debido a la optimización del rendimiento,
lo que deja los datos comprimibles sin comprimir. El porcentaje habilitado de menos de 100 también
puede ser un factor.
𝑆𝑢𝑏𝑠𝑐𝑟𝑖𝑏𝑒𝑑 𝐴𝑙𝑙𝑜𝑐𝑎𝑡𝑒𝑑 𝑁𝑜𝑛 𝑆ℎ𝑎𝑟𝑒𝑑 + 𝑀𝑜𝑑𝑖𝑓𝑖𝑒𝑑 𝑁𝑜𝑛 𝑆ℎ𝑎𝑟𝑒𝑑
𝑈𝑠𝑒𝑟 𝑈𝑠𝑒𝑑
• Relación de reducción de datos en reducible: representa los ahorros de la reducción de datos
utilizando solo las asignaciones habilitadas para la reducción de datos que se han reducido.
𝑅𝑒𝑑𝑢𝑐𝑖𝑏𝑙𝑒𝐶𝑎𝑝𝑎𝑐𝑖𝑡𝑦
𝑅𝑒𝑑𝑢𝑐𝑖𝑏𝑙𝑒𝐶𝑎𝑝𝑎𝑐𝑖𝑡𝑦 − (𝐶𝑜𝑚𝑝𝑟𝑒𝑠𝑠𝑖𝑜𝑛𝐴𝑛𝑑𝐷𝑒𝑑𝑢𝑝𝑒𝑆𝑎𝑣𝑖𝑛𝑔𝑠 + 𝑃𝑎𝑡𝑡𝑒𝑟𝑛𝐷𝑒𝑡𝑒𝑐𝑡𝑖𝑜𝑛𝑆𝑎𝑣𝑖𝑛𝑔𝑠)
• Porcentaje habilitado: la cantidad de asignaciones de host suscritas que tienen habilitada
la reducción de datos.
Eficiencia del sistema
16 Dell EMC PowerMax: Data Reduction | $ H17072.3
• Ahorros de aprovisionamiento virtual: ahorros logrados en relación con la capacidad aprovisionada y la capacidad útil total que se muestra como una relación. Esto puede exceder la capacidad útil máxima.
𝑆𝑢𝑏𝑠𝑐𝑟𝑖𝑏𝑒𝑑 𝑇𝑜𝑡𝑎𝑙 𝐶𝑎𝑝𝑎𝑐𝑖𝑡𝑦
𝐴𝑙𝑙𝑜𝑐𝑎𝑡𝑒𝑑 𝑛𝑜𝑛 − 𝑠ℎ𝑎𝑟𝑒𝑑
• Ahorro de instantáneas: una representación de los ahorros generados por el uso de SnapVX para crear datos de replicación local.
𝑆𝑛𝑎𝑝𝑆ℎ𝑜𝑡 𝐶𝑎𝑝𝑎𝑐𝑖𝑡𝑦 𝑇𝑜𝑡𝑎𝑙
𝑀𝑜𝑑𝑖𝑓𝑖𝑒𝑑 𝑁𝑜𝑛𝑆ℎ𝑎𝑟𝑒𝑑
7.1.1 Uso de recursos del sistema En esta sección, el uso de recursos del sistema se refiere a los dos componentes principales del sistema en relación con la reducción de datos, la capacidad y la caché.
La capacidad se muestra como suscrita y utilizable. La capacidad suscrita representa la cantidad de capacidad que se presenta a los hosts o las aplicaciones. La capacidad suscrita que supera la capacidad útil total se conoce comúnmente como suscripción o aprovisionamiento virtual. Esto permite que los usuarios presenten más capacidad a las aplicaciones o los hosts que el sistema puede almacenar. Esto se muestra en Unisphere como el porcentaje de capacidad útil suscrita. La capacidad útil es la cantidad de capacidad de disco disponible para almacenar datos de aplicaciones. La cantidad total de capacidad útil está determinada por la capacidad de los discos físicos configurados en el sistema.
Al igual que las generaciones anteriores, PowerMax funciona como una arquitectura centrada en la caché. Todos los datos se transfieren a través de la caché antes de almacenarse en el disco. Se utiliza para admitir varias funciones dentro del sistema, no solo las I/O del host. El aprovisionamiento, la replicación local y la reducción de datos también utilizan la caché. La caché se divide en dos secciones principales, la caché de datos y la caché de metadatos. (consulte la figura 4). El uso de la caché se muestra en el informe de capacidad de Unisphere en la sección Uso del sistema, representado como metadatos utilizados (consulte la figura 6).
• Caché de datos: representa la cantidad de caché disponible para las operaciones de I/O, lecturas y escrituras de hosts o aplicaciones. La configuración del sistema garantiza que siempre haya una caché de datos disponible para las I/O del host.
• Caché de metadatos: se compone de tres secciones: front-end, replicación y back-end. Cada sección representa una cantidad de caché de metadatos que puede consumir.
o Metadatos de front-end: en la instalación inicial, el porcentaje utilizado mostrará cero,
ya que no hay capacidad suscrita. Hay dos factores que harán que el uso de metadatos
de front-end aumente, aprovisionamiento de capacidad a hosts o aplicaciones, así como
asignaciones de hosts. En los sistemas PowerMax, el aumento se debe principalmente
a las asignaciones de hosts.
o Metadatos de replicación: en la instalación inicial, el porcentaje utilizado mostrará cero,
ya que no hay ninguna actividad de replicación local. A medida que se utiliza la replicación
local, el porcentaje aumentará hasta un 100 %. Cuando los metadatos de replicación
alcanzan el 100 %, la replicación local ha alcanzado su límite. (Para obtener más información,
consulte dell-emc-powermax-vmax-all-flash-timefinder-snapvx-local-replication.pdf)
Eficiencia del sistema
17 Dell EMC PowerMax: Data Reduction | $ H17072.3
o Metadatos de back-end: en la instalación inicial, el porcentaje utilizado representa el diseño
inicial de los pools de compresión. A medida que se expanden los pools de compresión para
admitir una capacidad más eficaz, el uso puede crecer hasta un 100 %. Cuando los metadatos
de back-end muestran el 100 % utilizado, indican que el sistema ha ampliado la capacidad
útil a la capacidad real máxima que puede admitir el sistema. Esto no tiene ningún impacto
en el crecimiento de los metadatos de front-end ni en la capacidad de admitir I/O de host.
Desglose de caché
Uso del arreglo:
• Capacidad suscrita: la barra presentada representa la capacidad total aprovisionada. La parte
sombreada oscura de la barra indica las asignaciones de host de la capacidad presentada.
• Capacidad de instantáneas: el total representa la suma de todas las instantáneas existentes.
La parte sombreada oscura de la barra representa la cantidad de capacidad de instantánea existente
que se ha modificado. La capacidad modificada también representa la capacidad útil adicional que
consumen los datos de instantáneas.
• Capacidad útil: la cantidad total de espacio de disco utilizable disponible. La parte sombreada
oscura representa la cantidad de espacio de disco que se consume.
• Capacidad útil suscrita: el porcentaje que se muestra representa la cantidad de capacidad suscrita
en relación con la cantidad total de capacidad útil.
Eficiencia del sistema
18 Dell EMC PowerMax: Data Reduction | $ H17072.3
Uso del arreglo del informe de capacidad de Unisphere for PowerMax
Uso del sistema: el informe de capacidad en Unisphere for PowerMax muestra el uso de metadatos en forma de porcentaje utilizado. Los valores que se muestran representan la cantidad de metadatos que se usan para cada función. Estos valores también están disponibles en Solution Enabler y la API REST.
Uso del sistema, como se muestra en Unisphere for PowerMax
• Metadatos del sistema: representa el uso total de metadatos para el sistema. La cantidad de caché utilizada por el sistema para todas las funciones compatibles con los metadatos. El porcentaje utilizado por el sistema representa el uso que abarca la cantidad total de caché de metadatos disponible.
• Metadatos de replicación: un recurso de caché que se usa en forma de metadatos para admitir punteros de datos de replicación que se usan con la replicación local. En la instalación inicial, el porcentaje utilizado comienza en cero, ya que no hay actividad de replicación local. La cantidad total de caché disponible para los metadatos de replicación se basa en la configuración del sistema y no aumentará con el uso de la replicación local. Cuando los metadatos de replicación alcanzaron su máximo, el uso de la replicación local alcanzó su límite.
Eficiencia del sistema
19 Dell EMC PowerMax: Data Reduction | $ H17072.3
• Metadatos de front-end: un recurso de caché que se usa en forma de metadatos para admitir
la capacidad suscrita y las asignaciones de host. A medida que aumenta la capacidad suscrita,
aumenta la cantidad de metadatos de front-end. En VMAX All Flash, el aprovisionamiento
de sistemas hará que esto aumente en el momento de la creación del dispositivo. En el sistema
PowerMax, el aumento se debe principalmente a las asignaciones de hosts. En ambos casos,
el aumento de los metadatos de front-end puede consumir la caché de datos.
7.1.2 Compresión de grupos de almacenamiento en Unisphere Los ahorros de reducción de datos que se muestran en el nivel del grupo de almacenamiento representan
solo los ahorros de compresión. Esta información se puede ver con la lista de grupos de almacenamiento,
la vista detallada y el informe de demanda del grupo de almacenamiento. La relación muestra los ahorros
de compresión para los datos específicos del grupo de almacenamiento que se está visualizando. Además
de la tasa de compresión, se muestra la cantidad de datos irreducibles. La cantidad de datos irreducibles
que se muestran representa la cantidad de datos que el grupo de almacenamiento ha asignado que el
sistema ha determinado que no es reducible. Consulte los ejemplos a continuación en las figuras 7, 8, 9 y 10.
Vista de lista de grupos de almacenamiento en Unisphere for PowerMax.
Vista de detalles del grupo de almacenamiento en Unisphere for PowerMax.
Eficiencia del sistema
20 Dell EMC PowerMax: Data Reduction | $ H17072.3
Vista de la pestaña volumen de la vista de detalles del grupo de almacenamiento en Unispher para PowerMax.
Informe de demanda del grupo de almacenamiento en Unisphere for PowerMax.
Servicios de datos compatibles
21 Dell EMC PowerMax: Data Reduction | $ H17072.3
8 Servicios de datos compatibles La reducción de datos es compatible con el almacenamiento FBA. Los sistemas FBA/CKD mixtos son
compatibles; sin embargo, la reducción de datos solo se aplicará a los pools de recursos de almacenamiento
de FBA. Todos los otros servicios de datos ofrecidos en los sistemas PowerMax y VMAX All Flash son
compatibles. Esto incluye replicación local (SnapVX), replicación remota (SRDF), D@RE y VMware®
vSphere® Virtual Volumes™ (vVols).
8.1 Replicación local (SnapVX) La reducción de datos es compatible con el uso de características de replicación local; hay múltiples
variaciones y casos de uso para la replicación local. A continuación se muestran los detalles sobre las
distintas sesiones de replicación local que pueden existir. Para obtener más información sobre la replicación
local y SnapVX, consulte la nota técnica sobre replicación local de TimeFinder e HYPERMAX OS, disponible
en DellEMC.com.
8.1.1 Sesiones Nocopy (SnapVX, VP Snap) Los datos de origen descomprimidos permanecen sin comprimir cuando se convierten en datos de
instantáneas y se pueden comprimir más adelante a medida que se vuelven menos activos. La actividad
de los datos de instantáneas a través de un destino vinculado puede impedir la compresión de los datos
sin comprimir. Los datos de origen comprimidos permanecen comprimidos cuando se convierten en datos
de instantáneas. La actividad de lectura de una instantánea a través de un destino vinculado puede provocar
la descompresión de los datos comprimidos.
La configuración de compresión de un destino vinculado solo afecta a los datos que se escriben directamente
en el destino vinculado y no afecta a los datos de las instantáneas.
8.1.2 Sesiones de copia (destinos vinculados con copia completa de SnapVX,
clon, espejeado) Los ajustes de compresión del origen y del destino se toman en cuenta para las sesiones de copia.
Cuando la compresión está habilitada en el origen, los datos se descomprimen antes de copiarlos en
el destino. Cuando la compresión está habilitada en el destino, los datos se comprimen antes de que
se asignen al destino. De igual forma, cuando la compresión está habilitada tanto en el origen como en el
destino, los datos se descomprimen antes de la copia y, luego, se comprimen para asignarlos al destino.
Los tiempos de copia pueden variar debido a la descompresión y la compresión de los datos. No
se recomienda cambiar la configuración de compresión entre las operaciones diferenciales (es decir,
deshabilitar la compresión antes de cada operación diferencial y después otra vez luego de la finalización
de la copia), ya que esto hace que los datos pasen por ciclos de compresión/descompresión innecesarios.
Servicios de datos compatibles
22 Dell EMC PowerMax: Data Reduction | $ H17072.3
8.2 Replicación remota (SRDF) La compresión para SRDF ya es compatible y se conoce como compresión de SRDF. La compresión
de SRDF es una función diseñada para reducir el consumo de ancho de banda durante el envío de datos
hacia y desde sistemas conectados mediante replicación remota. La compresión de SRDF y el motor
de compresión adaptable (ACE) utilizan el mismo módulo de compresión; sin embargo, tienen distintos
propósitos. Los datos que se han comprimido mediante ACE se descomprimen antes de enviarlos
a través del enlace de SRDF. Si se aplica la compresión de SRDF y la compresión en línea, los
datos se descomprimen en el módulo, luego, se comprimen con la función de compresión de SRDF
y, a continuación, se envían al sitio remoto.
8.3 Cifrado de datos en reposo (D@RE) D@RE proporciona cifrado de back-end basado en hardware, en el arreglo, la reducción de datos
proporciona compresión y desduplicación en línea. Los datos se transfieren a través del hardware
de reducción de datos antes de ser enviados a través del hardware de cifrado. Por lo tanto, los datos
se comprimen, se desduplican o ambos antes de que el proceso de D@RE los cifre. En un D@RE los
datos del sistema cifrados en el disco ya se comprimieron, se desduplicaron o ambos.
8.4 Volúmenes virtuales La reducción de datos es compatible con la asignación de datos a vVols y sigue la misma ruta de I/O que
todos los datos. La ruta de I/O se puede ver en Figura 71. La reducción de datos como función no se incluye
como un recurso de vVols para configurarse en el host.
Conclusión
23 Dell EMC PowerMax: Data Reduction | $ H17072.3
9 Conclusión El uso de la capacidad de almacenamiento físico es una preocupación común de los administradores
de almacenamiento en todo el sector de almacenamiento. Las cantidades constantes y cada vez mayores
de datos han creado la necesidad de contar con más eficiencia en el uso de la capacidad física. Los
sistemas de almacenamiento de datos Dell EMC PowerMax y VMAX All Flash llevan esto al siguiente nivel.
La combinación de la compresión en línea con la desduplicación en línea proporciona ahorros de capacidad
excepcionales con un costo insignificante para el rendimiento. Esto ofrece ahorros de capacidad, lo que
genera un menor espacio físico del centro de datos y una reducción general del TCO. Además de los
ahorros, el uso de la reducción de datos es tan simple como hacer un solo clic para habilitar o deshabilitar.
El sistema maneja todo el trabajo.
Soporte técnico y recursos
24 Dell EMC PowerMax: Data Reduction | $ H17072.3
A Soporte técnico y recursos
Dell.com/support se centra en satisfacer las necesidades de los clientes con servicios y soporte
comprobados.
La documentación técnica y los videos sobre el almacenamiento y la protección de datos proporcionan
experiencia que ayuda a garantizar el éxito del cliente con las plataformas de almacenamiento y protección
de datos de Dell EMC.