informe técnico - spain.emc.com · más allá de las bases de datos y de los motores de...

9
Informe técnico EMC Isilon: Una plataforma de almacenamiento escalable para big data Por Nik Rouda y Terri McClure, analistas ejecutivos Abril de 2014 EMC Isilon encargó este informe técnico de ESG y se distribuye con licencia de ESG. © 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Upload: doankien

Post on 16-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Informe técnico EMC Isilon: Una plataforma de almacenamiento escalable para big data

Por Nik Rouda y Terri McClure, analistas ejecutivos Abril de 2014

EMC Isilon encargó este informe técnico de ESG y se distribuye con licencia de ESG. © 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 2

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Contenido Big data necesita mucho almacenamiento .................................................................................................. 3

Las empresas desean que big data tenga un impacto considerable ........................................................................ 3

Criterios de selección de almacenamiento para big data ............................................................................ 5

Ventajas del almacenamiento de escalamiento horizontal de Isilon para Hadoop ..................................... 6 Muchos protocolos, pero solo una copia de datos .................................................................................................. 6 Analítica en el lugar con su variante preferida de Hadoop ...................................................................................... 7 El almacenamiento de clase empresarial aumenta la eficiencia y la seguridad ...................................................... 7

La gran verdad .............................................................................................................................................. 8 Todos los nombres de marcas comerciales son propiedad de sus respectivas empresas. La información incluida en esta publicación se obtuvo por medio de fuentes que The Enterprise Strategy Group (ESG) considera confiables, pero no está garantizada por ESG. Esta publicación puede contener opiniones de ESG que están sujetas a cambios periódicos. Los derechos de esta publicación pertenecen a The Enterprise Strategy Group, Inc. Cualquier reproducción o redistribución de esta publicación, en su totalidad o en parte, ya sea en formato impreso, electrónico o de otro tipo, a personas no autorizadas para recibirla sin el consentimiento expreso de The Enterprise Strategy Group, Inc., constituye una violación de las leyes de derechos de autor de los Estados Unidos y estará sujeta a una acción por daños civiles y, en caso de ser pertinente, a un juicio penal. Si tiene consultas, comuníquese con ESG Client Relations llamando al 508-482-0188.

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 3

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Big data necesita mucho almacenamiento Empresas en todo el mundo están recopilando, analizando y procesando una creciente ola de información. Sin embargo, esta cantidad abrumadora de datos implica tantos retos como soluciones. A medida que las empresas se basen cada vez más en los datos para realizar una amplia variedad de actividades, necesitarán que sus implementaciones de big data de producción cumplan con los requisitos empresariales habituales, como alto rendimiento, escalabilidad, disponibilidad, seguridad y cumplimiento de normas. Más allá de las bases de datos y de los motores de analítica, otros componentes de la pila de tecnología resultan críticos para proporcionar estas cualidades, y la elección de las plataformas de almacenamiento no es menos importante. Los sistemas de almacenamiento pueden desarrollar o destruir una implementación de big data. EMC Isilon es líder en almacenamiento de escalamiento horizontal y ofrece muchas ventajas como base para la analítica de big data, las cuales derivan de los años de experiencia de EMC en centros de datos empresariales de gran tamaño.

Las empresas desean que big data tenga un impacto considerable

Se han publicado varios artículos periodísticos sobre las numerosas aplicaciones prácticas de big data en todos los sectores y giros comerciales. Muchas de estas historias son anécdotas convincentes y, a menudo, específicas de las actividades y los objetivos de una organización en particular. Sin embargo, pueden encontrarse algunas tendencias comunes sobre analítica de datos en los diferentes sectores industriales. Recientemente, ESG concluyó su encuesta 2014 IT Spending Intentions Survey e identificó los principales beneficios para el negocio que buscan las organizaciones encuestadas a partir de sus inversiones en Business Intelligence y analítica.1

Figura 1. Beneficios para el negocio a partir de las inversiones en datos

Fuente: Enterprise Strategy Group, 2014.

1 Fuente: Informe de investigación de ESG, 2014 IT Spending Intentions Survey, febrero de 2014. Todas las referencias y los gráficos de ESG que se incluyen en este informe técnico se extrajeron de dicho informe de investigación.

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 4

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Implícita en todos estos objetivos está la necesidad de suministrar a las empresas no solo más datos, sino también informes más oportunos. Para muchas empresas, el tiempo que se necesita para obtener una respuesta es el criterio clave para adoptar un método de toma de decisiones impulsado por datos. Ya no confeccionan informes trimestrales en lotes para satisfacer sus necesidades. En cambio, las actualizaciones diarias, las alertas en tiempo real y las consultas ad hoc se están convirtiendo en los requisitos estándares para analistas y ejecutivos.

Ahora los proveedores están incorporando una gran variedad de tecnologías de datos, desde las tradicionales bases de datos relacionales hasta NoSQL y Hadoop, y desde las aplicaciones avanzadas de analítica hasta la visualización de datos y las herramientas de creación de informes. Estas herramientas vienen acompañadas por opciones complementarias en los modelos de arquitectura: servidores genéricos, dispositivos listos para usar o servicios de nube y software de propiedad o de código abierto. Cada una de estas opciones tendrá un impacto en las funcionalidades generales de la solución, lo que afectará las percepciones de rendimiento, flexibilidad y disponibilidad del usuario final.

Estas altas expectativas de los ejecutivos del negocio ejercen una presión excesiva en los departamentos empresariales de TI, ya que deben ofrecer una solución bien implementada. Y, por lo general, esto no se trata de una tarea sencilla si tenemos en cuenta que las iniciativas de big data a menudo suponen una integración de diferentes orígenes de datos, plataformas de big data y aplicaciones de analítica nuevos con data warehouse y bases de datos de transacciones existentes. Esta complejidad en la arquitectura abarca muchas disciplinas de TI, y encontramos dependencias en todo nivel: aplicaciones, servidores, redes y almacenamiento. Si observamos la investigación de ESG en la Figura 2, es evidente que muchas de las diez principales prioridades de TI que más se mencionaron están directamente relacionadas con la administración adecuada de los datos empresariales, y ello incluye big data.

Figura 2. Las diez prioridades más importantes de TI para 2014

Fuente: Enterprise Strategy Group, 2014.

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 5

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

En algunas ocasiones, estos problemas son fácilmente subestimados debido a la suposición de que el sistema de archivos distribuido Hadoop (HDFS) ofrece un aprovisionamiento de bajo costo y armonioso que permite almacenar y administrar enormes cantidades de big data. La verdad es que los requisitos de almacenamiento para las empresas están siendo cada vez más exigentes, sobre todo a medida que más tomadores de decisiones quedan supeditados a la información valiosa que obtienen de big data.

Criterios de selección de almacenamiento para big data Como ya se mencionó, la elección de la plataforma de almacenamiento debe respaldar la eficacia general de la pila de tecnología e implicará derivaciones que deben ser evaluadas cuidadosamente. Se debe considerar una serie de factores, entre ellos:

• La escalabilidad y la eficiencia tendrán un impacto notorio en la capacidad para recopilar y almacenar datos. Se debe prestar especial atención a los mecanismos que reducen el espacio físico total, como la deduplicación, la compresión y la redundancia requerida a fin de evitar las pérdidas de datos. También debe analizarse el capital humano necesario para administrar el sistema en términos de eficiencia, ya que las organizaciones no pueden permitirse seguir incorporando personal para administrar el ambiente a medida que crecen los datos.

• El costo total de propiedad (TCO) es importante, ya que los beneficios de la iniciativa de big data se comparan con los gastos operativos y de capital, incluidos el mantenimiento, el soporte, el espacio físico y el capital humano. Una estructura menos costosa debe permitir una mayor cantidad de datos almacenados (porque las organizaciones podrán solventarlos) e información valiosa más rica (como beneficio de tener más datos para analizar).

• El rendimiento parece ser un requisito obvio, aunque puede ser difícil de obtener, dado que más usuarios realizarán análisis más completos y con volúmenes de datos más grandes. Por lo tanto, resulta fundamental encontrar un sistema de almacenamiento que pueda manejar las exigencias de I/O del ambiente, incluida cualquier tarea de extracción, transformación y carga (ETL) en otros repositorios de datos. La ubicación de los datos tiene un impacto significativo en esta área, sobre todo si se deben mover grandes cantidades de datos antes del procesamiento de analítica.

• Las utilidades de protección de datos, de seguridad y de gobierno corporativo se están volviendo obligatorias para los ambientes de big data. A medida que los lagos o los concentradores de datos comienzan a encapsular todo tipo de información confidencial en una ubicación centralizada, sin duda esto deberá tratarse con sumo cuidado. El cumplimiento de normas gubernamentales y del sector industrial relevantes debe abordarse de forma directa y explícita. Al ser una tecnología más nueva, Hadoop en sí mismo no ha alcanzado en estas áreas el grado de madurez que las empresas podrían llegar a necesitar.

• La accesibilidad tal vez sea uno de los atributos menos reconocidos de la decisión de almacenamiento, pero puede brindar importantes ventajas en cuanto a la flexibilidad de modelos y permitir que diferentes grupos o herramientas aprovechen los datos sin tener que moverlos a otras plataformas antes de comenzar con el procesamiento. Los controles de acceso también deben estar bien desarrollados y ser granulares.

Estos son factores importantes para decidir el nivel de adecuación de una plataforma de almacenamiento para ambientes de big data. Una gama de opciones tradicionales para plataformas de almacenamiento incluye: almacenamiento de conexión directa (DAS), red de almacenamiento SAN y almacenamiento conectado en red (NAS) genéricos. La sabiduría convencional ha consistido en usar almacenamiento genérico en la forma de unidades internas. No obstante, cuando se pondera el impacto de las opciones de infraestructura de almacenamiento en la analítica y en la administración de los datos, esa sabiduría resulta deficiente para las prestaciones.

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 6

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Ventajas del almacenamiento de escalamiento horizontal de Isilon para Hadoop En la actualidad, todavía existe un relativo nivel de inmadurez en lo que respecta a la funcionalidad y a la solidez del almacenamiento en muchas de las pilas de tecnología de big data. A pesar de que Hadoop y HDFS pueden simplificar el modelo de escalamiento en servidores genéricos con DAS, determinadas alternativas proporcionan ventajas atractivas para la empresa y ayudan a superar algunos de los retos asociados al enfoque tradicional.

Entre los retos de usar el enfoque de almacenamiento integrado/DAS, podemos mencionar protección y aprovechamiento de datos, procesos de negocios prolongados y, sorprendentemente, costos. Con respecto a la protección de datos, HDFS usa múltiples copias de datos, lo que significa que consume mucho almacenamiento. Resultan afectados tanto el aprovechamiento de datos como los procesos de negocios debido a que solo se puede acceder a los datos mediante HDFS y no es posible usar otras aplicaciones que requieran otras interfaces (por ejemplo, aplicaciones RESTful basadas en objetos o aplicaciones NFS/CIFS/SMB basadas en archivos). Esto significa que deben realizarse operaciones de ETL para recopilar o aprovechar datos en otros procesos de negocios. Por lo tanto, esos procesos se prolongarán cada vez que deban ejecutarse tareas de ETL. Esto también significa que las organizaciones deben tener múltiples repositorios de datos para la misma información y en varios formatos a fin de respaldar diferentes procesos de negocios. Por lo tanto, superficialmente, puede sonar atractivo usar configuraciones de DAS genéricas y, de hecho, puede ser una buena opción para muchas organizaciones. Sin embargo, aquellas empresas que necesitan analizar datos provenientes de múltiples orígenes o aprovecharlos para respaldar múltiples procesos de negocios incurren en más costos para obtener infraestructura adicional y, tal vez, necesiten investigar enfoques alternativos.

Un enfoque alternativo que ayuda a superar estos retos consiste en la adopción de una plataforma de almacenamiento compartida diseñada para cumplir con los requisitos de operaciones de TI. EMC Isilon es un óptimo ejemplo en este caso, ya que incorpora Hadoop a sus datos, en lugar de mover todos esos datos a clústeres de Hadoop. Permite que los usuarios creen un concentrador de datos centralizado que admite múltiples aplicaciones y procesos de negocios, lo que reduce costos y ciclos de negocios debido a que se elimina la mayoría de los requisitos de ETL.

Muchos protocolos, pero solo una copia de datos

Isilon es una plataforma de almacenamiento flexible que admite acceso multiprotocolo a un único objeto de datos, lo que elimina la decisión de un protocolo inicial, ya que NFS, los objetos RESTful, HTTP, FTP, SMB y HDFS son todos compatibles. Por lo tanto, los usuarios pueden recopilar un objeto desde una aplicación web y acceder a él a través de NFS para editarlo. O mejor aún, un usuario podría acceder a los registros web directamente desde una aplicación web, en lugar de exportarlos a una hoja de cálculo, y verlos a través de la interfaz nativa de HDFS para ejecutar la analítica. Esta capacidad de que solo esté disponible una copia para múltiples usos implica un importante beneficio para reducir los costos generales del almacenamiento y el tiempo de los ciclos, dado que no es necesario exportar los datos a múltiples sistemas para los distintos casos de uso. Un único repositorio también simplifica en gran medida los requisitos de auditoría de cumplimiento de normas, pues ya no se deberán rastrear diferentes ubicaciones y orígenes.

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 7

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

Figura 3. Acceso multiprotocolo al sistema operativo Isilon OneFS

Fuente: EMC Isilon, 2014.

Analítica en el lugar con su variante preferida de Hadoop

Aprovechando la compatibilidad con el acceso multiprotocolo a un único objeto de datos, las organizaciones pueden llevar a cabo de forma eficaz tareas de analítica “en el lugar” sobre sus datos sin necesidad de una extensa recopilación de información a partir de otros orígenes de datos de almacenamiento primario en el sistema Hadoop. A menudo, con esto se logran resultados más rápido. Aunque a veces puedan ser más rápidos otros enfoques y diseños de datos más especializados para efectuar consultas y análisis, con Isilon, los análisis de datos pueden iniciarse inmediatamente. Al no requerir ETL, obtendrá menos esfuerzo y menos demoras en el tiempo de inicio, lo que a menudo le permitirá superar esa diferencia. Además, pueden ejecutarse instancias simultáneas de diferentes distribuciones de Hadoop en paralelo y en el mismo sistema de almacenamiento subyacente, lo que otorga mucha más flexibilidad para aprovechar las relativas fortalezas de cada una y sin necesidad de mover grandes cantidades de datos.

El almacenamiento de clase empresarial aumenta la eficiencia y la seguridad

Aunque HDFS puede ser un modelo confiable y escalable para recopilar y almacenar grandes volúmenes y variedades de datos en un típico ambiente de big data, no es necesariamente el más eficaz. Algunas de las

Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data 8

© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.

características que brindan esa solidez en el hardware genérico, en realidad, pueden afectar negativamente la eficiencia general. El espejeado con el almacenamiento de conexión directa de Hadoop es un buen ejemplo, ya que normalmente se genera una redundancia de tres a cinco veces mayor, y esto afecta de manera significativa la relación de uso eficaz de la capacidad total de la unidad. Por el contrario, Isilon, con protección de datos incorporada, alta disponibilidad y solidez general, puede ejecutarse con una utilización del 80 % de los niveles de capacidad (en comparación con el 20-33 % de HDFS), y esto mejora todavía más gracias a la reducción de datos de hasta el 30 % con SmartDedupe. Todo esto ayuda a reducir el espacio físico de almacenamiento y proporciona las reducciones de costo asociadas en cuanto al consumo de espacio y energía en el centro de datos. La separación de servidores y almacenamiento gracias a que cada uno se desarrolla de forma independiente, en lugar de siempre agregar otro servidor genérico de unidad fija, también permite un escalamiento más específico del ambiente a fin de satisfacer las cargas de trabajo actuales.

Desde el punto de vista del gobierno corporativo y la seguridad, el sistema de almacenamiento Isilon ofrece cumplimiento de normas WORM (Write Once, Read Many) para que el archiving pueda cumplir, a su vez, con las normativas del sector y de gobierno corporativo, la autenticación estándar de Kerberos y las listas de control de acceso (ACL) a fin de garantizar que el usuario que llegue al concentrador de datos centralizado sea un usuario autorizado.

Todas estas características se combinan para reducir el costo de compra inicial, los costos operativos constantes y el riesgo de falla o vulneración de seguridad de la información confidencial.

La gran verdad Habiendo explorado el rápido crecimiento de big data en cuanto a adopción e importancia, así como el posible impacto de la infraestructura subyacente, es evidente que las empresas deben repensar las implicancias en la arquitectura de sus opciones de almacenamiento para sus iniciativas de big data. Existen múltiples ventajas cuando se adopta un enfoque de almacenamiento compartido que abarca una amplia variedad de características deseadas, entre las que se incluyen mayor eficiencia, menor costo total, velocidad general de respuesta, menor riesgo de pérdida de datos o acceso inadecuado y flexibilidad en la analítica.

Isilon es una solución innovadora, ya que desafía las suposiciones del paradigma de almacenamiento predeterminado de los profesionales de big data, y su enfoque merece una evaluación de sus méritos y una comparación con el estándar real de almacenamiento de conexión directa con respecto al hardware de servidor genérico. Isilon se beneficia de una larga trayectoria de desarrollo de plataformas de almacenamiento escalables y flexibles para satisfacer los exigentes requisitos empresariales, lo que le permite abordar muchos de los retos habituales del almacenamiento de big data. Esta experiencia también beneficia a los clientes. En particular, los actuales clientes de Isilon deben experimentar y ejecutar Hadoop en sus sistemas existentes. Tal vez, descubran que la respuesta adecuada ya se encuentra implementada.

20 Asylum Street | Milford, MA 01757 | Tel.: 508-482-0188 Fax: 508-482-0218 | www.esg-global.com