centro de alta capacitación en tecnologías de la...

15
Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima Teléfono: (511) 715-5371 Fax: (511) 717-1988 Web: http://www.cac-ti.com Centro de Alta Capacitación en Tecnologías de la Información Web: http://www.cac-ti.com Email: [email protected]

Upload: lamnguyet

Post on 15-Oct-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Centro de Alta Capacitación en Tecnologías de la Información Web: http://www.cac-ti.com Email: [email protected]

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Big Data ya no es sólo una propaganda. A medida que el ecosistema

Hadoop ha evolucionado y madurado, las empresas están pasando de la

evaluación y del prototipo al despliegue de plataformas basadas en

Hadoop como centros de datos empresariales para entregar valor al

negocio.

Hadoop ofrece los beneficios de un alto rendimiento y escalabilidad sin

restricciones a datos complejos con un costo mínimo, por lo que es muy

atractivo para los departamentos de TI conscientes de su presupuesto. Sin

embargo, su adecuación a los objetivos del negocio requiere un enfoque

de plataforma que garantiza un rendimiento superior y la eficiencia

operacional alineada con una amplia variedad de casos de uso y

funcionalidades adicionales.

Cloudera está revolucionando la gestión de datos empresariales,

ofreciendo la primera plataforma unificada para Big Data, un centro de

datos de la empresa basada en Apache Hadoop. Cloudera ofrece a las

empresas un lugar para almacenar, acceder, procesar, asegurar, y

analizar todos sus datos, dándoles el poder de extender el valor de las

inversiones existentes al tiempo que permite nuevas formas para obtener el

valor de sus datos. La plataforma de Big Data de Cloudera es

ampliamente la más adoptada en el mundo, y Cloudera es el

contribuyente más prolífico al ecosistema de código abierto Hadoop.

Como líder en entrenamiento de profesionales en Hadoop, Cloudera ha

capacitado a miles de personas en todo el mundo. Por último, sólo

Cloudera proporciona soporte proactivo y predictivo para ejecutar un

centro de datos empresariales con confianza. Las organizaciones líderes

de todos los sectores privados y los más altos organismos del sector público

a nivel mundial ejecutan Cloudera en ambientes productivos.

Con Cloudera, los clientes pueden ahora aplicar analítica avanzada a una

fuente ilimitada de datos, convirtiendo los datos en un activo estratégico.

Mediante la implementación de un centro de datos empresarial, varios

usuarios y aplicaciones al mismo tiempo pueden acceder a la información

en tiempo real con plena fidelidad y gestión basada en roles y perfiles.

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Ninguna otra plataforma de datos ofrece una potente combinación de

flexibilidad y seguridad para habilitar sistemas sofisticados de

recomendación, gestión de eventos e información de seguridad (SIEM),

análisis de gráficos y capacidades de machine learning que monetizan

datos sin los costos normalmente asociados con los métodos tradicionales.

CDH (Cloudera Distribution Hadoop) es la distribución más completa,

probada y utilizada del mundo de Hadoop construida para las empresas.

CDH le da una ruta optimizada para el éxito en la solución de problemas

de negocios reales con Big Data.

Aprende Hadoop de los Expertos:

Cloudera University es el proveedor líder de educación Hadoop,

ofreciendo la más amplia gama de cursos para abordar los objetivos de

Hadoop de cada profesional: Administradores, Desarrolladores, y Analistas

de Datos.

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Cursos disponibles:

Cloudera Administrator Training for Apache Hadoop.

Cloudera Developer Training for Apache Hadoop.

Cloudera Data Analyst Training: Using Pig, Hive, And Impala With

Hadoop.

Designing and Building Big Data Applications.

Cloudera Developer Training for Apache Spark.

Cloudera Search Training.

Cloudera Training for Apache HBase.

Cloudera Introduction to Data Science: Building Recommender

Systems.

Llegar a ser un Certified Big Data Professional:

El éxito de Big Data requiere de profesionales que puedan demostrar su

dominio de las herramientas y técnicas de Hadoop. Sin embargo, los

expertos predicen una gran escasez de profesionales de Big Data en los

próximos años. Cloudera, aprovecha su liderazgo en la industria para

hacer frente a la brecha de talentos.

El programa Cloudera Certified Professional (CCP) entrega la credencial

de Big Data más rigurosa y reconocida de la industria. Cloudera certifica

verdaderos especialistas que han demostrado su capacidad en exámenes

tradicionales y en retos prácticos con conjuntos de datos en vivo. CCP es a

la vez una herramienta que los Gerentes pueden utilizar para verificar la

experiencia y un recurso para encontrar o cultivar el talento que necesitan

para poner en marcha y ampliar sus proyectos de Big Data.

Cloudera Certified Administrator for Apache Hadoop (CCAH)

Cloudera Certified Developer for Apache Hadoop (CCDH)

Cloudera Certified Specialist in Apache HBase (CCSHB)

Cloudera Certified Professional: Data Engineer

Cloudera Certified Professional: Data Scientist (CCP:DS)

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

PROGRAMACIÓN DE CURSOS

Curso Duración Inicio y Horario

Cloudera Administrator Training for

Apache Hadoop 4 días

Del 14 al 16 de Oct.

de 03:00 pm a 10:00 pm

17-Oct. de 09:00 am a 05:00 pm

Cloudera Data Analyst Training:

Using Hive, Pig, and Impala with

Hadoop

4 días Del 19 al 22 de Oct.

de 03:00 pm a 10:00 pm

DESCUENTOS

- 5% por matricula hasta el 31 de julio, o por matrícula en grupo. Si el

pago es en efectivo 8% de descuento.

- Descuentos exclusivos para personas naturales. Para compras

corporativas por favor ponerse en contacto al e-mail: informes@cac-

ti.com, indicando el número de participantes a matricular.

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

DESCRIPCIÓN DE CURSOS

Cloudera Administrator Training For Apache Hadoop

Este curso permite a los participantes adquirir un conocimiento global de

todos los pasos necesarios para operar y mantener un cluster Hadoop.

Desde la instalación y la configuración a través de balanceo de carga y

puesta a punto. Este curso de formación de Cloudera es la mejor

preparación para los desafíos del mundo real que enfrentan los

administradores de Hadoop.

Qué aprenderás:

A través de sesiones teóricas y talleres prácticos dirigidos por un instructor

certificado por Cloudera, podrás navegar por el ecosistema Hadoop y

aprender:

El funcionamiento del sistema distribuido de ficheros de Hadoop y

Map/Reduce.

Determinar el hardware y la infraestructura correcta para el cluster

de Hadoop.

Configurar y desplegar apropiadamente las opciones de Hadoop

para obtener el mejor rendimiento de un cluster.

Cómo cargar datos en un cluster desde ficheros generados

dinámicamente con Flume y desde una base de datos relacional

usando Sqoop.

Configurar el FairScheduler para proporcionar acuerdos de nivel de

servicio para múltiples usuarios de un cluster.

Las mejores prácticas para la elaboración y el mantenimiento de

Hadoop en ambientes productivos.

Solucionar problemas (Troubleshooting), diagnosticar y mejorar el

rendimiento de Hadoop.

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Audiencia y Requisitos previos

Este curso es el más adecuado para los administradores de sistemas,

Administradores de BD, Analistas de BI y administradores de TI con

experiencia básica en Linux, que serán responsables del despliegue y la

gestión de clústeres Apache Hadoop en entornos de producción o

desarrollo. No se requiere conocimiento previo de Hadoop.

Certificación de Administrador

Al finalizar el curso el participante estará en condiciones de rendir el

examen de certificación Cloudera Certified Administrator for Apache

Hadoop (CCAH).

La certificación es un gran diferenciador. Proporciona la evidencia

tangible a los empleadores y clientes de sus habilidades y experiencia.

Temario

1. Introduction

• The Case for Apache Hadoop

• Why Hadoop?

• Core Hadoop Components

• Fundamental Concepts

2. HDFS

• HDFS Features

• Writing and Reading Files

• NameNode Memory Considerations

• Overview of HDFS Security

• Using the Namenode Web UI

• Using the Hadoop File Shell

3. Getting Data into HDFS

• Ingesting Data from External Sources with Flume

• Ingesting Data from Relational Databases with Sqoop

• REST Interfaces

• Best Practices for Importing Data

4. YARN and MapReduce

• What Is MapReduce?

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

• Basic MapReduce Concepts

• YARN Cluster Architecture

• Resource Allocation

• Failure Recovery

• Using the YARN Web UI

• MapReduce Version 1

5. Planning Your Hadoop Cluster

• General Planning Considerations

• Choosing the Right Hardware

• Network Considerations

• Configuring Nodes

• Planning for Cluster Management

6. Hadoop Installation and Initial Configuration

• Deployment Types

• Installing Hadoop

• Specifying the Hadoop Configuration

• Performing Initial HDFS Configuration

• Performing Initial YARN and MapReduce Configuration

• Hadoop Logging

7. Installing and Configuring Hive, Impala, and Pig

• Hive

• Impala

• Pig

8. Hadoop Clients

• What is a Hadoop Client?

• Installing and Configuring Hadoop Clients

• Installing and Configuring Hue

• Hue Authentication and Authorization

9. Cloudera Manager

• The Motivation for Cloudera Manager

• Cloudera Manager Features

• Express and Enterprise Versions

• Cloudera Manager Topology

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

• Installing Cloudera Manager

• Installing Hadoop Using Cloudera Manager

• Performing Basic Administration Tasks Using Cloudera Manager

10. Advanced Cluster Configuration

• Advanced Configuration Parameters

• Configuring Hadoop Ports

• Explicitly Including and Excluding Hosts

• Configuring HDFS for Rack Awareness

• Configuring HDFS High Availability

11. Hadoop Security

• Why Hadoop Security Is Important

• Hadoop’s Security System Concepts

• What Kerberos Is and How it Works

• Securing a Hadoop Cluster with Kerberos

12. Managing and Scheduling Jobs

• Managing Running Jobs

• Scheduling Hadoop Jobs

• Configuring the FairScheduler

• Impala Query Scheduling

13. Cluster Maintenance

• Checking HDFS Status

• Copying Data Between Clusters

• Adding and Removing Cluster Nodes

• Rebalancing the Cluster

• Cluster Upgrading

14. Cluster Monitoring and Troubleshooting

• General System Monitoring

• Monitoring Hadoop Clusters

• Common Troubleshooting Hadoop Clusters

• Common Misconfigurations

15. Conclusion

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Cloudera Data Analyst Training: Using Pig, Hive, And Impala With

Hadoop

Este curso le enseñará a utilizar las herramientas necesarias para acceder,

manipular, transformar y analizar grandes conjuntos de datos complejos

utilizando SQL y lenguajes familiares de scripting.

Apache Hive hace que los datos multi-estructurados sean accesibles para

los analistas, administradores de bases de datos, y otros sin conocimientos

de programación Java. Apache Pig aplica los fundamentos de lenguajes

de scripting para el cluster Hadoop. Cloudera Impala permite análisis

interactivo en tiempo real de los datos almacenados en Hadoop a través

de un entorno de SQL nativo.

Qué aprenderás:

A través de sesiones teóricas y talleres prácticos dirigidos por un instructor

certificado por Cloudera, podrás navegar por el ecosistema Hadoop y

aprender los siguientes tópicos:

• Características que ofrecen Pig, Hive, e Impala para la adquisición,

almacenamiento y análisis de los datos.

• Fundamentos de Apache Hadoop y data ETL (extract, transform,

load), ingestión, y el procesamiento con herramientas Hadoop.

• Cómo Pig, Hive, e Impala mejoran la productividad de tareas típicas

de análisis.

• Unir diversos conjuntos de datos para obtener un conocimiento

valioso para el negocio.

• Realizar en tiempo real consultas complejas sobre conjuntos de

datos.

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Audiencia y Requisitos previos

Este curso está diseñado para Analistas de Datos, Especialistas en

Inteligencia de Negocios, Desarrolladores, Arquitectos de Sistemas,

Administradores de Base de Datos, Analistas de BI. Se asume que el

participante tiene conocimientos de SQL, comandos básicos de Linux o

Unix. Estar familiarizado con algún lenguaje de scripting (ejemplo: Bash

scripting, Perl, Python o Ruby). No es necesario tener ningún conocimiento

previo de Java y Apache Hadoop.

Temario

1. Introduction Hadoop Fundamentals

• The Motivation for Hadoop

• Hadoop Overview

• Data Storage: HDFS

• Distributed Data Processing: YARN, MapReduce, and Spark

• Data Processing and Analysis: Pig, Hive, and Impala

• Data Integration: Sqoop

• Other Hadoop Data Tools

• Exercise Scenarios Explanation

2. Introduction to Pig

• What Is Pig?

• Pig’s Features

• Pig Use Cases

• Interacting with Pig

3. Basic Data Analysis with Pig

• Pig Latin Syntax

• Loading Data

• Simple Data Types

• Field Definitions

• Data Output

• Viewing the Schema

• Filtering and Sorting Data

• Commonly-Used Functions

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

4. Processing Complex Data with Pig

• Storage Formats

• Complex/Nested Data Types

• Grouping

• Built-In Functions for Complex Data

• Iterating Grouped Data

5. Multi-Dataset Operations with Pig

• Techniques for Combining Data Sets

• Joining Data Sets in Pig

• Set Operations

• Splitting Data Sets

6. Pig Troubleshooting and Optimization

• Troubleshooting Pig

• Logging

• Using Hadoop’s Web UI

• Data Sampling and Debugging

• Performance Overview

• Understanding the Execution Plan

• Tips for Improving the Performance of Your Pig Jobs

7. Introduction to Hive and Impala

• What Is Hive?

• What Is Impala?

• Schema and Data Storage

• Comparing Hive to Traditional Databases

• Hive Use Cases

8. Querying with Hive and Impala

• Databases and Tables

• Basic Hive and Impala Query Language Syntax

• Data Types

• Differences Between Hive and Impala Query Syntax

• Using Hue to Execute Queries

• Using the Impala Shell

9. Data Management

• Data Storage

• Creating Databases and Tables

• Loading Data

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

• Altering Databases and Tables

• Simplifying Queries with Views

• Storing Query Results

10. Data Storage and Performance

• Partitioning Tables

• Choosing a File Format

• Managing Metadata

• Controlling Access to Data

11. Relational Data Analysis with Hive and Impala

• Joining Datasets

• Common Built-In Functions

• Aggregation and Windowing

12. Working with Impala

• How Impala Executes Queries

• Extending Impala with User-Defined Functions

• Improving Impala Performance

13. Analyzing Text and Complex Data with Hive

• Complex Values in Hive

• Using Regular Expressions in Hive

• Sentiment Analysis and N-Grams

• Conclusion

14. Hive Optimization

• Understanding Query Performance

• Controlling Job Execution Plan

• Bucketing

• Indexing Data

15. Extending Hive

• SerDes

• Data Transformation with Custom Scripts

• User-Defined Functions

• Parameterized Queries

16. Choosing the Best Tool for the Job

• Comparing MapReduce, Pig, Hive, Impala, and Relational Databases

• Which to Choose?

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

INSTRUCTOR

Bruce E. Martin, Ph. D.

Bruce Martin teaches Big Data technologies at Cloudera as a

Senior Instructor, including courses on Apache Hadoop, Data

Analysis and Data Science. Previously Bruce was a senior technical

leader at SunGard Higher Education. He held the positions of

Principle Architect and Director of Advanced Concepts. At

SunGard Higher Education he developed the software architecture for SunGard's

Course Signals Early Intervention System. The system uses Machine Learning,

Enterprise Java and Adobe Flex technologies. At SunGard, Bruce led an applied

research team that created a novel enterprise application composer. Bruce

writes, teaches and mentors about Big Data, Enterprise Java and Distributed

Object technologies. Bruce created the Middleware Company's popular

Architect's Workshop and has given it to several hundred enterprise architects. The

reviews of this workshop have been outstanding. Bruce has advised many

enterprises on improving their software architectures. Bruce has an excellent ability

to convey both the conceptual basis of a technology and the practical nuts and

bolts use of it. He has given talks around the world on distributed systems,

advanced transaction models, object oriented programming, XML and distributed

object technologies at both academic conferences and industrial events. Bruce

has written many papers for conferences, journals and books. Bruce is one of the

pioneers of Distributed Object Computing. At Hewlett Packard Laboratories, he

designed and implemented an interface definition language that became the

basis for HP's original CORBA submission. At Sun Microsystems, he was one of Sun's

CORBA architects and was the primary author of five of the OMG's CORBA

Services specifications. Bruce has extensive practical experience with Java, J2EE,

XML and Web Services.

Bruce received Ph.D. and Masters degrees in Computer Science from the

University of California at San Diego, and a Bachelors degree in Computer Science

from the University of California at Berkeley. Bruce's Ph.D. dissertation, Concurrent

Nested Object Computations, presented a novel model and scheduling

algorithms for concurrency control on shared abstract objects. Bruce is bilingual in

Spanish and English. Since his teenage years, Mexico has been a very important

part of his life. Bruce “speaks tech” in both languages, having given workshops in

Spanish in Mexico, Spain and Chile.

http://blog.cloudera.com/blog/2014/03/meet-the-instructor-bruce-martin/

Propuesta de Capacitación: Cursos de Certificación Cloudera

Av. del Pinar 152 Oficina 1008 – Chacarilla del Estanque – Surco, Lima

Teléfono: (511) 715-5371 Fax: (511) 717-1988

Web: http://www.cac-ti.com

Centro de Alta Capacitación en TI Oficina Principal

Av. del Pinar 152 Oficina 1008 Chacarilla del Estanque, Santiago de Surco

E-mail: [email protected]

Teléfono: (511) 715-5371

Celular: (51) 996-580-762

Fax: (511) 717-1988

Web: http://www.cac-ti.com