Programa del Curso
- Introducción
- Hadoop historia, conceptos
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Hadoop mitos
- Hadoop desafíos (hardware / software)
- Laboratorios: discutir tus proyectos y problemas Big Data
- Planificación e instalación
- Selección de software, Hadoop distribuciones
- Dimensionamiento del clúster, planificación para el crecimiento
- Selección de hardware y red
- Topología de racks
- Instalación
- Multiinquilinato
- Estructura de directorios, registros
- Benchmarking
- Laboratorios: instalación del clúster, ejecución de benchmarks de rendimiento
- Operaciones HDFS
- Conceptos (escalamiento horizontal, replicación, localidad de datos, conciencia de racks)
- Nodos y demonios (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitoreo de salud
- Administración por línea de comandos e interfaz web
- Agregar almacenamiento, reemplazar discos defectuosos
- Laboratorios: familiarizarse con las líneas de comandos HDFS
- Ingesta de datos
- Flume para la ingestión de registros y otros datos en HDFS
- Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de vuelta a SQL
- Hadoop almacenes de datos con Hive
- Copia de datos entre clústeres (distcp)
- Uso de S3 como complemento a HDFS
- Mejores prácticas y arquitecturas para la ingestión de datos
- Laboratorios: configuración e uso de Flume, lo mismo para Sqoop
- Operaciones y administración MapReduce
- Computación paralela antes del mapreduce: comparar HPC vs Hadoop administración
- Cargas de trabajo en el clúster MapReduce
- Nodos y demonios (JobTracker, TaskTracker)
- Recorrido por la interfaz de usuario de MapReduce
- Configuración de MapReduce
- Configuración del trabajo
- Optimización de MapReduce
- Protección contra errores en MR: qué decirle a tus programadores
- Laboratorios: ejecución de ejemplos MapReduce
- YARN: nueva arquitectura y nuevas capacidades
- Objetivos de diseño e implementación de arquitectura en YARN
- Nuevos actores: ResourceManager, NodeManager, Application Master
- Instalación de YARN
- Programación de trabajos bajo YARN
- Laboratorios: investigación sobre la programación de trabajos
- Temas avanzados
- Monitoreo de hardware
- Monitoreo del clúster
- Agregar y eliminar servidores, actualizar Hadoop
- Backup, recuperación y planificación de continuidad del negocio
- Flujos de trabajo de trabajos Oozie
- Hadoop alta disponibilidad (HA)
- Hadoop federación
- Protección de tu clúster con Kerberos
- Laboratorios: configurar monitoreo
- Rutas opcionales
- Cloudera Manager para la administración, monitoreo y tareas rutinarias del clúster; instalación, uso. En esta ruta, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución Cloudera (CDH5)
- Ambari para la administración, monitoreo y tareas rutinarias del clúster; instalación, uso. En esta ruta, todos los ejercicios y laboratorios se realizan dentro del gestor de clústeres Ambari y el Plataforma de Datos Hortonworks (HDP 2.0)
Requerimientos
- cómodo con la administración básica del sistema Linux
- habilidades básicas de scripting
El conocimiento de Hadoop y la computación distribuida no es necesario, pero se introducirán y explicarán en el curso.
Entorno de laboratorio
Instalación cero: no es necesario instalar software Hadoop en las máquinas de los estudiantes. Se proporcionará un clúster funcional de Hadoop para los estudiantes.
Los estudiantes necesitarán lo siguiente:
- un cliente SSH (Linux y Mac ya tienen clientes SSH, se recomienda Putty para Windows)
- un navegador para acceder al clúster. Se recomienda el navegador Firefox con la extensión FoxyProxy instalada
Testimonios (5)
Los ejemplos en vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Durante los ejercicios, James me explicó cada paso en detalle donde me estaba atascando. Yo era completamente nuevo en NIFI. Él explicó el propósito real de NIFI, incluso conceptos básicos como ser código abierto. Cubrió todos los conceptos de Nifi, desde nivel principiante hasta nivel desarrollador.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Traducción Automática
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
Que lo tuviera en primer lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Traducción Automática
cosas prácticas de hacer, también teoría fue bien servida por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Traducción Automática