Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
- Introducción
- Hadoop Historia, Conceptos
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Hadoop Mitos
- Hadoop Desafíos (hardware / software)
- Labs: discute tus Big Data proyectos y problemas
- Planificación e instalación
- Selección de software, Hadoop distribuciones
- Dimensionamiento del clúster, planificación del crecimiento
- Selección de hardware y red
- Topología de bastidor
- Instalación
- Multi-tenencia
- Estructura de directorios, registros
- Evaluación comparativa
- Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
- Operaciones de HDFS
- Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de racks)
- Nodos y demonios (NameNode, NameNode secundario, NameNode en espera de alta disponibilidad, DataNode)
- Supervisión de la salud
- Administración basada en explorador y línea de comandos
- Adición de almacenamiento, sustitución de unidades defectuosas
- Labs: familiarizarse con las líneas de comandos de HDFS
- Ingesta de datos
- Canal para la ingesta de registros y otros datos en HDFS
- Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL
- Hadoop Almacenamiento de datos con Hive
- Copia de datos entre clústeres (distcp)
- Uso de S3 como complemento de HDFS
- Prácticas recomendadas y arquitecturas de ingesta de datos
- Labs: configuración y uso de Flume, lo mismo para Sqoop
- Operaciones y administración de MapReduce
- Computación paralela antes de mapreduce: comparación de la administración de HPC con la de Hadoop
- MapReduce las cargas de clúster
- Nodos y demonios (JobTracker, TaskTracker)
- Recorrido por la interfaz de usuario de MapReduce
- Configuración de Mapreduce
- Configuración del trabajo
- Optimización de MapReduce
- RM infalible: qué decirle a tus programadores
- Labs: ejecución de ejemplos de MapReduce
- YARN: nueva arquitectura y nuevas capacidades
- Objetivos de diseño y arquitectura de implementación de YARN
- Nuevos actores: ResourceManager, NodeManager, Application Master
- Instalación de YARN
- Programación de trabajos en YARN
- Laboratorios: investigar la programación de trabajos
- Temas avanzados
- Monitoreo de hardware
- Supervisión de clústeres
- Agregar y eliminar servidores, actualizar Hadoop
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Flujos de trabajo de Oozie
- Hadoop alta disponibilidad (HA)
- Hadoop Federación
- Protección del clúster con Kerberos
- Laboratorios: configuración de la supervisión
- Pistas opcionales
- Cloudera Manager para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5)
- Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos de Hortonworks (HDP 2.0)
Requerimientos
- Cómodo con la administración básica del sistema Linux
- Habilidades básicas de scripting
No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.
Entorno de laboratorio
Instalación cero: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop en funcionamiento para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
- un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
21 Horas