Programa del Curso

  • Introducción
  • Hadoop Historia, Conceptos
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Hadoop Mitos
  • Hadoop Desafíos (hardware / software)
  • Labs: discuta sus proyectos y problemas de Big Data
Planificación e instalación Selección de software, Hadoop distribuciones Dimensionamiento del clúster, planificación del crecimiento Selección de hardware y red Topología de bastidor Instalación Arrendamiento múltiple Estructura de directorios, registros Evaluación comparativa Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
  • Operaciones de HDFS
  • Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de rack)
  • Nodos y daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
  • Supervisión de la salud
  • Administración basada en explorador y línea de comandos
  • Adición de almacenamiento, sustitución de unidades defectuosas
  • Labs: familiarizarse con las líneas de comandos de HDFS
Ingesta de datos Canal para la ingesta de registros y otros datos en HDFS Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL Almacenamiento de datos de Hadoop con Hive Copia de datos entre clústeres (distcp) Uso de S3 como complemento de HDFS Prácticas recomendadas y arquitecturas de ingesta de datos Labs: configuración y uso de Flume, lo mismo para Sqoop
  • Operaciones y administración de MapReduce
  • Computación paralela antes de mapreduce: comparación de la administración de HPC con Hadoop
  • Cargas de clúster de MapReduce
  • Nodos y demonios (JobTracker, TaskTracker)
  • Tutorial de la interfaz de usuario de MapReduce
  • Configuración de Mapreduce
  • Configuración del trabajo
  • Optimización de MapReduce
  • RM infalible: qué decirle a tus programadores
  • Labs: ejecución de ejemplos de MapReduce
YARN: nueva arquitectura y nuevas capacidades Objetivos de diseño y arquitectura de implementación de YARN Nuevos actores: ResourceManager, NodeManager, Application Master Instalación de YARN Programación de trabajos en YARN Laboratorios: investigar la programación de trabajos
  • Temas avanzados
  • Monitoreo de hardware
  • Supervisión de clústeres
  • Adición y eliminación de servidores, actualización Hadoop
  • Planificación de copias de seguridad, recuperación y continuidad del negocio
  • Flujos de trabajo de Oozie
  • Hadoop alta disponibilidad (HA)
  • Hadoop Federación
  • Protección del clúster con Kerberos
  • Laboratorios: configurar la supervisión
Pistas opcionales Cloudera Manager para la administración, supervisión y tareas rutinarias de clústeres; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5) Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos Hortonworks (HDP 2.0)

Requerimientos

  • Cómodo con la administración básica del sistema Linux
  • Habilidades básicas de scripting

No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.

Entorno de laboratorio

Instalación cero: ¡No es necesario instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará a los estudiantes un clúster de hadoop en funcionamiento.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
  • Un explorador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
  21 horas

Número de participantes



Precio por participante

Testimonios (4)

Cursos Relacionados

Categorías Relacionadas