Programa del Curso

  • Introducción
    • Hadoop historia, conceptos
    • Ecosistema
    • Distribuciones
    • Arquitectura de alto nivel
    • Hadoop mitos
    • Hadoop desafíos (hardware / software)
    • Laboratorios: discutir tus proyectos y problemas Big Data
  • Planificación e instalación
    • Selección de software, Hadoop distribuciones
    • Dimensionamiento del clúster, planificación para el crecimiento
    • Selección de hardware y red
    • Topología de racks
    • Instalación
    • Multiinquilinato
    • Estructura de directorios, registros
    • Benchmarking
    • Laboratorios: instalación del clúster, ejecución de benchmarks de rendimiento
  • Operaciones HDFS
    • Conceptos (escalamiento horizontal, replicación, localidad de datos, conciencia de racks)
    • Nodos y demonios (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitoreo de salud
    • Administración por línea de comandos e interfaz web
    • Agregar almacenamiento, reemplazar discos defectuosos
    • Laboratorios: familiarizarse con las líneas de comandos HDFS
  • Ingesta de datos
    • Flume para la ingestión de registros y otros datos en HDFS
    • Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de vuelta a SQL
    • Hadoop almacenes de datos con Hive
    • Copia de datos entre clústeres (distcp)
    • Uso de S3 como complemento a HDFS
    • Mejores prácticas y arquitecturas para la ingestión de datos
    • Laboratorios: configuración e uso de Flume, lo mismo para Sqoop
  • Operaciones y administración MapReduce
    • Computación paralela antes del mapreduce: comparar HPC vs Hadoop administración
    • Cargas de trabajo en el clúster MapReduce
    • Nodos y demonios (JobTracker, TaskTracker)
    • Recorrido por la interfaz de usuario de MapReduce
    • Configuración de MapReduce
    • Configuración del trabajo
    • Optimización de MapReduce
    • Protección contra errores en MR: qué decirle a tus programadores
    • Laboratorios: ejecución de ejemplos MapReduce
  • YARN: nueva arquitectura y nuevas capacidades
    • Objetivos de diseño e implementación de arquitectura en YARN
    • Nuevos actores: ResourceManager, NodeManager, Application Master
    • Instalación de YARN
    • Programación de trabajos bajo YARN
    • Laboratorios: investigación sobre la programación de trabajos
  • Temas avanzados
    • Monitoreo de hardware
    • Monitoreo del clúster
    • Agregar y eliminar servidores, actualizar Hadoop
    • Backup, recuperación y planificación de continuidad del negocio
    • Flujos de trabajo de trabajos Oozie
    • Hadoop alta disponibilidad (HA)
    • Hadoop federación
    • Protección de tu clúster con Kerberos
    • Laboratorios: configurar monitoreo
  • Rutas opcionales
    • Cloudera Manager para la administración, monitoreo y tareas rutinarias del clúster; instalación, uso. En esta ruta, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución Cloudera (CDH5)
    • Ambari para la administración, monitoreo y tareas rutinarias del clúster; instalación, uso. En esta ruta, todos los ejercicios y laboratorios se realizan dentro del gestor de clústeres Ambari y el Plataforma de Datos Hortonworks (HDP 2.0)

Requerimientos

  • cómodo con la administración básica del sistema Linux
  • habilidades básicas de scripting

El conocimiento de Hadoop y la computación distribuida no es necesario, pero se introducirán y explicarán en el curso.

Entorno de laboratorio

Instalación cero: no es necesario instalar software Hadoop en las máquinas de los estudiantes. Se proporcionará un clúster funcional de Hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente:

  • un cliente SSH (Linux y Mac ya tienen clientes SSH, se recomienda Putty para Windows)
  • un navegador para acceder al clúster. Se recomienda el navegador Firefox con la extensión FoxyProxy instalada
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas