Cursos de Hadoop para Desarrolladores y Administradores
Algunos de nuestros clientes
Código del Curso
HadoopDevAd
Duración
21 horas (usualmente 3 días, incluidas las pausas)
Descripción General
Hadoop es el marco de procesamiento de Big Data más popular .
Machine Translated
Programa del Curso
Módulo 1. Introducción a Hadoop
El Sistema de Archivos Distribuidos Hadoop (HDFS)
La ruta de lectura y la ruta de escritura
Gestión de metadatos del sistema de archivos
El Namenode y el Datanode
La Alta Disponibilidad Namenode
Federación de Namenode
Las herramientas de línea de comandos
Entender la compatibilidad con REST
Módulo 2. Introducción a MapReduce
Análisis de los datos con Hadoop
Mapa y reducir el patrón
Java MapReduce
Escalando hacia fuera
Flujo de datos
Desarrollo de funciones de combinador
Ejecución de un trabajo distribuido de MapReduce
Módulo 3. Planificación de un clúster Hadoop
Elegir una distribución y una versión de Hadoop
Versiones y características
Selección de hardware
Maestro y Selección de Hardware del Trabajador
Tamaño de Clúster
Selección y preparación del sistema operativo
Disposición del despliegue
Configuración de usuarios, grupos y privilegios
Configuración del disco
Diseño de red
Módulo 4. Instalación y configuración
Instalación de Hadoop
Configuración: una visión general
Los archivos de configuración Hadoop XML
Variables de entorno y scripts de Shell
Configuración de registro
Gestión de HDFS
Optimización y ajuste
Formato del Namenode
Creación de un directorio / tmp
Pensando Namenode Alta Disponibilidad
Opciones de Esgrima
Configuración automática de conmutación por error
Formato y arranque de los Namenodes
Federación de Namenode
Módulo 5. Entendiendo Hadoop I / O
Integridad de datos en HDFS
Descripción de los codecs
Compresión y fracciones de entrada
Uso de la compresión en MapReduce
El mecanismo de serialización
Estructuras de datos basadas en archivos
El formato SequenceFile
Otros formatos de archivo y formatos orientados a columnas
Módulo 6. Desarrollo de una aplicación MapReduce
La API de configuración
Configuración del entorno de desarrollo
Administración de la configuración
GenericOptionsParser, Tool y ToolRunner
Escribir una prueba de unidad con MRUnit
El mapeador y reductor
Ejecución local en los datos de prueba
Prueba del controlador
Corriendo en un grupo
Embalaje y lanzamiento de un trabajo
La interfaz web de MapReduce
Sintonizando un trabajo
Módulo 7. Identidad, Autenticación y Autorización
Gestión de Identidad
Kerberos y Hadoop
Comprensión de la autorización
Módulo 8. Gestión de Recursos
¿Qué es la gestión de recursos?
Cuotas HDFS
Planificadores de MapReduce
Anatomía de una ejecución de la aplicación YARN
Solicitudes de recursos
Tiempo de vida de la aplicación
YARN en comparación con MapReduce 1
Programación en YARN
Opciones de Scheduler
Configuración del programador de capacidad
Configuración justa del programador
Programación Del Tiempo
Equidad de Recursos Dominante
Módulo 9. Tipos y formatos de MapReduce
Tipos de MapReduce
El trabajo predeterminado de MapReduce
Definición de los formatos de entrada
Gestión de divisiones y registros de entrada
Entrada de texto y entrada binaria
Gestión de múltiples entradas
Entrada de base de datos (y salida)
Formatos de salida
Salida de texto y salida binaria
Gestión de múltiples salidas
La salida de la base de datos
Módulo 10. Uso de las funciones de MapReduce
Uso de contadores
Lectura de contadores incorporados
Contadores Java definidos por el usuario
Comprensión de clasificación
Uso del caché distribuido
Módulo 11. Mantenimiento del clúster y solución de problemas
Gestión de procesos Hadoop
Iniciando y Deteniendo Procesos con Init Scripts
Inicio y detención de procesos manualmente
Tareas de mantenimiento HDFS
Adición de un Datanode
Desmantelamiento de un Datanode
Comprobación de la integridad del sistema de archivos con fsck
Equilibrio de los datos del bloque HDFS
Tratamiento de un disco fallido
Tareas de mantenimiento de MapReduce
Matando a un trabajo MapReduce
Matar una tarea MapReduce
Gestión del agotamiento de recursos
Módulo 12. Monitoreo
El Hadoop Metrics disponible
El papel de SNMP
Vigilancia de la salud
Comprobaciones de nivel de host
Cheques de HDFS
MapReduce Cheques
Módulo 13. Copia de seguridad y recuperación
Copias de seguridad
Copia distribuida (distcp)
Ingesta de datos paralelos
Metadatos de Namenode
Testimonios
★★★★★
★★★★★
El hecho de que todos los datos y el software estaban listos para usar en una máquina virtual ya preparada, proporcionada por el capacitador en discos externos.