Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción:
- Apache Spark en el ecosistema Hadoop
- Breve introducción a Python y Scala
Fundamentos (teoría):
- Arquitectura
- RDD
- Transformaciones y Acciones
- Fase, Tarea, Dependencias
Uso del entorno Databricks para comprender los fundamentos (taller práctico):
- Ejercicios con RDD API
- Funciones básicas de acción y transformación
- PairRDD
- Join
- Estrategias de almacenamiento en caché
- Ejercicios con DataFrame API
- SparkSQL
- DataFrame: select, filter, group, sort
- UDF (Función definida por el usuario)
- Análisis de la API DataSet
- Streaming
Uso del entorno AWS para comprender el despliegue (taller práctico):
- Fundamentos de AWS Glue
- Diferencias entre AWS EMR y AWS Glue
- Ejemplos de trabajos en ambos entornos
- Ventajas y desventajas
Contenido adicional:
- Introducción a la orquestación con Apache Airflow
Requerimientos
Habilidades de programación (preferiblemente Python, Scala)
Fundamentos de SQL
21 Horas
Testimonios (3)
Tener sesiones prácticas / asignaciones
Poornima Chenthamarakshan - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Traducción Automática
1. Equilibrio adecuado entre conceptos de alto nivel y detalles técnicos. 2. Andras es muy conocedor de su enseñanza. 3. Ejercicio
Steven Wu - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Traducción Automática
Aprende sobre el streaming de Spark, Databricks y AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
Traducción Automática