Contacta con nosotros

Temario del curso

Introducción:

  • Apache Spark en el ecosistema Hadoop
  • Breve introducción a Python y Scala

Fundamentos (teoría):

  • Arquitectura
  • RDD
  • Transformaciones y Acciones
  • Fase, Tarea, Dependencias

Uso del entorno Databricks para comprender los fundamentos (taller práctico):

  • Ejercicios con RDD API
  • Funciones básicas de acción y transformación
  • PairRDD
  • Join
  • Estrategias de almacenamiento en caché
  • Ejercicios con DataFrame API
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (Función definida por el usuario)
  • Análisis de la API DataSet
  • Streaming

Uso del entorno AWS para comprender el despliegue (taller práctico):

  • Fundamentos de AWS Glue
  • Diferencias entre AWS EMR y AWS Glue
  • Ejemplos de trabajos en ambos entornos
  • Ventajas y desventajas

Contenido adicional:

  • Introducción a la orquestación con Apache Airflow

Requerimientos

Habilidades de programación (preferiblemente Python, Scala)

Fundamentos de SQL

 21 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas