Temario del curso

Introducción, Objetivos y Estrategia de Migración

  • Metas del curso, alineación del perfil de los participantes y criterios de éxito
  • Enfoques generales de migración y consideraciones de riesgo
  • Configuración de espacios de trabajo, repositorios y conjuntos de datos de laboratorio

Día 1 — Fundamentos y Arquitectura de Migración

  • Conceptos Lakehouse, panorama de Delta Lake y arquitectura de Databricks
  • Diferencias entre SMP y MPP y sus implicaciones para la migración
  • Diseño Medallion (Bronce→Plata→Oro) y panorama de Unity Catalog

Laboratorio del Día 1 — Traducción de un Procedimiento Almacenado

  • Migración práctica de un procedimiento almacenado de ejemplo a un cuaderno
  • Mapeo de tablas temporales y cursores a transformaciones DataFrame
  • Validación y comparación con la salida original

Día 2 — Delta Lake Avanzado y Carga Incremental

  • Transacciones ACID, registros de confirmación, versionamiento y viaje en el tiempo
  • Auto Loader, patrones MERGE INTO, actualizaciones e inserciones condicionales (upserts), y evolución del esquema
  • OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento

Laboratorio del Día 2 — Ingesta Incremental y Optimización

  • Implementación de ingestión Auto Loader y flujos de trabajo MERGE
  • Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados
  • Medición de mejoras en rendimiento de lectura/escritura

Día 3 — SQL en Databricks, Rendimiento y Depuración

  • Características analíticas de SQL: funciones de ventana, funciones de orden superior, manejo de JSON/array
  • Lectura de la interfaz Spark UI, DAGs, mezclas (shuffles), etapas y tareas, y diagnóstico de cuellos de botella
  • Patrones de ajuste de consultas: uniones de difusión, sugerencias, almacenamiento en caché y reducción de volcados (spill)

Laboratorio del Día 3 — Refactorización SQL y Ajuste de Rendimiento

  • Refactorizar un proceso SQL pesado a Spark SQL optimizado
  • Usar trazas de la interfaz Spark UI para identificar y solucionar problemas de sesgo y mezcla
  • Benchmark antes/después y documentación de pasos de ajuste

Día 4 — PySpark Táctico: Reemplazo de Lógica Procedural

  • Modelo de ejecución de Spark: controlador, ejecutores, evaluación perezosa y estrategias de particionamiento
  • Transformar bucles y cursores en operaciones vectorizadas DataFrame
  • Modularización, UDFs/pandas UDFs, widgets y bibliotecas reutilizables

Laboratorio del Día 4 — Refactorización de Scripts Procedurales

  • Refactorizar un script ETL procedural a cuadernos PySpark modulares
  • Introducir parametrización, pruebas estilo unidad y funciones reutilizables
  • Revisión de código y aplicación de una lista de verificación de mejores prácticas

Día 5 — Orquestación, Pipeline de Extremo a Extremo y Mejores Prácticas

  • Workflows de Databricks: diseño de trabajos, dependencias de tareas, desencadenadores y manejo de errores
  • Diseño de pipelines Medallion incrementales con reglas de calidad y validación del esquema
  • Integración con Git (GitHub/Azure DevOps), CI y estrategias de pruebas para lógica PySpark

Laboratorio del Día 5 — Construir un Pipeline Completo de Extremo a Extremo

  • Ensamblar pipeline Bronce→Plata→Oro orquestado con Workflows
  • Implementar registro, auditoría, reintentos y validaciones automatizadas
  • Ejecutar pipeline completo, validar salidas y preparar notas de implementación

Operacionalización, Gobernanza y Preparación para Producción

  • Mejores prácticas de gobernanza, linaje y controles de acceso con Unity Catalog
  • Costos, dimensionamiento de clústeres, escalado automático y patrones de concurrencia de trabajos
  • Listas de verificación de implementación, estrategias de reversión y creación de runbooks

Revisión Final, Transferencia de Conocimientos y Pasos Siguientes

  • Presentaciones de los participantes sobre su trabajo de migración y lecciones aprendidas
  • Análisis de brechas, actividades recomendadas para el seguimiento y entrega de materiales de capacitación
  • Referencias, rutas de aprendizaje adicionales y opciones de soporte

Requerimientos

  • Comprensión de conceptos de ingeniería de datos
  • Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server)
  • Familiaridad con conceptos de orquestación ETL (ADF u otros similares)

Audiencia

  • Gerentes tecnológicos con experiencia en ingeniería de datos
  • Ingenieros de datos que transitan lógica OLAP procedural a patrones Lakehouse
  • Ingenieros de plataforma responsables de la adopción de Databricks
 35 Horas

Número de participantes


Precio por Participante​

Testimonios (1)

Próximos cursos

Categorías Relacionadas