Programa del Curso
Introducción
Comprender Big Data
Descripción de Spark
Descripción de Python
Descripción de PySpark
- Distribuir datos utilizando un marco de conjuntos de datos distribuidos resilientes
- Distribución de la computación usando los operadores de Spark API
Configurando Python con Spark
Configurando PySpark
Uso de las instancias de Amazon Web Services (AWS) EC2 para Spark
Configurando Databricks
Configuración del clúster EMR de AWS
Aprender los principios básicos de la programación Python
- Comenzando con Python
- Usando el cuaderno Jupyter
- Usando variables y tipos de datos simples
- Trabajando con listas
- Usando if Declaraciones
- Uso de entradas de usuario
- Trabajando con while Loops
- Funciones de implementación
- Trabajando con Clases
- Trabajando con archivos y excepciones
- Trabajando con proyectos, datos y API
Aprender los conceptos básicos de Spark DataFrame
- Primeros pasos con Spark DataFrames
- Implementando Operaciones Básicas con Spark
- Usando Groupby y operaciones agregadas
- Trabajando con marcas de tiempo y fechas
Trabajando en un ejercicio de proyecto Spark DataFrame
Entender el aprendizaje automático con MLlib
Trabajando con MLlib, Spark y Python para el aprendizaje automático
Entender las regresiones
- Aprendizaje de la teoría de regresión lineal
- Implementando un código de evaluación de regresión
- Trabajando en un ejercicio de regresión lineal de muestra
- Aprender la teoría de la regresión logística
- Implementando un Código de Regresión Logística
- Trabajando en un ejemplo de ejercicio de regresión logística
Comprender los bosques aleatorios y los árboles de decisión
- Teoría de los métodos del árbol de aprendizaje
- Implementando Árboles de Decisión y Códigos Forestales Aleatorios
- Trabajando en un ejemplo de ejercicio de clasificación aleatoria de bosques
Trabajando con K-means Clustering
- Comprender la teoría de agrupamiento de K-means
- Implementando un código de agrupamiento K-means
- Trabajando en un ejemplo de ejercicio de agrupamiento
Trabajando con los sistemas de recomendación
Implementando el procesamiento del lenguaje natural
- Comprender el procesamiento del lenguaje natural (NLP)
- Descripción de las herramientas de PNL
- Trabajando en un ejercicio de muestra NLP
Streaming con Spark en Python
- Descripción general Streaming with Spark
- Ejercicio Spark Streaming de muestra
Observaciones finales
Requerimientos
- Habilidades de programación general
Audiencia
- Desarrolladores
- Profesionales de TI
- Científicos de datos
Testimonios (6)
Me gustó que fuera práctico. Me encantó aplicar el conocimiento teórico con ejemplos prácticos.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
El curso trataba sobre una serie de temas muy complejos y relacionados, y Pablo tiene un conocimiento profundo de cada uno de ellos. En algunas ocasiones se perdían matices en la comunicación y/o debido a presión por el tiempo, lo que posiblemente no cumplió con las expectativas esperadas. Además, hubo algunos problemas de configuración de UHG/Azure Databricks, pero Pablo y UHG resolvieron estos rápidamente una vez que se hicieron evidentes. Esto me demostró un alto nivel de comprensión y profesionalismo entre UHG y Pablo.
Michael Monks - Tech NorthWest Skillnet
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
Atención individual.
ARCHANA ANILKUMAR - PPL
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
Formación Práctica..
Abraham Thomas - PPL
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
Las lecciones se impartieron en un cuaderno Jupyter. Los temas estaban estructurados con una secuencia lógica y naturalmente ayudaron a desarrollar la sesión desde las partes más sencillas hasta las más complejas. Ya soy un usuario avanzado de Python con antecedentes en Machine Learning, por lo que encontré el curso más fácil de seguir que, posiblemente, algunos de mis compañeros que tomaron el curso de formación. Aprecio que se saltaran algunos de los conceptos más elementales y se centraran en las cuestiones más sustanciales.
Angela DeLaMora - ADT, LLC
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
tareas de práctica
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática