Temario del curso

Introducción a la Ciencia de Datos para el Análisis de Big Data

  • Visión general de la Ciencia de Datos
  • Visión general del Big Data
  • Estructuras de datos
  • Motores y complejidades del Big Data
  • El ecosistema del Big Data y un nuevo enfoque para el análisis de datos
  • Tecnologías clave en el Big Data
  • Proceso y problemas de minería de datos
    • Minería de patrones de asociación
    • Agrupamiento de datos
    • Detección de valores atípicos
    • Clasificación de datos

Introducción al ciclo de vida del Análisis de Datos

  • Descubrimiento
  • Preparación de datos
  • Planificación del modelo
  • Construcción del modelo
  • Presentación/Comunicación de resultados
  • Operacionalización
  • Ejercicio: Estudio de caso

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con el big data.

Comenzando con R

  • Instalación de R y Rstudio
  • Características del lenguaje R
  • Objetos en R
  • Datos en R
  • Manipulación de datos
  • Cuestiones de big data
  • Ejercicios

Comenzando con Hadoop

  • Instalación de Hadoop
  • Comprensión de los modos de Hadoop
  • HDFS
  • Arquitectura MapReduce
  • Visión general de proyectos relacionados con Hadoop
  • Escribir programas en Hadoop MapReduce
  • Ejercicios

Integración de R y Hadoop con RHadoop

  • Componentes de RHadoop
  • Instalación de RHadoop y conexión con Hadoop
  • Arquitectura de RHadoop
  • Streaming de Hadoop con R
  • Solución de problemas de análisis de datos con RHadoop
  • Ejercicios

Preprocesamiento y preparación de datos

  • Pasos de preparación de datos
  • Extracción de características
  • Limpieza de datos
  • Integración y transformación de datos
  • Reducción de datos – muestreo, selección de subconjuntos de características
  • Reducción de dimensionalidad
  • Discretización y agrupamiento en bins
  • Ejercicios y estudio de caso

Métodos de análisis exploratorio de datos en R

  • Estadísticas descriptivas
  • Análisis exploratorio de datos
  • Visualización – pasos preliminares
  • Visualización de una variable
  • Examen de múltiples variables
  • Métodos estadísticos para la evaluación
  • Pruebas de hipótesis
  • Ejercicios y estudio de caso

Visualizaciones de datos

  • Visualizaciones básicas en R
  • Paquetería para la visualización de datos ggplot2, lattice, plotly, lattice
  • Diseño de gráficos en R
  • Gráficos avanzados
  • Ejercicios

Regresión (Estimación de valores futuros)

  • Regresión lineal
  • Casos de uso
  • Descripción del modelo
  • Diagnósticos
  • Problemas con la regresión lineal
  • Métodos de reducción, regresión ridge, el lasso
  • Generalizaciones y no linealidad
  • Regresiones splines
  • Regresión polinomial local
  • Modelos aditivos generalizados
  • Regresión con RHadoop
  • Ejercicios y estudio de caso

Clasificación

  • Problemas relacionados con la clasificación
  • Repaso bayesiano
  • Bayes ingenuo
  • Regresión logística
  • Vectores de características más cercanos (k-NN)
  • Algoritmo de árboles de decisión
  • Redes neuronales
  • Máquinas de soporte vectorial (SVM)
  • Diagnósticos de clasificadores
  • Comparación de métodos de clasificación
  • Algoritmos de clasificación escalables
  • Ejercicios y estudio de caso

Evaluación del rendimiento y selección del modelo

  • Sesgo, varianza y complejidad del modelo
  • Precisión frente a interpretabilidad
  • Evaluación de clasificadores
  • Medidas de rendimiento del modelo/algortimo
  • Método de validación de hold-out
  • Cross-validation
  • Afinación de algoritmos de aprendizaje automático con el paquete caret
  • Visualización del rendimiento del modelo con curvas ROC y Lift

Métodos de ensemble

  • Bolsa (Bagging)
  • Bosques aleatorios (Random Forests)
  • Impulso (Boosting)
  • Impulso gradiente (Gradient boosting)
  • Ejercicios y estudio de caso

Máquinas de soporte vectorial para clasificación y regresión

  • Clasificadores de margen máximo
    • Clasificadores de soporte vectorial
    • Máquinas de soporte vectorial (SVM)
    • SVM para problemas de clasificación
    • SVM para problemas de regresión
  • Ejercicios y estudio de caso

Identificación de agrupamientos desconocidos dentro de un conjunto de datos

  • Selección de características para el agrupamiento
  • Algoritmos basados en representantes: k-means, k-medoids
  • Algoritmos jerárquicos: métodos aglomerativos y divisivos
  • Algoritmos probabilísticos: EM
  • Algoritmos basados en densidad: DBSCAN, DENCLUE
  • Validación de clusters
  • Conceptos avanzados de agrupamiento
  • Agrupamiento con RHadoop
  • Ejercicios y estudio de caso

Descubrimiento de conexiones con el Análisis de Enlaces

  • Conceptos de análisis de enlaces
  • Métricas para analizar redes
  • El algoritmo PageRank
  • Búsqueda inducida por hipervínculos (HITS)
  • Predicción de enlaces
  • Ejercicios y estudio de caso

Minería de Patrones de Asociación

  • Modelo de minería de patrones frecuentes
  • Cuestiones de escalabilidad en la minería de patrones frecuentes
  • Algoritmos de fuerza bruta
  • Algoritmo Apriori
  • El enfoque FP growth
  • Evaluación de reglas candidatas
  • Aplicaciones de reglas de asociación
  • Validación y pruebas
  • Diagnósticos
  • Reglas de asociación con R y Hadoop
  • Ejercicios y estudio de caso

Construcción de motores de recomendación

  • Comprensión de los sistemas de recomendación
  • Técnicas de minería de datos utilizadas en los sistemas de recomendación
  • Sistemas de recomendación con el paquete recommenderlab
  • Evaluación de los sistemas de recomendación
  • Recomendaciones con RHadoop
  • Ejercicio: Construcción de un motor de recomendación

Análisis de texto

  • Pasos del análisis de texto
  • Recopilación de texto crudo
  • Bolsa de palabras
  • Frecuencia de término – Frecuencia inversa del documento (TF-IDF)
  • Determinación de sentimientos
  • Ejercicios y estudio de caso
 35 Horas

Número de participantes


Precio por Participante​

Testimonios (2)

Próximos cursos

Categorías Relacionadas