Contacta con nosotros

Temario del curso

1. Introducción al Aprendizaje por Refuerzo Profundo

  • ¿Qué es el Aprendizaje por Refuerzo?
  • Diferencias entre aprendizaje supervisado, no supervisado y por refuerzo
  • Aplicaciones de DRL en 2025 (robótica, salud, finanzas, logística)
  • Comprensión del ciclo de interacción entre agente y entorno

2. Fundamentos del Aprendizaje por Refuerzo

  • Procesos de Decisión de Markov (MDP)
  • Funciones de estado, acción, recompensa, política y valor
  • Compensación entre exploración y explotación
  • Métodos de Monte Carlo y aprendizaje por Diferencia Temporal (TD)

3. Implementación de algoritmos básicos de RL

  • Métodos tabulares: Programación Dinámica, Evaluación de Políticas e Iteración
  • Q-Learning y SARSA
  • Exploración epsilon-greedy y estrategias de decaimiento
  • Implementación de entornos RL con OpenAI Gymnasium

4. Transición hacia el Aprendizaje por Refuerzo Profundo

  • Limitaciones de los métodos tabulares
  • Uso de redes neuronales para aproximación de funciones
  • Arquitectura y flujo de trabajo de Deep Q-Network (DQN)
  • Repaso de experiencias (experience replay) y redes objetivo

5. Algoritmos avanzados de DRL

  • Double DQN, Dueling DQN y Prioritized Experience Replay
  • Métodos de Gradiente de Política: algoritmo REINFORCE
  • Arquitecturas Actor-Crítico (A2C, A3C)
  • Optimización de Política Próxima (PPO)
  • Soft Actor-Critic (SAC)

6. Trabajo con espacios de acción continuos

  • Desafíos en el control continuo
  • Uso de DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Herramientas y marcos prácticos

  • Uso de Stable-Baselines3 y Ray RLlib
  • Registro y monitoreo con TensorBoard
  • Ajuste de hiperparámetros para modelos DRL

8. Ingeniería de recompensas y diseño del entorno

  • Moldeado de recompensas y equilibrio de penalizaciones
  • Conceptos de transferencia de aprendizaje de simulación a realidad (sim-to-real)
  • Creación de entornos personalizados en Gymnasium

9. Entornos parcialmente observables y generalización

  • Manejo de información incompleta del estado (POMDPs)
  • Enfoques basados en memoria utilizando LSTMs y RNNs
  • Mejora de la robustez y generalización del agente

10. Teoría de Juegos y Aprendizaje por Refuerzo Multiagente

  • Introducción a entornos multiagente
  • Cooperación vs. competencia
  • Aplicaciones en entrenamiento adversarial y optimización de estrategias

11. Estudios de caso y aplicaciones del mundo real

  • Simulaciones de conducción autónoma
  • Precios dinámicos y estrategias de trading financiero
  • Robótica y automatización industrial

12. Solución de problemas y optimización

  • Diagnóstico del entrenamiento inestable
  • Manejo de recompensas escasas y sobreajuste (overfitting)
  • Escalado de modelos DRL en GPUs y sistemas distribuidos

13. Resumen y siguientes pasos

  • Repaso de la arquitectura DRL y algoritmos clave
  • Tendencias industriales y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
  • Recursos adicionales y material de lectura

Requerimientos

  • Dominio de la programación en Python
  • Comprensión de Cálculo y Álgebra Lineal
  • Conocimientos básicos de Probabilidad y Estadística
  • Experiencia construyendo modelos de aprendizaje automático utilizando Python y NumPy o TensorFlow/PyTorch

Audiencia objetivo

  • Desarrolladores interesados en IA y sistemas inteligentes
  • Científicos de datos que exploran marcos de aprendizaje por refuerzo
  • Ingenieros de Machine Learning que trabajan con sistemas autónomos
 21 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas