Temario del curso
1. Introducción al Aprendizaje por Refuerzo Profundo
- ¿Qué es el Aprendizaje por Refuerzo?
- Diferencias entre aprendizaje supervisado, no supervisado y por refuerzo
- Aplicaciones de DRL en 2025 (robótica, salud, finanzas, logística)
- Comprensión del ciclo de interacción entre agente y entorno
2. Fundamentos del Aprendizaje por Refuerzo
- Procesos de Decisión de Markov (MDP)
- Funciones de estado, acción, recompensa, política y valor
- Compensación entre exploración y explotación
- Métodos de Monte Carlo y aprendizaje por Diferencia Temporal (TD)
3. Implementación de algoritmos básicos de RL
- Métodos tabulares: Programación Dinámica, Evaluación de Políticas e Iteración
- Q-Learning y SARSA
- Exploración epsilon-greedy y estrategias de decaimiento
- Implementación de entornos RL con OpenAI Gymnasium
4. Transición hacia el Aprendizaje por Refuerzo Profundo
- Limitaciones de los métodos tabulares
- Uso de redes neuronales para aproximación de funciones
- Arquitectura y flujo de trabajo de Deep Q-Network (DQN)
- Repaso de experiencias (experience replay) y redes objetivo
5. Algoritmos avanzados de DRL
- Double DQN, Dueling DQN y Prioritized Experience Replay
- Métodos de Gradiente de Política: algoritmo REINFORCE
- Arquitecturas Actor-Crítico (A2C, A3C)
- Optimización de Política Próxima (PPO)
- Soft Actor-Critic (SAC)
6. Trabajo con espacios de acción continuos
- Desafíos en el control continuo
- Uso de DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Herramientas y marcos prácticos
- Uso de Stable-Baselines3 y Ray RLlib
- Registro y monitoreo con TensorBoard
- Ajuste de hiperparámetros para modelos DRL
8. Ingeniería de recompensas y diseño del entorno
- Moldeado de recompensas y equilibrio de penalizaciones
- Conceptos de transferencia de aprendizaje de simulación a realidad (sim-to-real)
- Creación de entornos personalizados en Gymnasium
9. Entornos parcialmente observables y generalización
- Manejo de información incompleta del estado (POMDPs)
- Enfoques basados en memoria utilizando LSTMs y RNNs
- Mejora de la robustez y generalización del agente
10. Teoría de Juegos y Aprendizaje por Refuerzo Multiagente
- Introducción a entornos multiagente
- Cooperación vs. competencia
- Aplicaciones en entrenamiento adversarial y optimización de estrategias
11. Estudios de caso y aplicaciones del mundo real
- Simulaciones de conducción autónoma
- Precios dinámicos y estrategias de trading financiero
- Robótica y automatización industrial
12. Solución de problemas y optimización
- Diagnóstico del entrenamiento inestable
- Manejo de recompensas escasas y sobreajuste (overfitting)
- Escalado de modelos DRL en GPUs y sistemas distribuidos
13. Resumen y siguientes pasos
- Repaso de la arquitectura DRL y algoritmos clave
- Tendencias industriales y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
- Recursos adicionales y material de lectura
Requerimientos
- Dominio de la programación en Python
- Comprensión de Cálculo y Álgebra Lineal
- Conocimientos básicos de Probabilidad y Estadística
- Experiencia construyendo modelos de aprendizaje automático utilizando Python y NumPy o TensorFlow/PyTorch
Audiencia objetivo
- Desarrolladores interesados en IA y sistemas inteligentes
- Científicos de datos que exploran marcos de aprendizaje por refuerzo
- Ingenieros de Machine Learning que trabajan con sistemas autónomos
Testimonios (3)
Me gustó mucho el final donde tuvimos la oportunidad de experimentar con CHAT GPT. La sala no estaba muy bien preparada para esto; en lugar de una gran mesa, varias mesas pequeñas nos habrían permitido formar grupos pequeños y generar ideas de manera más efectiva.
Nola - Laramie County Community College
Curso - Artificial Intelligence (AI) Overview
Traducción Automática
Trabajando desde principios fundamentales de manera enfocada y pasando a aplicar estudios de caso en el mismo día
Maggie Webb - Department of Jobs, Regions, and Precincts
Curso - Artificial Neural Networks, Machine Learning, Deep Thinking
Traducción Automática
Que se estuviera aplicando datos reales de la empresa. El formador tenía un enfoque muy bueno al hacer que los participantes colaboraran y competieran.
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Curso - Applied AI from Scratch in Python
Traducción Automática