Contacta con nosotros

Temario del curso

Diseño de una Arquitectura AIOps Abierta

  • Descripción general de los componentes clave en pipelines AIOps de código abierto
  • Flujo de datos desde la ingesta hasta las alertas
  • Comparación de herramientas y estrategia de integración

Recolección y Agregación de Datos

  • Ingestión de datos de series temporales con Prometheus
  • Captura de registros (logs) con Logstash y Beats
  • Normalización de datos para la correlación entre fuentes

Creación de Paneles de Observabilidad

  • Visualización de métricas con Grafana
  • Construcción de paneles Kibana para análisis de registros (logs)
  • Uso de consultas de Elasticsearch para extraer información operativa

Detección de Anomalías y Predicción de Incidentes

  • Exportación de datos de observabilidad a pipelines en Python
  • Entrenamiento de modelos de ML para detección de valores atípicos y predicción (forecasting)
  • Implementación de modelos para inferencia en tiempo real dentro del pipeline de observabilidad

Alertas y Automatización con Herramientas Abiertas

  • Creación de reglas de alerta en Prometheus y configuración del enrutamiento en Alertmanager
  • Activación de scripts o flujos de trabajo de API para respuesta automática
  • Uso de herramientas de orquestación de código abierto (por ejemplo, Ansible, Rundeck)

Consideraciones de Integración y Escalabilidad

  • Manejo de ingesta de alto volumen y retención a largo plazo
  • Seguridad y control de acceso en stacks de código abierto
  • Escalado independiente de cada capa: ingesta, procesamiento y alertas

Aplicaciones del Mundo Real y Extensiones

  • Estudios de caso: ajuste de rendimiento, prevención de tiempos de inactividad y optimización de costos
  • Extensión de pipelines con herramientas de rastreo (tracing) o gráficos de servicios
  • Mejores prácticas para ejecutar y mantener AIOps en producción

Resumen y Próximos Pasos

Requerimientos

  • Experiencia con herramientas de observabilidad como Prometheus o ELK
  • Conocimientos prácticos de Python y fundamentos del aprendizaje automático (machine learning)
  • Comprensión de las operaciones de TI y los flujos de trabajo de alertas

Público Objetivo

  • Ingenieros avanzados de confiabilidad del sitio (SRE)
  • Ingenieros de datos que trabajan en operaciones
  • Líderes de plataformas DevOps y arquitectos de infraestructura
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas