Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción al Escalamiento de Ollama
- Arquitectura de Ollama y consideraciones sobre escalabilidad
- Puntos débiles comunes en las implementaciones multiusuario
- Prácticas recomendadas para la preparación de infraestructuras
Asignación de Recursos y Optimización de GPU
- Estrategias eficientes para el uso de CPU/GPU
- Consideraciones sobre memoria y ancho de banda
- Límites de recursos en nivel de contenedor
Implementación con Contenedores y Kubernetes
- Contenizar Ollama con Docker
- Ejecución de Ollama en clústeres de Kubernetes
- Balancing de carga y descubrimiento de servicios
Autoscaling y Agrupación
- Diseño de políticas de autoscaling para Ollama
- Técnicas de inferencia por lotes para la optimización del rendimiento
- Cambios entre latencia y rendimiento
Optimización de Latencia
- Perfilado del desempeño de inferencia
- Estrategias de caché y calentamiento del modelo
- Reducción del sobrecoste de E/S y comunicación
Supervisión y Observabilidad
- Integración de Prometheus para métricas
- Creamos paneles con Grafana
- Alertas y respuesta a incidentes en la infraestructura de Ollama
Gestión de Costos y Estrategias de Escalado
- Asignación de GPU consciente del costo
- Consideraciones entre implementación en la nube vs. local
- Estrategias para una escalabilidad sostenible
Resumen y Próximos Pasos
Requerimientos
- Experiencia en administración de sistemas Linux
- Comprensión de la containerización y la orquestación
- Familiaridad con el despliegue de modelos de aprendizaje automático
Público objetivo
- Ingenieros DevOps
- Equipos de infraestructura ML
- Ingenieros de confiabilidad del sitio
21 Horas