Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción a la IA Multimodal y Ollama
- Visión general del aprendizaje multimodal
- Desafíos clave en la integración visión-lenguaje
- Capacidades e infraestructura de Ollama
Configurando el Entorno de Ollama
- Instalación y configuración de Ollama
- Trabajando con la implementación local de modelos
- Integrando Ollama con Python y Jupyter
Trabajar con Entradas Multimodales
- Integración de texto e imagen
- Incorporando audio y datos estructurados
- Diseño de pipelines de preprocesamiento
Aplicaciones de Comprensión Documental
- Extracción de información estructurada desde PDFs e imágenes
- Combinando OCR con modelos de lenguaje
- Cree flujos de trabajo inteligentes de análisis documentales
Pregunta y Respuesta Visual (VQA)
- Configuración de conjuntos de datos VQA y referencias
- Entrenamiento y evaluación de modelos multimodales
- Cree aplicaciones interactivas de VQA
Diseño de Agentes Multimodales
- Principios del diseño de agentes con razonamiento multimodal
- Combinando percepción, lenguaje y acción
- Implementación de agentes para casos de uso real
Integración Avanzada y Optimización
- Afinamiento de modelos multimodales con Ollama
- Optimización del rendimiento de inferencia
- Consideraciones de escalabilidad e implementación
Resumen y Próximos Pasos
Requerimientos
- Comprensión sólida de los conceptos de aprendizaje automático
- Experiencia con marcos de aprendizaje profundo como PyTorch o TensorFlow
- Familiaridad con el procesamiento del lenguaje natural y la visión por computadora
Público objetivo
- Ingenieros de aprendizaje automático
- Investigadores de IA
- Desarrolladores de productos que integran flujos de trabajo de visión y texto
21 Horas