Deep Learning para
Visión y aplicaciones (2023)
Objetivos
El objetivo de esta formación es conocer las últimas arquitecturas de Deep Learning aplicadas a visión por computador específicamente en los ámbitos de la detección de pose, la detección de objetos, segmentación, extracción de profundidad y la generación de modelos 3D con un enfoque teórico práctico.
Programa
1. Arquitecturas Avanzadas de Deep Learning (1.5 horas)
- Estado del arte de Deep Learning en visión (Repaso de arquitecturas populares, últimas tendencias)
- Modelos basados en Transformers (Vision Transformer)
- Ejemplos prácticos
2. Detección de pose (1.5 horas)
- Aproximaciones bottom-up y top-down
- Detección de pose en 2D
- Detección de pose en 3D
- Ejemplos prácticos
3. Frameworks relevantes en el estado del arte (2 horas)
- Detección de objetos
- Segmentación (Segment Anything Model, SAM)
- Extracción de profundidad y normales
- Transfer learning y fine-tuning de modelos pre-entrenados
- Ejemplos prácticos
4. Reconstrucción 3D (1 hora)
- Estado del arte en reconstrucción 3D con NeRF (Neural Radiance Fields)
- Ejemplos prácticos
A quién va dirigido
Está dirigido a entornos profesionales con un nivel intermedio-avanzado en el campo de visión por computador y Deep Learning.
Requisitos:
- Fundamentos de Machine Learning: Comprender los conceptos y paradigmas de aprendizaje supervisado y no supervisado, incluyendo la diferencia entre ellos y cómo se aplican en problemas de visión.
- Fundamentos de Deep Learning aplicados a visión: Estar familiarizado con los conceptos básicos de las redes neuronales profundas y su aplicación en problemas de visión por computador, así como conocer los fundamentos de las Redes Neuronales Convolucionales (CNN) y las arquitecturas más utilizadas.
- Procesamiento de imágenes: Conocimientos sobre el procesamiento de imágenes, incluyendo conceptos como la convolución, la operación de stride, el padding, la normalización, espacios de color, aplicación de filtros,etc.
- Python y bibliotecas de Deep Learning: Conocimientos básicos de programación en Python y estar familiarizados con bibliotecas populares de Deep Learning, como PyTorch.
- Cuenta de gmail
- Ordenador propio
Profesorado
- David Abadía – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
- Carlos Marañés – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
Horario, fecha y lugar
- Duración total: 6h
- Fechas: 14 y 15 de noviembre de 2023
- Horario: 16 a 19h
- Lugar: Instituto Tecnológico de Aragón. C/ María de Luna, 7 (edificio blanco), 50018 Zaragoza
- Número máximo de asistentes: 15 personas