Deep Learning para
Visión y aplicaciones
Objetivos
El objetivo de esta formación es conocer las últimas arquitecturas de Deep Learning aplicadas a visión por computador específicamente en los ámbitos de la detección de pose, la detección de objetos, segmentación, extracción de profundidad y la generación de modelos 3D con un enfoque teórico práctico.
Programa
1. INTRODUCCIONA A LA VISIÓN POR COMPUTADOR
- ¿Qué es una imagen?
- Imágenes multiespectrales
- Fuentes de datos
- Ejemplos prácticos
2. DATOS RASTERIZADOS
- Expresar datos en formato matricial
- Grafos
- Ejemplos prácticos
3. AlGORITMIA CLÁSICA DE VISIÓN POR COMPUTADOR
- Filtros
- Extracción de características
- Estadísticos
- Ventajas y desventajas
- Ejemplos prácticos
4. IMÁGENES SATELITALES
- Imágenes geolocalizdas
- Arquitecturas del estado del arte
- Ejemplos prácticos
5. ARQUITECTURAS AVANZADAS DE DEEP LEARNING
- Estado del arte de Deep Learning en visión (Repaso de arquitecturas populares, últimas tendencias)
- Modelos basados en Transformers (Vision Transformer)
- Ejemplos prácticos
6. DETECCIÓN DE POSE
- Aproximaciones bottom-up y top-down
- Detección de pose en 2D
- Detección de pose en 3D
7. FRAMEWORKS REEVANTES EN EL ESTADO DEL ARTE
- Detección de objetos
- Segmentación (Segment Anything Model, SAM)
- Extracción de profundidad y normales
- Transfer learning y fine-tuning de modelos pre-entrenados
- Ejemplos prácticos
8. RECONSTRUCCION 3D
- Estado del arte en reconstrucción 3D
- Ejemplos prácticos
A quién va dirigido
Está dirigido a entornos profesionales con un nivel intermedio-avanzado en el campo de visión por computador y Deep Learning.
Requisitos:
- Fundamentos de Machine Learning: Comprender los conceptos y paradigmas de aprendizaje supervisado y no supervisado, incluyendo la diferencia entre ellos y cómo se aplican en problemas de visión.
- Fundamentos de Deep Learning aplicados a visión: Estar familiarizado con los conceptos básicos de las redes neuronales profundas y su aplicación en problemas de visión por computador, así como conocer los fundamentos de las Redes Neuronales Convolucionales (CNN) y las arquitecturas más utilizadas.
- Procesamiento de imágenes: Conocimientos sobre el procesamiento de imágenes, incluyendo conceptos como la convolución, la operación de stride, el padding, la normalización, espacios de color, aplicación de filtros,etc.
- Python y bibliotecas de Deep Learning: Conocimientos básicos de programación en Python y estar familiarizados con bibliotecas populares de Deep Learning, como PyTorch.
- Cuenta de gmail
- Ordenador propio
Profesorado
- Gorka Labarta – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
- Rafael del Hoyo – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
- Francisco Lacueva – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
- David Abadía – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
- Carlos Marañes – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
Horario, fecha y lugar
- Duración total: 12 h
- Fechas: 15, 16, 22 y 23 de octubre de 2024
- Horario: de 16 a 19h
- Lugar: Instituto Tecnológico de Aragón. C/ María de Luna, 7 (edificio blanco), 50018 Zaragoza
- Número máximo de asistentes: 15 personas