Deep Learning para
Visión y aplicaciones (2023)

Objetivos

El objetivo de esta formación es conocer las últimas arquitecturas de Deep Learning aplicadas a visión por computador específicamente en los ámbitos de la detección de pose, la detección de objetos, segmentación, extracción de profundidad y la generación de modelos 3D con un enfoque teórico práctico.

Programa

1. Arquitecturas Avanzadas de Deep Learning (1.5 horas)

Estado del arte de Deep Learning en visión (Repaso de arquitecturas populares, últimas tendencias)
Modelos basados en Transformers (Vision Transformer)
Ejemplos prácticos

2. Detección de pose (1.5 horas)

Aproximaciones bottom-up y top-down
Detección de pose en 2D
Detección de pose en 3D
Ejemplos prácticos

3. Frameworks relevantes en el estado del arte (2 horas)

Detección de objetos
Segmentación (Segment Anything Model, SAM)
Extracción de profundidad y normales
Transfer learning y fine-tuning de modelos pre-entrenados
Ejemplos prácticos

4. Reconstrucción 3D (1 hora)

Estado del arte en reconstrucción 3D con NeRF (Neural Radiance Fields)
Ejemplos prácticos

A quién va dirigido

Está dirigido a entornos profesionales con un nivel intermedio-avanzado en el campo de visión por computador y Deep Learning.

Requisitos:

Fundamentos de Machine Learning: Comprender los conceptos y paradigmas de aprendizaje supervisado y no supervisado, incluyendo la diferencia entre ellos y cómo se aplican en problemas de visión.
Fundamentos de Deep Learning aplicados a visión: Estar familiarizado con los conceptos básicos de las redes neuronales profundas y su aplicación en problemas de visión por computador, así como conocer los fundamentos de las Redes Neuronales Convolucionales (CNN) y las arquitecturas más utilizadas.
Procesamiento de imágenes: Conocimientos sobre el procesamiento de imágenes, incluyendo conceptos como la convolución, la operación de stride, el padding, la normalización, espacios de color, aplicación de filtros,etc.
Python y bibliotecas de Deep Learning: Conocimientos básicos de programación en Python y estar familiarizados con bibliotecas populares de Deep Learning, como PyTorch.
Cuenta de gmail
Ordenador propio

Profesorado

David Abadía – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
Carlos Marañés – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.

Horario, fecha y lugar

Duración total: 6h
Fechas: 14 y 15 de noviembre de 2023
Horario: 16 a 19h
Lugar: Instituto Tecnológico de Aragón. C/ María de Luna, 7 (edificio blanco), 50018 Zaragoza
Número máximo de asistentes: 15 personas

Deep Learning para Visión y aplicaciones (2023)

Objetivos

Programa

1. Arquitecturas Avanzadas de Deep Learning (1.5 horas)

2. Detección de pose (1.5 horas)

3. Frameworks relevantes en el estado del arte (2 horas)

4. Reconstrucción 3D (1 hora)

A quién va dirigido

Requisitos:

Profesorado

Horario, fecha y lugar

Inscripción cerrada

Deep Learning para
Visión y aplicaciones (2023)