Deep Learning para
Visión y aplicaciones

Objetivos

El objetivo de esta formación es conocer las últimas arquitecturas de Deep Learning aplicadas a visión por computador específicamente en los ámbitos de la detección de pose, la detección de objetos, segmentación, extracción de profundidad y la generación de modelos 3D con un enfoque teórico práctico.

Programa

1. INTRODUCCIONA A LA VISIÓN POR COMPUTADOR

¿Qué es una imagen?
Imágenes multiespectrales
Fuentes de datos
Ejemplos prácticos

2. DATOS RASTERIZADOS

Expresar datos en formato matricial
Grafos
Ejemplos prácticos

3. AlGORITMIA CLÁSICA DE VISIÓN POR COMPUTADOR

Filtros
Extracción de características
Estadísticos
Ventajas y desventajas
Ejemplos prácticos

4. IMÁGENES SATELITALES

Imágenes geolocalizdas
Arquitecturas del estado del arte
Ejemplos prácticos

5. ARQUITECTURAS AVANZADAS DE DEEP LEARNING

Estado del arte de Deep Learning en visión (Repaso de arquitecturas populares, últimas tendencias)
Modelos basados en Transformers (Vision Transformer)
Ejemplos prácticos

6. DETECCIÓN DE POSE

Aproximaciones bottom-up y top-down
Detección de pose en 2D
Detección de pose en 3D

7. FRAMEWORKS REEVANTES EN EL ESTADO DEL ARTE

Detección de objetos
Segmentación (Segment Anything Model, SAM)
Extracción de profundidad y normales
Transfer learning y fine-tuning de modelos pre-entrenados
Ejemplos prácticos

8. RECONSTRUCCION 3D

Estado del arte en reconstrucción 3D
Ejemplos prácticos

A quién va dirigido

Está dirigido a entornos profesionales con un nivel intermedio-avanzado en el campo de visión por computador y Deep Learning.

Requisitos:

Fundamentos de Machine Learning: Comprender los conceptos y paradigmas de aprendizaje supervisado y no supervisado, incluyendo la diferencia entre ellos y cómo se aplican en problemas de visión.
Fundamentos de Deep Learning aplicados a visión: Estar familiarizado con los conceptos básicos de las redes neuronales profundas y su aplicación en problemas de visión por computador, así como conocer los fundamentos de las Redes Neuronales Convolucionales (CNN) y las arquitecturas más utilizadas.
Procesamiento de imágenes: Conocimientos sobre el procesamiento de imágenes, incluyendo conceptos como la convolución, la operación de stride, el padding, la normalización, espacios de color, aplicación de filtros,etc.
Python y bibliotecas de Deep Learning: Conocimientos básicos de programación en Python y estar familiarizados con bibliotecas populares de Deep Learning, como PyTorch.
Cuenta de gmail
Ordenador propio

Profesorado

Gorka Labarta – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
Rafael del Hoyo – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
Francisco Lacueva – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
David Abadía – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
Carlos Marañes – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.

Horario, fecha y lugar

Duración total: 12 h
Fechas: 15, 16, 22 y 23 de octubre de 2024
Horario: de 16 a 19h
Lugar: Instituto Tecnológico de Aragón. C/ María de Luna, 7 (edificio blanco), 50018 Zaragoza
Número máximo de asistentes: 15 personas

Inscripción

Inscripción cerrada

Deep Learning para Visión y aplicaciones

Objetivos

Programa

1. INTRODUCCIONA A LA VISIÓN POR COMPUTADOR

2. DATOS RASTERIZADOS

3. AlGORITMIA CLÁSICA DE VISIÓN POR COMPUTADOR

4. IMÁGENES SATELITALES

5. ARQUITECTURAS AVANZADAS DE DEEP LEARNING

6. DETECCIÓN DE POSE

7. FRAMEWORKS REEVANTES EN EL ESTADO DEL ARTE

8. RECONSTRUCCION 3D

A quién va dirigido

Requisitos:

Profesorado

Horario, fecha y lugar

Inscripción

Deep Learning para
Visión y aplicaciones