Deep Learning para
Visión y aplicaciones

Objetivos

El objetivo de esta formación es conocer las últimas arquitecturas de Deep Learning aplicadas a visión por computador específicamente en los ámbitos de la detección de pose, la detección de objetos, segmentación, extracción de profundidad y la generación de modelos 3D con un enfoque teórico práctico.

Programa

1. INTRODUCCIONA A LA VISIÓN POR COMPUTADOR 

  • ¿Qué es una imagen?
  • Imágenes multiespectrales
  • Fuentes de datos
  • Ejemplos prácticos

2. DATOS RASTERIZADOS 

  • Expresar datos en formato matricial
  • Grafos
  • Ejemplos prácticos

3. AlGORITMIA CLÁSICA DE VISIÓN POR COMPUTADOR

  • Filtros
  • Extracción  de características
  • Estadísticos
  • Ventajas y desventajas
  • Ejemplos prácticos

4. IMÁGENES SATELITALES

  • Imágenes geolocalizdas
  • Arquitecturas del estado del arte
  • Ejemplos prácticos

5. ARQUITECTURAS AVANZADAS DE DEEP LEARNING

  • Estado del arte de Deep Learning en visión (Repaso de arquitecturas populares, últimas tendencias)
  • Modelos basados en Transformers (Vision Transformer)
  • Ejemplos prácticos

6. DETECCIÓN DE POSE

  • Aproximaciones bottom-up y top-down
  • Detección de pose en 2D
  • Detección de pose en 3D

7. FRAMEWORKS REEVANTES EN EL ESTADO DEL ARTE

  • Detección de objetos
  • Segmentación (Segment Anything Model, SAM)
  • Extracción de profundidad y normales
  • Transfer learning y fine-tuning de modelos pre-entrenados
  • Ejemplos prácticos

8. RECONSTRUCCION 3D

  • Estado del arte en reconstrucción 3D
  • Ejemplos prácticos

A quién va dirigido

Está dirigido a entornos profesionales con un nivel intermedio-avanzado en el campo de visión por computador y Deep Learning.

Requisitos:

  • Fundamentos de Machine Learning: Comprender los conceptos y paradigmas de aprendizaje supervisado y no supervisado, incluyendo la diferencia entre ellos y cómo se aplican en problemas de visión.
  • Fundamentos de Deep Learning aplicados a visión: Estar familiarizado con los conceptos básicos de las redes neuronales profundas y su aplicación en problemas de visión por computador, así como conocer los fundamentos de las Redes Neuronales Convolucionales (CNN) y las arquitecturas más utilizadas.
  • Procesamiento de imágenes: Conocimientos sobre el procesamiento de imágenes, incluyendo conceptos como la convolución, la operación de stride, el padding, la normalización, espacios de color, aplicación de filtros,etc.
  • Python y bibliotecas de Deep Learning: Conocimientos básicos de programación en Python y estar familiarizados con bibliotecas populares de Deep Learning, como PyTorch.
  • Cuenta de gmail
  • Ordenador propio

Profesorado

  • Gorka Labarta – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
  • Rafael del Hoyo – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
  • Francisco Lacueva – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
  • David Abadía – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.
  • Carlos Marañes – Equipo Big Data y Sistemas Cognitivos del Instituto Tecnológico de Aragón.

Horario, fecha y lugar

  • Duración total: 12 h
  • Fechas: 15, 16, 22 y 23 de octubre de 2024
  • Horario: de 16 a 19h
  • Lugar: Instituto Tecnológico de Aragón. C/ María de Luna, 7 (edificio blanco), 50018 Zaragoza
  • Número máximo de asistentes: 15 personas

Inscripción