Deep Learning - Session 1 (ING5)

1. Introduction & rappels ML Deep Learning (30 min)

Objectif : recadrer le ML classique et introduire le DL comme apprentissage de représentations.

Script prof :
« Bienvenue à tous. Vous avez déjà fait du Machine Learning : régression, classification, arbres, SVM, etc. Dans ce cours, on va parler de Deep Learning, qui n’est pas seulement “du ML avec plus de couches”, mais une manière différente de laisser la machine apprendre ses propres représentations… »

Rappel ML : données (X, y), modèle, train/test, fonction de coût.
Limite : besoin de feature engineering manuel.
Deep Learning : representation learning, end-to-end learning, scaling.

2. Optimisation & entraînement des réseaux (45 min)

Objectif : comprendre la descente de gradient, les fonctions de coût et les optimiseurs modernes.

Script prof :
« Un réseau de neurones, mathématiquement, ce n’est “que” une fonction avec plein de paramètres. Quand on l’entraîne, on ajuste ces paramètres pour que les prédictions soient bonnes. Comment on mesure à quel point on se trompe ? Grâce à une fonction de coût… »

Fonctions de coût : MSE, cross-entropy (interprétation probabiliste).
Descente de gradient (analogie de la vallée dans le brouillard).
Optimiseurs : SGD, Momentum, Adam, AdamW.
Régularisation : dropout, weight decay, normalisations.

3. CNN classiques : LeNet AlexNet VGG ResNet (45 min)

Objectif : comprendre la convolution, la hiérarchie de features et l’apport des skip connections.

Script prof :
« En vision, l’idée des CNN est de regarder localement l’image avec des filtres qui se promènent. Les premières couches détectent des bords, les suivantes des motifs, et les dernières des objets entiers… »

Convolution, filtres, pooling, hiérarchie de features.
LeNet, AlexNet, VGG : profondeur croissante, problèmes de taille.
ResNet : skip connections, apprentissage des résidus.

4. CNN modernes & Vision Transformers (60 min)

Objectif : voir l’état de l’art en vision (EfficientNet, ConvNeXt, ViT).

Script prof :
« Ensuite, on a modernisé les CNN (EfficientNet, ConvNeXt), puis on a eu l’idée de traiter une image comme un texte, avec les Vision Transformers : on découpe l’image en patchs, on en fait des tokens, et on applique du self-attention… »

EfficientNet / EfficientNetV2 : scaling automatique.
ConvNeXt : CNN modernisés façon transformers.
Vision Transformers (ViT) : patchs, tokens, self-attention, token [CLS].
Activité : lecture simplifiée de l’article “An Image is Worth 16x16 Words”.

5. Discussion & projection (30–60 min)

Objectif : lier technique et futur du métier.

Questions possibles :
« Les CNN existeront-ils encore dans 5 ans ? »
« Quels métiers seront les plus impactés par le Deep Learning ? »

Deep Learning – Session 1 (4h) – ING5

1. Introduction & rappels ML Deep Learning (30 min)

2. Optimisation & entraînement des réseaux (45 min)

3. CNN classiques : LeNet AlexNet VGG ResNet (45 min)

4. CNN modernes & Vision Transformers (60 min)

5. Discussion & projection (30–60 min)