Deep Learning – Session 1 (4h) – ING5
Objectifs : rappels ML → DL, optimisation, CNN classiques et modernes, Vision Transformers.
1. Introduction & rappels ML → Deep Learning (30 min)
Objectif : recadrer le ML classique et introduire le DL comme apprentissage de représentations.
Script prof :
« Bienvenue à tous. Vous avez déjà fait du Machine Learning : régression,
classification, arbres, SVM, etc. Dans ce cours, on va parler de Deep Learning,
qui n’est pas seulement “du ML avec plus de couches”, mais une manière
différente de laisser la machine apprendre ses propres représentations… »
- Rappel ML : données (X, y), modèle, train/test, fonction de coût.
- Limite : besoin de feature engineering manuel.
- Deep Learning : representation learning, end-to-end learning, scaling.
2. Optimisation & entraînement des réseaux (45 min)
Objectif : comprendre la descente de gradient, les fonctions de coût et les optimiseurs modernes.
Script prof :
« Un réseau de neurones, mathématiquement, ce n’est “que” une fonction avec
plein de paramètres. Quand on l’entraîne, on ajuste ces paramètres pour que les
prédictions soient bonnes. Comment on mesure à quel point on se trompe ?
Grâce à une fonction de coût… »
- Fonctions de coût : MSE, cross-entropy (interprétation probabiliste).
- Descente de gradient (analogie de la vallée dans le brouillard).
- Optimiseurs : SGD, Momentum, Adam, AdamW.
- Régularisation : dropout, weight decay, normalisations.
3. CNN classiques : LeNet → AlexNet → VGG → ResNet (45 min)
Objectif : comprendre la convolution, la hiérarchie de features et l’apport des skip connections.
Script prof :
« En vision, l’idée des CNN est de regarder localement l’image avec des filtres
qui se promènent. Les premières couches détectent des bords, les suivantes
des motifs, et les dernières des objets entiers… »
- Convolution, filtres, pooling, hiérarchie de features.
- LeNet, AlexNet, VGG : profondeur croissante, problèmes de taille.
- ResNet : skip connections, apprentissage des résidus.
4. CNN modernes & Vision Transformers (60 min)
Objectif : voir l’état de l’art en vision (EfficientNet, ConvNeXt, ViT).
Script prof :
« Ensuite, on a modernisé les CNN (EfficientNet, ConvNeXt), puis on a eu
l’idée de traiter une image comme un texte, avec les Vision Transformers :
on découpe l’image en patchs, on en fait des tokens, et on applique du
self-attention… »
- EfficientNet / EfficientNetV2 : scaling automatique.
- ConvNeXt : CNN modernisés façon transformers.
- Vision Transformers (ViT) : patchs, tokens, self-attention, token [CLS].
- Activité : lecture simplifiée de l’article “An Image is Worth 16x16 Words”.
5. Discussion & projection (30–60 min)
Objectif : lier technique et futur du métier.
Questions possibles :
« Les CNN existeront-ils encore dans 5 ans ? »
« Quels métiers seront les plus impactés par le Deep Learning ? »