SESSION 1 – DEEP LEARNING (4h)
ING5 / M2 – Cours Magistral
Objectifs de la séance : rappels ML → DL, optimisation, CNN classiques et modernes, Vision Transformers.
1. Introduction (5–10 min)
Script professeur :
« Bonjour à tous. Vous avez déjà vu du Machine Learning.
Aujourd’hui, on va franchir une nouvelle étape : comprendre le Deep Learning moderne,
celui qui se cache derrière la vision, le NLP, les modèles génératifs et les LLM.
Le but est d’aller au-delà de ce qui est “traditionnel”. »
- Différences clés ML / DL.
- Deep Learning = représentation automatique.
- Objectif : maîtriser fondations + architectures modernes (CNN → ViT).
2. Rappels ML → Deep Learning (30 min)
Objectif : reposer le cadre et comprendre la transition.
Script professeur :
« En Machine Learning classique, on passe beaucoup de temps à fabriquer des features.
Avec le Deep Learning, le modèle apprend automatiquement ces représentations.
On n’a plus besoin d’inventer à la main ce que le modèle doit regarder. »
Points clés :
- ML classique : données → feature engineering → modèle.
- DL : données brutes → réseau profond → prédiction.
- Notion de profondeur = hiérarchie de concepts.
- Loss, gradients, backpropagation.
Vulgarisation :
Un réseau profond apprend comme un humain :
d’abord reconnaître les formes simples, puis les motifs, puis les objets.
À retenir :
- DL = ML + apprentissage des features.
- Tout repose sur la loss et la descente de gradient.
- C’est l’échelle (données + calcul) qui permet l’efficacité.
3. Optimisation et entraînement (45 min)
Objectif : comprendre comment les réseaux apprennent.
Script professeur :
« Entraîner un réseau, c’est comme descendre une montagne dans le brouillard.
Le gradient indique la pente → la direction dans laquelle la loss diminue.
Les optimiseurs contrôlent la manière d’avancer. »
Fonctions de coût :
- MSE (régression)
- Cross-entropy (classification : standard en DL)
Optimiseurs :
- SGD : simple, robuste.
- Momentum : inertie → stabilise.
- Adam : pas adaptatifs → rapide et efficace.
- AdamW : version améliorée → standard actuel.
Régularisation :
- Dropout
- Weight decay
- BatchNorm / LayerNorm
- Data augmentation
Mini-question :
« Pourquoi le Dropout améliore-t-il la généralisation ? »
4. CNN classiques : LeNet → AlexNet → VGG → ResNet (45 min)
Script professeur :
« Les CNN exploitent une idée simple : les pixels proches sont liés.
Les filtres glissent sur l’image pour détecter des motifs.
Puis on empile ces couches pour former une hiérarchie de concepts. »
Explication de la convolution :
Une petite fenêtre (ex : 3×3) balaie l’image.
Chaque filtre apprend à voir quelque chose : bord, texture, motif…
Architectures historiques :
- LeNet : pionnier (MNIST).
- AlexNet : révolution ImageNet 2012 + GPU.
- VGG : simple mais énorme.
- ResNet : skip connections → stabilité dans les réseaux profonds.
Mini-question :
« Pourquoi un réseau très profond peut-il être moins performant ?
Pourquoi les skip connections résolvent-elles ce problème ? »
5. CNN modernes et Vision Transformers (60 min)
5.1 CNN modernisés
- EfficientNet / EfficientNetV2 : scaling optimisé automatiquement.
- ConvNeXt : CNN “à la façon transformer”.
5.2 Vision Transformers (ViT)
Script professeur :
« Et si une image était traitée comme un texte ?
On découpe l’image en patchs, chaque patch devient un token, et on applique un Transformer.
Résultat : performances massives, simple conceptuellement, scalable. »
Principe ViT :
- Découpe en patchs (ex 16×16)
- Projection → embeddings
- Ajout du positional encoding
- Self-attention entre les patchs
- Classification via le token [CLS]
Activité lecture d’article :
An Image is Worth 16×16 Words (ViT)
- Idée principale
- Contribution
- Résultats
- Limites
6. Discussion & Conclusion (30–60 min)
Questions au groupe :
« Les CNN vont-ils disparaître ? »
« Quelles compétences un Data Scientist devra-t-il maîtriser en 2030 ? »
« Où le Deep Learning sera-t-il le plus transformant ? »
Cette première session donne la base solide pour la suite :
RNN, LSTM, Transformers, LLM, modèles génératifs et Deep RL.