Deep Learning – Session 1 (ING5 – M2)

1. Introduction (5–10 min)

Script professeur :
« Bonjour à tous. Vous avez déjà vu du Machine Learning. Aujourd’hui, on va franchir une nouvelle étape : comprendre le Deep Learning moderne, celui qui se cache derrière la vision, le NLP, les modèles génératifs et les LLM. Le but est d’aller au-delà de ce qui est “traditionnel”. »

Différences clés ML / DL.
Deep Learning = représentation automatique.
Objectif : maîtriser fondations + architectures modernes (CNN → ViT).

2. Rappels ML → Deep Learning (30 min)

Objectif : reposer le cadre et comprendre la transition.

Script professeur :
« En Machine Learning classique, on passe beaucoup de temps à fabriquer des features. Avec le Deep Learning, le modèle apprend automatiquement ces représentations. On n’a plus besoin d’inventer à la main ce que le modèle doit regarder. »

Points clés :

ML classique : données → feature engineering → modèle.
DL : données brutes → réseau profond → prédiction.
Notion de profondeur = hiérarchie de concepts.
Loss, gradients, backpropagation.

Vulgarisation :

Un réseau profond apprend comme un humain : d’abord reconnaître les formes simples, puis les motifs, puis les objets.

À retenir :

DL = ML + apprentissage des features.
Tout repose sur la loss et la descente de gradient.
C’est l’échelle (données + calcul) qui permet l’efficacité.

3. Optimisation et entraînement (45 min)

Objectif : comprendre comment les réseaux apprennent.

Script professeur :
« Entraîner un réseau, c’est comme descendre une montagne dans le brouillard. Le gradient indique la pente → la direction dans laquelle la loss diminue. Les optimiseurs contrôlent la manière d’avancer. »

Fonctions de coût :

MSE (régression)
Cross-entropy (classification : standard en DL)

Optimiseurs :

SGD : simple, robuste.
Momentum : inertie → stabilise.
Adam : pas adaptatifs → rapide et efficace.
AdamW : version améliorée → standard actuel.

Régularisation :

Dropout
Weight decay
BatchNorm / LayerNorm
Data augmentation

Mini-question :
« Pourquoi le Dropout améliore-t-il la généralisation ? »

4. CNN classiques : LeNet → AlexNet → VGG → ResNet (45 min)

Script professeur :
« Les CNN exploitent une idée simple : les pixels proches sont liés. Les filtres glissent sur l’image pour détecter des motifs. Puis on empile ces couches pour former une hiérarchie de concepts. »

Explication de la convolution :

Une petite fenêtre (ex : 3×3) balaie l’image. Chaque filtre apprend à voir quelque chose : bord, texture, motif…

Architectures historiques :

LeNet : pionnier (MNIST).
AlexNet : révolution ImageNet 2012 + GPU.
VGG : simple mais énorme.
ResNet : skip connections → stabilité dans les réseaux profonds.

Mini-question :
« Pourquoi un réseau très profond peut-il être moins performant ? Pourquoi les skip connections résolvent-elles ce problème ? »

5. CNN modernes et Vision Transformers (60 min)

5.1 CNN modernisés

EfficientNet / EfficientNetV2 : scaling optimisé automatiquement.
ConvNeXt : CNN “à la façon transformer”.

5.2 Vision Transformers (ViT)

Script professeur :
« Et si une image était traitée comme un texte ? On découpe l’image en patchs, chaque patch devient un token, et on applique un Transformer. Résultat : performances massives, simple conceptuellement, scalable. »

Principe ViT :

Découpe en patchs (ex 16×16)
Projection → embeddings
Ajout du positional encoding
Self-attention entre les patchs
Classification via le token [CLS]

Activité lecture d’article :

An Image is Worth 16×16 Words (ViT)

Idée principale
Contribution
Résultats
Limites

6. Discussion & Conclusion (30–60 min)

Questions au groupe :
« Les CNN vont-ils disparaître ? »
« Quelles compétences un Data Scientist devra-t-il maîtriser en 2030 ? »
« Où le Deep Learning sera-t-il le plus transformant ? »

Cette première session donne la base solide pour la suite : RNN, LSTM, Transformers, LLM, modèles génératifs et Deep RL.

SESSION 1 – DEEP LEARNING (4h)ING5 / M2 – Cours Magistral