SESSION 1 – DEEP LEARNING (4h)
ING5 / M2 – Cours Magistral

Objectifs de la séance : rappels ML → DL, optimisation, CNN classiques et modernes, Vision Transformers.

1. Introduction (5–10 min)

Script professeur :
« Bonjour à tous. Vous avez déjà vu du Machine Learning. Aujourd’hui, on va franchir une nouvelle étape : comprendre le Deep Learning moderne, celui qui se cache derrière la vision, le NLP, les modèles génératifs et les LLM. Le but est d’aller au-delà de ce qui est “traditionnel”. »

2. Rappels ML → Deep Learning (30 min)

Objectif : reposer le cadre et comprendre la transition.

Script professeur :
« En Machine Learning classique, on passe beaucoup de temps à fabriquer des features. Avec le Deep Learning, le modèle apprend automatiquement ces représentations. On n’a plus besoin d’inventer à la main ce que le modèle doit regarder. »

Points clés :

Vulgarisation :

Un réseau profond apprend comme un humain : d’abord reconnaître les formes simples, puis les motifs, puis les objets.

À retenir :

3. Optimisation et entraînement (45 min)

Objectif : comprendre comment les réseaux apprennent.

Script professeur :
« Entraîner un réseau, c’est comme descendre une montagne dans le brouillard. Le gradient indique la pente → la direction dans laquelle la loss diminue. Les optimiseurs contrôlent la manière d’avancer. »

Fonctions de coût :

Optimiseurs :

Régularisation :

Mini-question :
« Pourquoi le Dropout améliore-t-il la généralisation ? »

4. CNN classiques : LeNet → AlexNet → VGG → ResNet (45 min)

Script professeur :
« Les CNN exploitent une idée simple : les pixels proches sont liés. Les filtres glissent sur l’image pour détecter des motifs. Puis on empile ces couches pour former une hiérarchie de concepts. »

Explication de la convolution :

Une petite fenêtre (ex : 3×3) balaie l’image. Chaque filtre apprend à voir quelque chose : bord, texture, motif…

Architectures historiques :

Mini-question :
« Pourquoi un réseau très profond peut-il être moins performant ? Pourquoi les skip connections résolvent-elles ce problème ? »

5. CNN modernes et Vision Transformers (60 min)

5.1 CNN modernisés

5.2 Vision Transformers (ViT)

Script professeur :
« Et si une image était traitée comme un texte ? On découpe l’image en patchs, chaque patch devient un token, et on applique un Transformer. Résultat : performances massives, simple conceptuellement, scalable. »

Principe ViT :

  1. Découpe en patchs (ex 16×16)
  2. Projection → embeddings
  3. Ajout du positional encoding
  4. Self-attention entre les patchs
  5. Classification via le token [CLS]

Activité lecture d’article :

An Image is Worth 16×16 Words (ViT)

6. Discussion & Conclusion (30–60 min)

Questions au groupe :
« Les CNN vont-ils disparaître ? »
« Quelles compétences un Data Scientist devra-t-il maîtriser en 2030 ? »
« Où le Deep Learning sera-t-il le plus transformant ? »

Cette première session donne la base solide pour la suite : RNN, LSTM, Transformers, LLM, modèles génératifs et Deep RL.