SESSION 3 – MODÈLES GÉNÉRATIFS & DEEP REINFORCEMENT LEARNING (2h)
Objectifs : comprendre les grands types de modèles génératifs (AE, VAE, GAN, Diffusion Models)
et découvrir les fondamentaux du Deep Reinforcement Learning.
1. Introduction (5 min)
Script professeur :
« Cette dernière session va vous faire entrer dans ce qui est aujourd’hui
au cœur de nombreuses avancées en IA :
✦ les modèles génératifs (GAN, VAE, Diffusion),
✦ le Deep Reinforcement Learning (qui a permis à l’IA de battre des humains à Go, StarCraft, etc.).
L’objectif est de vous montrer les principes fondamentaux, sans entrer dans les maths lourdes. »
2. Modèles génératifs (45 min)
Objectif : comprendre comment on peut générer des images, du texte, des données synthétiques
grâce au Deep Learning.
2.1 Autoencoders (AE)
- Deux parties : encodeur → vecteur latent → décodeur.
- But : reconstruire l’entrée.
- Utilisations : réduction de dimension, débruitage, compression.
Vulgarisation :
« Un autoencoder, c’est comme compresser une photo, puis la décompresser,
mais en laissant le modèle apprendre la meilleure façon de compresser. »
2.2 Variational Autoencoders (VAE)
- Introduisent une dimension probabiliste.
- Le latent n’est plus un point fixe, mais une distribution (souvent gaussienne).
- Permet de générer facilement de nouvelles données en échantillonnant dans l’espace latent.
- Sorties souvent floues → limites connues.
2.3 GAN (Generative Adversarial Networks)
- Deux réseaux en compétition :
- Générateur : crée des données synthétiques.
- Discriminateur : essaie de distinguer vrai/faux.
- Apprentissage par jeu à somme non nulle.
- Très bon pour générer images réalistes (visages, objets…).
Vulgarisation :
« Imaginez un faussaire (G) qui essaie d’imiter des billets,
et un policier (D) qui essaie de repérer les faux.
Les deux s’améliorent en même temps. »
Limites des GAN :
- Mode collapse (le modèle produit toujours la même chose).
- Difficile à stabiliser (entraînement délicat).
- Sensible à l’architecture et à l’équilibrage des deux réseaux.
2.4 Diffusion Models (Stable Diffusion, DALLE, etc.)
- Ajout progressif de bruit sur l’image → puis débruitage étape par étape.
- Modèle = apprendre à retirer le bruit correctement.
- Stable Diffusion : un U-Net + un modèle de diffusion efficace.
- Avantages :
- Très stable.
- Grande diversité des images générées.
- Génération contrôlable (texte → image).
Analogie :
« On prend une image nette, on la dégrade avec du bruit au maximum.
Le modèle apprend à remonter le temps, pas à pas, pour retrouver l’image originale.
Une fois entraîné, il peut “imaginer” des images qui n’existent pas. »
À retenir :
- AE = compression intelligente.
- VAE = modèles probabilistes capables de générer.
- GAN = compétition créateur vs détecteur.
- Diffusion Models = standard 2023–2025 pour la génération d’images.
3. Introduction au Deep Reinforcement Learning (45 min)
Objectif : comprendre les bases du RL, du Q-learning au DQN et à PPO.
Script professeur :
« Le RL, ce n’est pas de la prédiction.
C’est apprendre à un agent à agir dans un environnement pour maximiser une récompense.
Le Deep RL, c’est simplement du RL avec des réseaux de neurones. »
3.1 Rappels RL :
- Agent.
- État.
- Action.
- Récompense.
- Politique (policy).
3.2 Q-Learning :
- Table Q(s, a) → quelle est la valeur d’une action ?
- Problème : tables énormes si les états sont complexes.
3.3 Deep Q-Network (DQN) :
- Idée : remplacer la table Q par un réseau de neurones.
- Capable d’apprendre à jouer à des jeux Atari directement à partir de pixels.
- Travail fondateur de DeepMind (2015).
3.4 Policy Gradient & PPO :
- Au lieu d’estimer la valeur des actions, on apprend directement la politique.
- PPO (Proximal Policy Optimization) = standard pour robotique et contrôle.
- Stable, efficace, largement utilisé pour entraîner des agents.
Vulgarisation :
« Un agent de RL, c’est un apprenti qui fait des essais-erreurs,
reçoit des récompenses, et apprend une stratégie qui maximise ses chances de réussite. »
3.5 Applications :
- Jeux (Atari, Go, StarCraft).
- Robotique.
- Optimisation industrielle.
- RLHF : Reinforcement Learning from Human Feedback → utilisé dans les LLM (ChatGPT, etc.).
À retenir :
- RL = apprendre à agir, pas à prédire.
- Deep RL = réseau + RL.
- DQN & PPO = deux piliers modernes.
- Le RL est crucial pour les agents autonomes et les LLM modernes.
4. Conclusion générale du module (10 min)
Script professeur :
« Vous avez maintenant les fondations :
– Vision (CNN, ViT),
– Séquences & NLP (LSTM, Transformers, LLM),
– Génération (VAE, GAN, Diffusion),
– Décision (Deep RL).
Vous pouvez désormais lire la plupart des articles modernes en Deep Learning.
Et surtout, vous avez un panorama complet du domaine pour devenir acteurs de la prochaine vague IA. »
Questions à poser :
- Quels sujets vous intéressent le plus maintenant ?
- Est-ce que vous seriez intéressés par une séance dédiée aux agents IA ?
- Quelle technologie vous semble la plus prometteuse pour les 5 prochaines années ?