SESSION 2 – SÉQUENCES & NLP (4h)
RNN, LSTM, Transformers & LLM
Objectifs de la séance : comprendre les réseaux séquentiels (RNN, LSTM, GRU), la rupture des Transformers,
et la logique des grands modèles de langage modernes (LLM).
1. Introduction de la Session 2 (5–10 min)
Script professeur :
« Lors de la première session, on a vu comment le Deep Learning a transformé la vision par ordinateur.
Aujourd’hui, on va faire la même chose pour les données séquentielles : texte, séries temporelles,
langage naturel. On commence avec les RNN et LSTM, et on arrive jusqu’aux Transformers et aux LLM modernes. »
Objectifs annoncés :
- Comprendre la logique des réseaux récurrents (RNN, LSTM, GRU).
- Comprendre la rupture conceptuelle des Transformers (self-attention).
- Saisir la structure d’un grand modèle de langage (LLM).
- Savoir lire au moins superficiellement un article moderne sur les Transformers ou modèles séquentiels.
2. RNN, LSTM et GRU – Réseaux séquentiels (45 min)
Objectif : comprendre comment les réseaux traitent des séquences et gèrent la mémoire.
Script professeur :
« Jusqu’ici, on a surtout parlé d’images, donc de données “statiques”.
Mais beaucoup de problèmes réels sont séquentiels : phrase, conversation, série temporelle, capteurs…
Les RNN ont été inventés pour ça : traiter les données pas à pas, en gardant une “mémoire” de ce qui s’est passé avant. »
2.1 RNN simples :
- Idée : à chaque pas de temps, on lit une entrée et on met à jour un état caché.
- L’état caché joue le rôle de mémoire de la séquence.
- Sortie possible à chaque pas (tagging) ou à la fin (classification de séquence).
Vulgarisation :
« Un RNN, c’est comme quelqu’un qui lit une phrase mot par mot
et qui met à jour mentalement ce qu’il comprend à chaque mot. »
2.2 Problème des gradients évanescents :
- Difficulté à apprendre des dépendances longues (début de phrase → fin de phrase).
- Le gradient se “perd” en remontant dans le temps.
- D’où les difficultés de RNN simples sur les longues séquences.
2.3 LSTM (Long Short-Term Memory) :
- Introduit une cellule mémoire + des portes (input, forget, output).
- Permet de contrôler ce qu’on garde, ce qu’on oublie, ce qu’on lit.
- Meilleure gestion des dépendances longues.
Vulgarisation des portes :
« Imaginez un carnet de notes (la mémoire) :
– la porte “input” décide ce qu’on écrit,
– la porte “forget” décide ce qu’on efface,
– la porte “output” décide ce qu’on lit à ce moment-là. »
2.4 GRU (Gated Recurrent Unit) :
- Version simplifiée de LSTM.
- Moins de portes, moins de paramètres → parfois plus simple à entraîner.
Mini-question :
« Dans quels cas un RNN simple est-il suffisant, et dans quels cas LSTM/GRU sont préférables ? »
À retenir :
- RNN = base historique des modèles séquentiels.
- LSTM/GRU = solution pratique au problème des dépendances longues.
- Avant les Transformers, tout le NLP “deep” était dominé par LSTM/GRU.
3. De RNN aux Transformers : la rupture (60 min)
Objectif : comprendre l’idée de self-attention et pourquoi elle remplace les RNN.
Script professeur :
« Les RNN lisent la séquence mot par mot, dans l’ordre.
Les Transformers, eux, changent la donne : ils regardent tous les mots en parallèle,
et chaque mot peut “faire attention” à tous les autres en une seule étape.
C’est ce qu’on appelle la self-attention. »
3.1 Limites des RNN/LSTM :
- Calcul séquentiel → difficile à paralléliser.
- Dépendances très longues toujours délicates.
- Coût important pour de très longues séquences.
3.2 Idée clé des Transformers :
- On représente la séquence comme un ensemble de vecteurs (tokens).
- Chaque token peut regarder tous les autres tokens (self-attention).
- On peut entraîner en parallèle sur tous les tokens.
Vulgarisation du self-attention :
« Imaginez une salle de classe : avec un RNN, les élèves parlent chacun leur tour.
Avec un Transformer, à chaque “round”, chaque élève peut écouter tous les autres
et décider de qui il doit tenir compte le plus. »
3.3 Q, K, V (Query, Key, Value) – sans formules :
- Pour chaque token, on crée 3 vecteurs : Q, K, V.
- On compare Q (ce que je cherche) aux K des autres (qui je suis) pour mesurer l’attention.
- On combine les V (contenu) pondérés par ces scores d’attention.
3.4 Multi-head attention :
- Plusieurs mécanismes d’attention en parallèle.
- Chaque “tête” peut se concentrer sur un type de relation différent (syntaxe, accord, contexte global…).
Mini-activité :
« En binômes, essayez de trouver une analogie personnelle pour expliquer la self-attention
à quelqu’un qui ne connaît rien au Deep Learning. »
À retenir :
- Transformers = parallèle, scalable, excellents pour les longues séquences.
- Ils ont remplacé les RNN/LSTM dans la plupart des tâches NLP modernes.
- Base de tous les grands modèles de langage (GPT, etc.).
4. NLP moderne et grands modèles de langage (LLM) (60 min)
Objectif : comprendre l’architecture générale des LLM et leur entraînement.
Script professeur :
« Un LLM, ce n’est pas de la magie.
C’est un très grand réseau Transformer, entraîné sur d’énormes quantités de texte,
pour prédire le prochain token.
À partir de là, on peut tout faire : génération de texte, résumé, traduction, chat… »
4.1 Pipeline NLP classique vs moderne :
- Classique : tokenisation → features → modèle simple.
- Moderne : tokenizer → embeddings → Transformer profond → tâches multiples.
4.2 Tokenisation & embeddings :
- Tokenisation (BPE, SentencePiece) → découper le texte en unités (tokens).
- Embedding = vecteur dense qui représente un token.
- Les embeddings capturent des propriétés sémantiques (mots proches en sens → vecteurs proches).
Vulgarisation :
« Une embedding, c’est une façon de placer les mots dans un espace géométrique
où les mots qui se ressemblent sont proches les uns des autres. »
4.3 Pré-entrainement & adaptation :
- Pré-entrainement : prédire le prochain token sur des milliards de phrases.
- Fine-tuning : adapter à une tâche spécifique (conversation, résumé, classification…).
- Approches légères : LoRA, adapters… pour affiner sans tout ré-entraîner.
4.4 Applications typiques :
- Chatbots d’entreprise.
- Résumé automatique de documents.
- Extraction d’information (NER, QA).
- Génération de code, assistance à la programmation.
Mini-question :
« Quelles tâches de votre vie future d’ingénieur pourraient être
en partie automatisées par un LLM ? »
5. Tendances récentes & modèles séquentiels alternatifs (30–45 min)
Objectif : ouvrir au-delà des Transformers classiques.
Script professeur :
« Les Transformers dominent, mais la recherche ne s’arrête pas.
De nouveaux modèles séquentiels apparaissent, souvent plus efficaces
ou mieux adaptés aux très longues séquences. »
Exemples de tendances :
- Modèles plus efficaces en mémoire / temps (Mamba, etc.).
- Contexte de plus en plus long (documents entiers, sessions, logs…).
- Intégration multimodale : texte + image + audio + actions.
Activité lecture rapide :
Lecture d’un abstract d’article récent sur un nouveau modèle séquentiel
(type Mamba / State Space Models) avec la grille :
– problème, idée principale, résultats, limites.
À retenir :
- Les Transformers ne sont pas la fin de l’histoire.
- Les notions fondamentales (séquences, attention, embeddings) resteront utiles.
6. Discussion & Conclusion (15–20 min)
Questions possibles :
« Est-ce que les LLM vont remplacer certains métiers d’ingénieurs ?
Lesquels ? Lesquels, selon vous, sont plutôt augmentés que remplacés ? »
« Où voyez-vous le plus de risques dans l’usage massif des LLM ?
Où voyez-vous les plus grandes opportunités ? »
Cette session complète la vision : après l’image (Session 1) et les séquences / texte (Session 2),
la Session 3 abordera les modèles génératifs (VAE, GAN, Diffusion)
et une introduction au Deep Reinforcement Learning.