SESSION 2 – SÉQUENCES & NLP (4h)
RNN, LSTM, Transformers & LLM

Objectifs de la séance : comprendre les réseaux séquentiels (RNN, LSTM, GRU), la rupture des Transformers, et la logique des grands modèles de langage modernes (LLM).

1. Introduction de la Session 2 (5–10 min)

Script professeur :
« Lors de la première session, on a vu comment le Deep Learning a transformé la vision par ordinateur. Aujourd’hui, on va faire la même chose pour les données séquentielles : texte, séries temporelles, langage naturel. On commence avec les RNN et LSTM, et on arrive jusqu’aux Transformers et aux LLM modernes. »

Objectifs annoncés :

2. RNN, LSTM et GRU – Réseaux séquentiels (45 min)

Objectif : comprendre comment les réseaux traitent des séquences et gèrent la mémoire.

Script professeur :
« Jusqu’ici, on a surtout parlé d’images, donc de données “statiques”. Mais beaucoup de problèmes réels sont séquentiels : phrase, conversation, série temporelle, capteurs… Les RNN ont été inventés pour ça : traiter les données pas à pas, en gardant une “mémoire” de ce qui s’est passé avant. »

2.1 RNN simples :

Vulgarisation :
« Un RNN, c’est comme quelqu’un qui lit une phrase mot par mot et qui met à jour mentalement ce qu’il comprend à chaque mot. »

2.2 Problème des gradients évanescents :

2.3 LSTM (Long Short-Term Memory) :

Vulgarisation des portes :
« Imaginez un carnet de notes (la mémoire) : – la porte “input” décide ce qu’on écrit,
– la porte “forget” décide ce qu’on efface,
– la porte “output” décide ce qu’on lit à ce moment-là. »

2.4 GRU (Gated Recurrent Unit) :

Mini-question :
« Dans quels cas un RNN simple est-il suffisant, et dans quels cas LSTM/GRU sont préférables ? »

À retenir :

3. De RNN aux Transformers : la rupture (60 min)

Objectif : comprendre l’idée de self-attention et pourquoi elle remplace les RNN.

Script professeur :
« Les RNN lisent la séquence mot par mot, dans l’ordre. Les Transformers, eux, changent la donne : ils regardent tous les mots en parallèle, et chaque mot peut “faire attention” à tous les autres en une seule étape. C’est ce qu’on appelle la self-attention. »

3.1 Limites des RNN/LSTM :

3.2 Idée clé des Transformers :

Vulgarisation du self-attention :
« Imaginez une salle de classe : avec un RNN, les élèves parlent chacun leur tour. Avec un Transformer, à chaque “round”, chaque élève peut écouter tous les autres et décider de qui il doit tenir compte le plus. »

3.3 Q, K, V (Query, Key, Value) – sans formules :

3.4 Multi-head attention :

Mini-activité :
« En binômes, essayez de trouver une analogie personnelle pour expliquer la self-attention à quelqu’un qui ne connaît rien au Deep Learning. »

À retenir :

4. NLP moderne et grands modèles de langage (LLM) (60 min)

Objectif : comprendre l’architecture générale des LLM et leur entraînement.

Script professeur :
« Un LLM, ce n’est pas de la magie. C’est un très grand réseau Transformer, entraîné sur d’énormes quantités de texte, pour prédire le prochain token. À partir de là, on peut tout faire : génération de texte, résumé, traduction, chat… »

4.1 Pipeline NLP classique vs moderne :

4.2 Tokenisation & embeddings :

Vulgarisation :
« Une embedding, c’est une façon de placer les mots dans un espace géométrique où les mots qui se ressemblent sont proches les uns des autres. »

4.3 Pré-entrainement & adaptation :

4.4 Applications typiques :

Mini-question :
« Quelles tâches de votre vie future d’ingénieur pourraient être en partie automatisées par un LLM ? »

5. Tendances récentes & modèles séquentiels alternatifs (30–45 min)

Objectif : ouvrir au-delà des Transformers classiques.

Script professeur :
« Les Transformers dominent, mais la recherche ne s’arrête pas. De nouveaux modèles séquentiels apparaissent, souvent plus efficaces ou mieux adaptés aux très longues séquences. »

Exemples de tendances :

Activité lecture rapide :
Lecture d’un abstract d’article récent sur un nouveau modèle séquentiel (type Mamba / State Space Models) avec la grille :
– problème, idée principale, résultats, limites.

À retenir :

6. Discussion & Conclusion (15–20 min)

Questions possibles :
« Est-ce que les LLM vont remplacer certains métiers d’ingénieurs ? Lesquels ? Lesquels, selon vous, sont plutôt augmentés que remplacés ? »

« Où voyez-vous le plus de risques dans l’usage massif des LLM ? Où voyez-vous les plus grandes opportunités ? »

Cette session complète la vision : après l’image (Session 1) et les séquences / texte (Session 2), la Session 3 abordera les modèles génératifs (VAE, GAN, Diffusion) et une introduction au Deep Reinforcement Learning.