Deep Learning – Session 2 (ING5 – M2)

1. Introduction de la Session 2 (5–10 min)

Script professeur :
« Lors de la première session, on a vu comment le Deep Learning a transformé la vision par ordinateur. Aujourd’hui, on va faire la même chose pour les données séquentielles : texte, séries temporelles, langage naturel. On commence avec les RNN et LSTM, et on arrive jusqu’aux Transformers et aux LLM modernes. »

Objectifs annoncés :

Comprendre la logique des réseaux récurrents (RNN, LSTM, GRU).
Comprendre la rupture conceptuelle des Transformers (self-attention).
Saisir la structure d’un grand modèle de langage (LLM).
Savoir lire au moins superficiellement un article moderne sur les Transformers ou modèles séquentiels.

2. RNN, LSTM et GRU – Réseaux séquentiels (45 min)

Objectif : comprendre comment les réseaux traitent des séquences et gèrent la mémoire.

Script professeur :
« Jusqu’ici, on a surtout parlé d’images, donc de données “statiques”. Mais beaucoup de problèmes réels sont séquentiels : phrase, conversation, série temporelle, capteurs… Les RNN ont été inventés pour ça : traiter les données pas à pas, en gardant une “mémoire” de ce qui s’est passé avant. »

2.1 RNN simples :

Idée : à chaque pas de temps, on lit une entrée et on met à jour un état caché.
L’état caché joue le rôle de mémoire de la séquence.
Sortie possible à chaque pas (tagging) ou à la fin (classification de séquence).

Vulgarisation :
« Un RNN, c’est comme quelqu’un qui lit une phrase mot par mot et qui met à jour mentalement ce qu’il comprend à chaque mot. »

2.2 Problème des gradients évanescents :

Difficulté à apprendre des dépendances longues (début de phrase → fin de phrase).
Le gradient se “perd” en remontant dans le temps.
D’où les difficultés de RNN simples sur les longues séquences.

2.3 LSTM (Long Short-Term Memory) :

Introduit une cellule mémoire + des portes (input, forget, output).
Permet de contrôler ce qu’on garde, ce qu’on oublie, ce qu’on lit.
Meilleure gestion des dépendances longues.

Vulgarisation des portes :
« Imaginez un carnet de notes (la mémoire) : – la porte “input” décide ce qu’on écrit,
– la porte “forget” décide ce qu’on efface,
– la porte “output” décide ce qu’on lit à ce moment-là. »

2.4 GRU (Gated Recurrent Unit) :

Version simplifiée de LSTM.
Moins de portes, moins de paramètres → parfois plus simple à entraîner.

Mini-question :
« Dans quels cas un RNN simple est-il suffisant, et dans quels cas LSTM/GRU sont préférables ? »

À retenir :

RNN = base historique des modèles séquentiels.
LSTM/GRU = solution pratique au problème des dépendances longues.
Avant les Transformers, tout le NLP “deep” était dominé par LSTM/GRU.

3. De RNN aux Transformers : la rupture (60 min)

Objectif : comprendre l’idée de self-attention et pourquoi elle remplace les RNN.

Script professeur :
« Les RNN lisent la séquence mot par mot, dans l’ordre. Les Transformers, eux, changent la donne : ils regardent tous les mots en parallèle, et chaque mot peut “faire attention” à tous les autres en une seule étape. C’est ce qu’on appelle la self-attention. »

3.1 Limites des RNN/LSTM :

Calcul séquentiel → difficile à paralléliser.
Dépendances très longues toujours délicates.
Coût important pour de très longues séquences.

3.2 Idée clé des Transformers :

On représente la séquence comme un ensemble de vecteurs (tokens).
Chaque token peut regarder tous les autres tokens (self-attention).
On peut entraîner en parallèle sur tous les tokens.

Vulgarisation du self-attention :
« Imaginez une salle de classe : avec un RNN, les élèves parlent chacun leur tour. Avec un Transformer, à chaque “round”, chaque élève peut écouter tous les autres et décider de qui il doit tenir compte le plus. »

3.3 Q, K, V (Query, Key, Value) – sans formules :

Pour chaque token, on crée 3 vecteurs : Q, K, V.
On compare Q (ce que je cherche) aux K des autres (qui je suis) pour mesurer l’attention.
On combine les V (contenu) pondérés par ces scores d’attention.

3.4 Multi-head attention :

Plusieurs mécanismes d’attention en parallèle.
Chaque “tête” peut se concentrer sur un type de relation différent (syntaxe, accord, contexte global…).

Mini-activité :
« En binômes, essayez de trouver une analogie personnelle pour expliquer la self-attention à quelqu’un qui ne connaît rien au Deep Learning. »

À retenir :

Transformers = parallèle, scalable, excellents pour les longues séquences.
Ils ont remplacé les RNN/LSTM dans la plupart des tâches NLP modernes.
Base de tous les grands modèles de langage (GPT, etc.).

4. NLP moderne et grands modèles de langage (LLM) (60 min)

Objectif : comprendre l’architecture générale des LLM et leur entraînement.

Script professeur :
« Un LLM, ce n’est pas de la magie. C’est un très grand réseau Transformer, entraîné sur d’énormes quantités de texte, pour prédire le prochain token. À partir de là, on peut tout faire : génération de texte, résumé, traduction, chat… »

4.1 Pipeline NLP classique vs moderne :

Classique : tokenisation → features → modèle simple.
Moderne : tokenizer → embeddings → Transformer profond → tâches multiples.

4.2 Tokenisation & embeddings :

Tokenisation (BPE, SentencePiece) → découper le texte en unités (tokens).
Embedding = vecteur dense qui représente un token.
Les embeddings capturent des propriétés sémantiques (mots proches en sens → vecteurs proches).

Vulgarisation :
« Une embedding, c’est une façon de placer les mots dans un espace géométrique où les mots qui se ressemblent sont proches les uns des autres. »

4.3 Pré-entrainement & adaptation :

Pré-entrainement : prédire le prochain token sur des milliards de phrases.
Fine-tuning : adapter à une tâche spécifique (conversation, résumé, classification…).
Approches légères : LoRA, adapters… pour affiner sans tout ré-entraîner.

4.4 Applications typiques :

Chatbots d’entreprise.
Résumé automatique de documents.
Extraction d’information (NER, QA).
Génération de code, assistance à la programmation.

Mini-question :
« Quelles tâches de votre vie future d’ingénieur pourraient être en partie automatisées par un LLM ? »

5. Tendances récentes & modèles séquentiels alternatifs (30–45 min)

Objectif : ouvrir au-delà des Transformers classiques.

Script professeur :
« Les Transformers dominent, mais la recherche ne s’arrête pas. De nouveaux modèles séquentiels apparaissent, souvent plus efficaces ou mieux adaptés aux très longues séquences. »

Exemples de tendances :

Modèles plus efficaces en mémoire / temps (Mamba, etc.).
Contexte de plus en plus long (documents entiers, sessions, logs…).
Intégration multimodale : texte + image + audio + actions.

Activité lecture rapide :
Lecture d’un abstract d’article récent sur un nouveau modèle séquentiel (type Mamba / State Space Models) avec la grille :
– problème, idée principale, résultats, limites.

À retenir :

Les Transformers ne sont pas la fin de l’histoire.
Les notions fondamentales (séquences, attention, embeddings) resteront utiles.

6. Discussion & Conclusion (15–20 min)

Questions possibles :
« Est-ce que les LLM vont remplacer certains métiers d’ingénieurs ? Lesquels ? Lesquels, selon vous, sont plutôt augmentés que remplacés ? »

« Où voyez-vous le plus de risques dans l’usage massif des LLM ? Où voyez-vous les plus grandes opportunités ? »

Cette session complète la vision : après l’image (Session 1) et les séquences / texte (Session 2), la Session 3 abordera les modèles génératifs (VAE, GAN, Diffusion) et une introduction au Deep Reinforcement Learning.

SESSION 2 – SÉQUENCES & NLP (4h)RNN, LSTM, Transformers & LLM

1. Introduction de la Session 2 (5–10 min)

Objectifs annoncés :

2. RNN, LSTM et GRU – Réseaux séquentiels (45 min)

2.1 RNN simples :

2.2 Problème des gradients évanescents :

2.3 LSTM (Long Short-Term Memory) :

2.4 GRU (Gated Recurrent Unit) :

À retenir :

3. De RNN aux Transformers : la rupture (60 min)

3.1 Limites des RNN/LSTM :

3.2 Idée clé des Transformers :

3.3 Q, K, V (Query, Key, Value) – sans formules :

3.4 Multi-head attention :

À retenir :

4. NLP moderne et grands modèles de langage (LLM) (60 min)

4.1 Pipeline NLP classique vs moderne :

4.2 Tokenisation & embeddings :

4.3 Pré-entrainement & adaptation :

4.4 Applications typiques :

5. Tendances récentes & modèles séquentiels alternatifs (30–45 min)

Exemples de tendances :

À retenir :

6. Discussion & Conclusion (15–20 min)

SESSION 2 – SÉQUENCES & NLP (4h)
RNN, LSTM, Transformers & LLM