Comprendre les Large Language Models
Comment fonctionnent ChatGPT, Claude et Llama ? Découvrez la tokenisation, la génération de texte et apprenez à bien utiliser les LLMs.
Qu''est-ce qu''un LLM ?
Un Large Language Model (grand modèle de langage) est un réseau de neurones entraîné sur d''immenses quantités de texte pour comprendre et générer du langage humain.
En simplifiant beaucoup : un LLM est une machine ultra-sophistiquée qui prédit le mot suivant.
Entrée : "La capitale de la France est"
LLM : → "Paris" (95%) → "une" (2%) → "Lyon" (1%) → ...
Les LLMs majeurs en 2026
| Modèle | Créateur | Open Source ? | Points forts |
|---|---|---|---|
| GPT-4o | OpenAI | Non | Polyvalent, multimodal |
| Claude | Anthropic | Non | Raisonnement, sécurité, code |
| Gemini | Non | Contexte immense (1M+ tokens) | |
| Llama 3 | Meta | Oui | Meilleur modèle open-source |
| Mistral | Mistral AI | Oui | Efficace, rapide, fait en France |
| DeepSeek | DeepSeek | Oui | Performances proches de GPT-4 |
Open Source vs Propriétaire : Les modèles open-source (Llama, Mistral) peuvent être téléchargés et exécutés sur votre machine. Les modèles propriétaires (GPT-4, Claude) ne sont accessibles que via des API payantes ou des interfaces web.
Comment un LLM Apprend
Étape 1 : Le Pré-entraînement
Le modèle lit des milliards de pages web, de livres, de code et d''articles. Son objectif : prédire le mot suivant dans chaque phrase.
"Le soleil se couche à l''___" → "ouest" ✓
À force de voir des milliards d''exemples, le modèle apprend :
- La grammaire et la syntaxe
- Les faits et connaissances générales
- Le raisonnement logique
- Les conventions de programmation
Le pré-entraînement coûte des millions d''euros en GPU. GPT-4 aurait coûté plus de 100 millions de dollars à entraîner. C''est pourquoi si peu d''entreprises peuvent créer des LLMs from scratch.
Étape 2 : Le Fine-tuning (RLHF / DPO)
Après le pré-entraînement, le modèle sait prédire du texte mais ne sait pas être utile. On l''affine avec des exemples de conversations humain/assistant pour qu''il apprenne à :
- Répondre aux questions
- Suivre des instructions
- Refuser les demandes dangereuses
- Être concis et structuré
Étape 3 : L''inférence (quand vous l''utilisez)
Quand vous envoyez un message, le modèle génère sa réponse token par token, de gauche à droite. Chaque token est choisi en fonction de tous les tokens précédents.
La Tokenisation
Les LLMs ne lisent pas des mots mais des tokens. Un token est un morceau de mot (parfois un mot entier, parfois une syllabe).
Exemples de tokenisation
"Bonjour" → ["Bon", "jour"] (2 tokens)
"intelligence" → ["intelli", "gence"] (2 tokens)
"Hello world" → ["Hello", " world"] (2 tokens)
"anticonstitutionnellement" → ["anti", "constitu", "tion", "nelle", "ment"] (5 tokens)
Pourquoi c''est important ?
- Le prix : les API facturent au token (pas au mot ni au caractère)
- La fenêtre de contexte : le modèle a une limite de tokens qu''il peut traiter
- Le français coûte plus cher : un texte français génère ~30% plus de tokens qu''un texte anglais équivalent
| Modèle | Fenêtre de contexte | Équivalent |
|---|---|---|
| GPT-4o | 128k tokens | ~100 pages |
| Claude 3.5 | 200k tokens | ~150 pages |
| Gemini 1.5 | 1M tokens | ~750 pages |
Règle approximative : 1 token ≈ 0.75 mot en anglais, ≈ 0.55 mot en français. Pour estimer : nombre de mots × 1.3 ≈ nombre de tokens en français.
Les Paramètres de Génération
Quand vous utilisez un LLM, plusieurs paramètres contrôlent le comportement de la génération.
Temperature
Contrôle le hasard dans les réponses.
| Temperature | Comportement | Cas d''usage |
|---|---|---|
| 0 | Toujours le même résultat, déterministe | Code, maths, extraction de données |
| 0.3-0.7 | Équilibre créativité/cohérence | Rédaction, résumé, Q&A |
| 1.0+ | Très créatif, parfois incohérent | Brainstorming, fiction |
# Exemple avec l''API OpenAI
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "Raconte une blague"}],
temperature=0.8 # Créatif
)
Max Tokens
Le nombre maximum de tokens dans la réponse. Si la réponse est trop longue, elle sera coupée au milieu.
Top-p (Nucleus Sampling)
Alternative à la temperature. Au lieu de considérer tous les mots possibles, on ne garde que les mots qui forment les p% les plus probables.
top_p=0.1: ne considère que les mots très probables (plus conservateur)top_p=0.9: considère un large éventail de mots (plus créatif)
Ne combinez pas temperature et top_p. Utilisez l''un ou l''autre, pas les deux en même temps.
Bien Utiliser un LLM : les Bases du Prompting
Le System Prompt
Le system prompt (ou prompt système) définit le comportement global du modèle. C''est comme donner un rôle et des règles à l''IA.
messages = [
{
"role": "system",
"content": "Tu es un expert en cuisine française. "
"Réponds toujours en français, de manière concise. "
"Si on te pose une question hors cuisine, dis-le poliment."
},
{
"role": "user",
"content": "Comment faire une béchamel ?"
}
]
Les bonnes pratiques
1. Soyez précis dans vos instructions
❌ "Résume ce texte"
✅ "Résume ce texte en 3 bullet points de maximum 20 mots chacun"
2. Donnez du contexte
❌ "Corrige ce code"
✅ "Ce code Python devrait trier une liste par ordre décroissant mais
retourne une erreur TypeError. Corrige le bug et explique-le."
3. Spécifiez le format de sortie
❌ "Analyse ce CV"
✅ "Analyse ce CV et retourne un JSON avec les clés :
name, experience_years, skills (liste), score (1-10)"
4. Utilisez des exemples (few-shot)
Classifie le sentiment de ces phrases.
Exemple 1 : "J''adore ce film !" → positif
Exemple 2 : "Horrible, à éviter" → négatif
Phrase : "Pas mal, sans plus" → ?
Exercice Pratique : Votre Premier Appel API
Avec l''API OpenAI (compatible OpenRouter)
from openai import OpenAI
# Avec OpenRouter (accès à tous les modèles)
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-..." # Votre clé OpenRouter
)
# Appel simple
response = client.chat.completions.create(
model="anthropic/claude-3-haiku", # Modèle rapide et pas cher
messages=[
{"role": "system", "content": "Tu es un assistant qui répond en français."},
{"role": "user", "content": "Explique-moi les LLMs en 3 phrases simples."}
],
temperature=0.3,
max_tokens=200
)
print(response.choices[0].message.content)
# Informations utiles
print(f"Tokens utilisés : {response.usage.total_tokens}")
print(f"Modèle : {response.model}")
Comparer les modèles
models = [
"openai/gpt-4o-mini",
"anthropic/claude-3-haiku",
"google/gemini-flash-1.5",
"mistralai/mistral-7b-instruct",
]
question = "Quelle est la différence entre Machine Learning et Deep Learning ? Réponds en 2 phrases."
for model_id in models:
response = client.chat.completions.create(
model=model_id,
messages=[{"role": "user", "content": question}],
temperature=0,
max_tokens=150
)
answer = response.choices[0].message.content
tokens = response.usage.total_tokens
print(f"\n--- {model_id} ({tokens} tokens) ---")
print(answer)
Ce que vous observerez : Chaque modèle a un style différent. Certains sont plus concis, d''autres plus détaillés. Les modèles plus grands donnent généralement des réponses plus nuancées.
Les Limites des LLMs
Hallucinations
Les LLMs inventent parfois des faits avec une grande confiance. Ils ne "savent" pas ce qu''ils savent : ils génèrent du texte statistiquement plausible.
❌ "Le théorème de Dupont-Moretti stipule que..." (n''existe pas)
❌ "Selon l''étude de Harvard de 2019..." (citation inventée)
Solutions :
- Toujours vérifier les faits importants
- Utiliser le RAG pour ancrer les réponses dans des sources
- Demander au modèle de citer ses sources (et les vérifier)
Knowledge Cutoff
Le modèle ne connaît que les données de son entraînement. Un modèle entraîné jusqu''en avril 2024 ne sait rien de ce qui s''est passé après.
Fenêtre de contexte limitée
Même avec 200k tokens, le modèle peut "oublier" les informations au milieu d''un long document (phénomène Lost in the Middle).
Raisonnement mathématique
Les LLMs sont des modèles de langage, pas de mathématiques. Ils peuvent se tromper sur des calculs simples (même si cela s''améliore rapidement).
Pour Aller Plus Loin
- Créez un compte gratuit sur OpenRouter pour tester des dizaines de modèles avec une seule API
- Testez et comparez les modèles sur LM Arena en les faisant s''affronter à l''aveugle
- Prochain cours : le Prompt Engineering avancé (chain-of-thought, few-shot, structured outputs)
Specialiste IA — Master Intelligence Artificielle
Diplome d'un Master en Intelligence Artificielle, je travaille au quotidien sur des projets IA en entreprise. J'ai cree IwanttolearnAI pour rendre l'apprentissage de l'IA accessible a tous, gratuitement.
Continuer a apprendre
Gérer le Context Window et la Mémoire des LLMs
Comprenez les limites de mémoire des LLMs, le phénomène lost-in-the-middle, et maîtrisez les stratégies pour gérer efficacement de longs contextes en production.
Faire Tourner un LLM en Local avec Ollama
Installez et utilisez des LLMs directement sur votre machine avec Ollama : confidentialité totale, coût zéro, et intégration Python en quelques lignes.
Tokenisation : Comment l'IA Lit le Texte
Découvrez comment les LLMs décomposent le texte en tokens, pourquoi le français coûte plus cher que l'anglais, et comment maîtriser vos coûts d'API avec tiktoken.