DébutantLLM

22 min de lecture29 vues

Comprendre les Large Language Models

Comment fonctionnent ChatGPT, Claude et Llama ? Découvrez la tokenisation, la génération de texte et apprenez à bien utiliser les LLMs.

Specialiste IA

Qu''est-ce qu''un LLM ?

Un Large Language Model (grand modèle de langage) est un réseau de neurones entraîné sur d''immenses quantités de texte pour comprendre et générer du langage humain.

En simplifiant beaucoup : un LLM est une machine ultra-sophistiquée qui prédit le mot suivant.

Entrée :  "La capitale de la France est"
LLM :     → "Paris" (95%)  → "une" (2%)  → "Lyon" (1%)  → ...

Les LLMs majeurs en 2026

Modèle	Créateur	Open Source ?	Points forts
GPT-4o	OpenAI	Non	Polyvalent, multimodal
Claude	Anthropic	Non	Raisonnement, sécurité, code
Gemini	Google	Non	Contexte immense (1M+ tokens)
Llama 3	Meta	Oui	Meilleur modèle open-source
Mistral	Mistral AI	Oui	Efficace, rapide, fait en France
DeepSeek	DeepSeek	Oui	Performances proches de GPT-4

Open Source vs Propriétaire : Les modèles open-source (Llama, Mistral) peuvent être téléchargés et exécutés sur votre machine. Les modèles propriétaires (GPT-4, Claude) ne sont accessibles que via des API payantes ou des interfaces web.

Comment un LLM Apprend

Étape 1 : Le Pré-entraînement

Le modèle lit des milliards de pages web, de livres, de code et d''articles. Son objectif : prédire le mot suivant dans chaque phrase.

"Le soleil se couche à l''___"  →  "ouest" ✓

À force de voir des milliards d''exemples, le modèle apprend :

La grammaire et la syntaxe
Les faits et connaissances générales
Le raisonnement logique
Les conventions de programmation

Le pré-entraînement coûte des millions d''euros en GPU. GPT-4 aurait coûté plus de 100 millions de dollars à entraîner. C''est pourquoi si peu d''entreprises peuvent créer des LLMs from scratch.

Étape 2 : Le Fine-tuning (RLHF / DPO)

Après le pré-entraînement, le modèle sait prédire du texte mais ne sait pas être utile. On l''affine avec des exemples de conversations humain/assistant pour qu''il apprenne à :

Répondre aux questions
Suivre des instructions
Refuser les demandes dangereuses
Être concis et structuré

Étape 3 : L''inférence (quand vous l''utilisez)

Quand vous envoyez un message, le modèle génère sa réponse token par token, de gauche à droite. Chaque token est choisi en fonction de tous les tokens précédents.

La Tokenisation

Les LLMs ne lisent pas des mots mais des tokens. Un token est un morceau de mot (parfois un mot entier, parfois une syllabe).

Exemples de tokenisation

"Bonjour"        → ["Bon", "jour"]           (2 tokens)
"intelligence"   → ["intelli", "gence"]       (2 tokens)
"Hello world"    → ["Hello", " world"]        (2 tokens)
"anticonstitutionnellement" → ["anti", "constitu", "tion", "nelle", "ment"] (5 tokens)

Pourquoi c''est important ?

Le prix : les API facturent au token (pas au mot ni au caractère)
La fenêtre de contexte : le modèle a une limite de tokens qu''il peut traiter
Le français coûte plus cher : un texte français génère ~30% plus de tokens qu''un texte anglais équivalent

Modèle	Fenêtre de contexte	Équivalent
GPT-4o	128k tokens	~100 pages
Claude 3.5	200k tokens	~150 pages
Gemini 1.5	1M tokens	~750 pages

Règle approximative : 1 token ≈ 0.75 mot en anglais, ≈ 0.55 mot en français. Pour estimer : nombre de mots × 1.3 ≈ nombre de tokens en français.

Les Paramètres de Génération

Quand vous utilisez un LLM, plusieurs paramètres contrôlent le comportement de la génération.

Temperature

Contrôle le hasard dans les réponses.

Temperature	Comportement	Cas d''usage
0	Toujours le même résultat, déterministe	Code, maths, extraction de données
0.3-0.7	Équilibre créativité/cohérence	Rédaction, résumé, Q&A
1.0+	Très créatif, parfois incohérent	Brainstorming, fiction

# Exemple avec l''API OpenAI
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Raconte une blague"}],
    temperature=0.8  # Créatif
)

Max Tokens

Le nombre maximum de tokens dans la réponse. Si la réponse est trop longue, elle sera coupée au milieu.

Top-p (Nucleus Sampling)

Alternative à la temperature. Au lieu de considérer tous les mots possibles, on ne garde que les mots qui forment les p% les plus probables.

top_p=0.1 : ne considère que les mots très probables (plus conservateur)
top_p=0.9 : considère un large éventail de mots (plus créatif)

Ne combinez pas temperature et top_p. Utilisez l''un ou l''autre, pas les deux en même temps.

Bien Utiliser un LLM : les Bases du Prompting

Le System Prompt

Le system prompt (ou prompt système) définit le comportement global du modèle. C''est comme donner un rôle et des règles à l''IA.

messages = [
    {
        "role": "system",
        "content": "Tu es un expert en cuisine française. "
                   "Réponds toujours en français, de manière concise. "
                   "Si on te pose une question hors cuisine, dis-le poliment."
    },
    {
        "role": "user",
        "content": "Comment faire une béchamel ?"
    }
]

Les bonnes pratiques

1. Soyez précis dans vos instructions

❌ "Résume ce texte"
✅ "Résume ce texte en 3 bullet points de maximum 20 mots chacun"

2. Donnez du contexte

❌ "Corrige ce code"
✅ "Ce code Python devrait trier une liste par ordre décroissant mais
    retourne une erreur TypeError. Corrige le bug et explique-le."

3. Spécifiez le format de sortie

❌ "Analyse ce CV"
✅ "Analyse ce CV et retourne un JSON avec les clés :
    name, experience_years, skills (liste), score (1-10)"

4. Utilisez des exemples (few-shot)

Classifie le sentiment de ces phrases.

Exemple 1 : "J''adore ce film !" → positif
Exemple 2 : "Horrible, à éviter" → négatif

Phrase : "Pas mal, sans plus" → ?

Exercice Pratique : Votre Premier Appel API

Avec l''API OpenAI (compatible OpenRouter)

from openai import OpenAI

# Avec OpenRouter (accès à tous les modèles)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-..."  # Votre clé OpenRouter
)

# Appel simple
response = client.chat.completions.create(
    model="anthropic/claude-3-haiku",  # Modèle rapide et pas cher
    messages=[
        {"role": "system", "content": "Tu es un assistant qui répond en français."},
        {"role": "user", "content": "Explique-moi les LLMs en 3 phrases simples."}
    ],
    temperature=0.3,
    max_tokens=200
)

print(response.choices[0].message.content)

# Informations utiles
print(f"Tokens utilisés : {response.usage.total_tokens}")
print(f"Modèle : {response.model}")

Comparer les modèles

models = [
    "openai/gpt-4o-mini",
    "anthropic/claude-3-haiku",
    "google/gemini-flash-1.5",
    "mistralai/mistral-7b-instruct",
]

question = "Quelle est la différence entre Machine Learning et Deep Learning ? Réponds en 2 phrases."

for model_id in models:
    response = client.chat.completions.create(
        model=model_id,
        messages=[{"role": "user", "content": question}],
        temperature=0,
        max_tokens=150
    )
    answer = response.choices[0].message.content
    tokens = response.usage.total_tokens
    print(f"\n--- {model_id} ({tokens} tokens) ---")
    print(answer)

Ce que vous observerez : Chaque modèle a un style différent. Certains sont plus concis, d''autres plus détaillés. Les modèles plus grands donnent généralement des réponses plus nuancées.

Les Limites des LLMs

Hallucinations

Les LLMs inventent parfois des faits avec une grande confiance. Ils ne "savent" pas ce qu''ils savent : ils génèrent du texte statistiquement plausible.

❌ "Le théorème de Dupont-Moretti stipule que..." (n''existe pas)
❌ "Selon l''étude de Harvard de 2019..." (citation inventée)

Solutions :

Toujours vérifier les faits importants
Utiliser le RAG pour ancrer les réponses dans des sources
Demander au modèle de citer ses sources (et les vérifier)

Knowledge Cutoff

Le modèle ne connaît que les données de son entraînement. Un modèle entraîné jusqu''en avril 2024 ne sait rien de ce qui s''est passé après.

Fenêtre de contexte limitée

Même avec 200k tokens, le modèle peut "oublier" les informations au milieu d''un long document (phénomène Lost in the Middle).

Raisonnement mathématique

Les LLMs sont des modèles de langage, pas de mathématiques. Ils peuvent se tromper sur des calculs simples (même si cela s''améliore rapidement).

Pour Aller Plus Loin

Créez un compte gratuit sur OpenRouter pour tester des dizaines de modèles avec une seule API
Testez et comparez les modèles sur LM Arena en les faisant s''affronter à l''aveugle
Prochain cours : le Prompt Engineering avancé (chain-of-thought, few-shot, structured outputs)

Specialiste IA — Master Intelligence Artificielle

Diplome d'un Master en Intelligence Artificielle, je travaille au quotidien sur des projets IA en entreprise. J'ai cree IwanttolearnAI pour rendre l'apprentissage de l'IA accessible a tous, gratuitement.

GitHub En savoir plus

Retour à LLM

Continuer a apprendre

LLMIntermédiaire

Gérer le Context Window et la Mémoire des LLMs

Comprenez les limites de mémoire des LLMs, le phénomène lost-in-the-middle, et maîtrisez les stratégies pour gérer efficacement de longs contextes en production.

18 min19

LLMDébutant

Faire Tourner un LLM en Local avec Ollama

Installez et utilisez des LLMs directement sur votre machine avec Ollama : confidentialité totale, coût zéro, et intégration Python en quelques lignes.

15 min18

LLMIntermédiaire

Tokenisation : Comment l'IA Lit le Texte

Découvrez comment les LLMs décomposent le texte en tokens, pourquoi le français coûte plus cher que l'anglais, et comment maîtriser vos coûts d'API avec tiktoken.

16 min26