DébutantLLM
22 min de lecture22 vues

Comprendre les Large Language Models

Comment fonctionnent ChatGPT, Claude et Llama ? Découvrez la tokenisation, la génération de texte et apprenez à bien utiliser les LLMs.

Qu''est-ce qu''un LLM ?

Un Large Language Model (grand modèle de langage) est un réseau de neurones entraîné sur d''immenses quantités de texte pour comprendre et générer du langage humain.

En simplifiant beaucoup : un LLM est une machine ultra-sophistiquée qui prédit le mot suivant.

Entrée :  "La capitale de la France est"
LLM :     → "Paris" (95%)  → "une" (2%)  → "Lyon" (1%)  → ...

Les LLMs majeurs en 2026

ModèleCréateurOpen Source ?Points forts
GPT-4oOpenAINonPolyvalent, multimodal
ClaudeAnthropicNonRaisonnement, sécurité, code
GeminiGoogleNonContexte immense (1M+ tokens)
Llama 3MetaOuiMeilleur modèle open-source
MistralMistral AIOuiEfficace, rapide, fait en France
DeepSeekDeepSeekOuiPerformances proches de GPT-4

Open Source vs Propriétaire : Les modèles open-source (Llama, Mistral) peuvent être téléchargés et exécutés sur votre machine. Les modèles propriétaires (GPT-4, Claude) ne sont accessibles que via des API payantes ou des interfaces web.


Comment un LLM Apprend

Étape 1 : Le Pré-entraînement

Le modèle lit des milliards de pages web, de livres, de code et d''articles. Son objectif : prédire le mot suivant dans chaque phrase.

"Le soleil se couche à l''___"  →  "ouest" ✓

À force de voir des milliards d''exemples, le modèle apprend :

  • La grammaire et la syntaxe
  • Les faits et connaissances générales
  • Le raisonnement logique
  • Les conventions de programmation

Le pré-entraînement coûte des millions d''euros en GPU. GPT-4 aurait coûté plus de 100 millions de dollars à entraîner. C''est pourquoi si peu d''entreprises peuvent créer des LLMs from scratch.

Étape 2 : Le Fine-tuning (RLHF / DPO)

Après le pré-entraînement, le modèle sait prédire du texte mais ne sait pas être utile. On l''affine avec des exemples de conversations humain/assistant pour qu''il apprenne à :

  • Répondre aux questions
  • Suivre des instructions
  • Refuser les demandes dangereuses
  • Être concis et structuré

Étape 3 : L''inférence (quand vous l''utilisez)

Quand vous envoyez un message, le modèle génère sa réponse token par token, de gauche à droite. Chaque token est choisi en fonction de tous les tokens précédents.


La Tokenisation

Les LLMs ne lisent pas des mots mais des tokens. Un token est un morceau de mot (parfois un mot entier, parfois une syllabe).

Exemples de tokenisation

"Bonjour"        → ["Bon", "jour"]           (2 tokens)
"intelligence"   → ["intelli", "gence"]       (2 tokens)
"Hello world"    → ["Hello", " world"]        (2 tokens)
"anticonstitutionnellement" → ["anti", "constitu", "tion", "nelle", "ment"] (5 tokens)

Pourquoi c''est important ?

  1. Le prix : les API facturent au token (pas au mot ni au caractère)
  2. La fenêtre de contexte : le modèle a une limite de tokens qu''il peut traiter
  3. Le français coûte plus cher : un texte français génère ~30% plus de tokens qu''un texte anglais équivalent
ModèleFenêtre de contexteÉquivalent
GPT-4o128k tokens~100 pages
Claude 3.5200k tokens~150 pages
Gemini 1.51M tokens~750 pages

Règle approximative : 1 token ≈ 0.75 mot en anglais, ≈ 0.55 mot en français. Pour estimer : nombre de mots × 1.3 ≈ nombre de tokens en français.


Les Paramètres de Génération

Quand vous utilisez un LLM, plusieurs paramètres contrôlent le comportement de la génération.

Temperature

Contrôle le hasard dans les réponses.

TemperatureComportementCas d''usage
0Toujours le même résultat, déterministeCode, maths, extraction de données
0.3-0.7Équilibre créativité/cohérenceRédaction, résumé, Q&A
1.0+Très créatif, parfois incohérentBrainstorming, fiction
# Exemple avec l''API OpenAI
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Raconte une blague"}],
    temperature=0.8  # Créatif
)

Max Tokens

Le nombre maximum de tokens dans la réponse. Si la réponse est trop longue, elle sera coupée au milieu.

Top-p (Nucleus Sampling)

Alternative à la temperature. Au lieu de considérer tous les mots possibles, on ne garde que les mots qui forment les p% les plus probables.

  • top_p=0.1 : ne considère que les mots très probables (plus conservateur)
  • top_p=0.9 : considère un large éventail de mots (plus créatif)

Ne combinez pas temperature et top_p. Utilisez l''un ou l''autre, pas les deux en même temps.


Bien Utiliser un LLM : les Bases du Prompting

Le System Prompt

Le system prompt (ou prompt système) définit le comportement global du modèle. C''est comme donner un rôle et des règles à l''IA.

messages = [
    {
        "role": "system",
        "content": "Tu es un expert en cuisine française. "
                   "Réponds toujours en français, de manière concise. "
                   "Si on te pose une question hors cuisine, dis-le poliment."
    },
    {
        "role": "user",
        "content": "Comment faire une béchamel ?"
    }
]

Les bonnes pratiques

1. Soyez précis dans vos instructions

❌ "Résume ce texte"
✅ "Résume ce texte en 3 bullet points de maximum 20 mots chacun"

2. Donnez du contexte

❌ "Corrige ce code"
✅ "Ce code Python devrait trier une liste par ordre décroissant mais
    retourne une erreur TypeError. Corrige le bug et explique-le."

3. Spécifiez le format de sortie

❌ "Analyse ce CV"
✅ "Analyse ce CV et retourne un JSON avec les clés :
    name, experience_years, skills (liste), score (1-10)"

4. Utilisez des exemples (few-shot)

Classifie le sentiment de ces phrases.

Exemple 1 : "J''adore ce film !" → positif
Exemple 2 : "Horrible, à éviter" → négatif

Phrase : "Pas mal, sans plus" → ?

Exercice Pratique : Votre Premier Appel API

Avec l''API OpenAI (compatible OpenRouter)

from openai import OpenAI

# Avec OpenRouter (accès à tous les modèles)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-..."  # Votre clé OpenRouter
)

# Appel simple
response = client.chat.completions.create(
    model="anthropic/claude-3-haiku",  # Modèle rapide et pas cher
    messages=[
        {"role": "system", "content": "Tu es un assistant qui répond en français."},
        {"role": "user", "content": "Explique-moi les LLMs en 3 phrases simples."}
    ],
    temperature=0.3,
    max_tokens=200
)

print(response.choices[0].message.content)

# Informations utiles
print(f"Tokens utilisés : {response.usage.total_tokens}")
print(f"Modèle : {response.model}")

Comparer les modèles

models = [
    "openai/gpt-4o-mini",
    "anthropic/claude-3-haiku",
    "google/gemini-flash-1.5",
    "mistralai/mistral-7b-instruct",
]

question = "Quelle est la différence entre Machine Learning et Deep Learning ? Réponds en 2 phrases."

for model_id in models:
    response = client.chat.completions.create(
        model=model_id,
        messages=[{"role": "user", "content": question}],
        temperature=0,
        max_tokens=150
    )
    answer = response.choices[0].message.content
    tokens = response.usage.total_tokens
    print(f"\n--- {model_id} ({tokens} tokens) ---")
    print(answer)

Ce que vous observerez : Chaque modèle a un style différent. Certains sont plus concis, d''autres plus détaillés. Les modèles plus grands donnent généralement des réponses plus nuancées.


Les Limites des LLMs

Hallucinations

Les LLMs inventent parfois des faits avec une grande confiance. Ils ne "savent" pas ce qu''ils savent : ils génèrent du texte statistiquement plausible.

❌ "Le théorème de Dupont-Moretti stipule que..." (n''existe pas)
❌ "Selon l''étude de Harvard de 2019..." (citation inventée)

Solutions :

  • Toujours vérifier les faits importants
  • Utiliser le RAG pour ancrer les réponses dans des sources
  • Demander au modèle de citer ses sources (et les vérifier)

Knowledge Cutoff

Le modèle ne connaît que les données de son entraînement. Un modèle entraîné jusqu''en avril 2024 ne sait rien de ce qui s''est passé après.

Fenêtre de contexte limitée

Même avec 200k tokens, le modèle peut "oublier" les informations au milieu d''un long document (phénomène Lost in the Middle).

Raisonnement mathématique

Les LLMs sont des modèles de langage, pas de mathématiques. Ils peuvent se tromper sur des calculs simples (même si cela s''améliore rapidement).


Pour Aller Plus Loin

  • Créez un compte gratuit sur OpenRouter pour tester des dizaines de modèles avec une seule API
  • Testez et comparez les modèles sur LM Arena en les faisant s''affronter à l''aveugle
  • Prochain cours : le Prompt Engineering avancé (chain-of-thought, few-shot, structured outputs)

Specialiste IA — Master Intelligence Artificielle

Diplome d'un Master en Intelligence Artificielle, je travaille au quotidien sur des projets IA en entreprise. J'ai cree IwanttolearnAI pour rendre l'apprentissage de l'IA accessible a tous, gratuitement.