Les tokens expliqués simplement : pourquoi votre prompt a une limite

Qu’est-ce qu’un token, pourquoi les LLM ont une fenêtre de contexte limitée, et comment optimiser vos prompts pour ne pas gaspiller de tokens.

Les tokens expliqués simplement : pourquoi votre prompt a une limite
✍️
Par Vasanth — 2 avril 2026 — 6 min de lecture

Quand vous utilisez ChatGPT, Claude ou Gemini, vous avez peut-être remarqué une limite : au bout d’un moment, le modèle « oublie » le début de la conversation. Ce n’est pas un bug, c’est une question de tokens.

Un token, c’est quoi ?

Un token est la plus petite unité de texte qu’un LLM peut traiter. Ce n’est pas un mot, ni une lettre — c’est un morceau de mot. En français, un mot courant comme « bonjour » = 1 token. Un mot plus rare comme « anticonstitutionnellement » = 5-6 tokens.

La fenêtre de contexte

Chaque modèle a une fenêtre de contexte mesurée en tokens. C’est la quantité totale de texte qu’il peut « voir » en même temps — votre prompt + sa réponse. Claude Opus 4 : 200 000 tokens. GPT-4o : 128 000 tokens. Mistral Large : 32 000 tokens.

Comment optimiser ses tokens

Soyez concis dans vos prompts. Évitez de répéter le contexte à chaque message. Utilisez des instructions structurées plutôt que des paragraphes verbeux. Chaque mot compte littéralement.

💡
Règle pratique : 1 000 tokens ≈ 750 mots en français. Un article de blog moyen fait environ 1 500-2 000 tokens.
← Retour aux actualités