Quand vous utilisez ChatGPT, Claude ou Gemini, vous avez peut-être remarqué une limite : au bout d’un moment, le modèle « oublie » le début de la conversation. Ce n’est pas un bug, c’est une question de tokens.
Un token, c’est quoi ?
Un token est la plus petite unité de texte qu’un LLM peut traiter. Ce n’est pas un mot, ni une lettre — c’est un morceau de mot. En français, un mot courant comme « bonjour » = 1 token. Un mot plus rare comme « anticonstitutionnellement » = 5-6 tokens.
La fenêtre de contexte
Chaque modèle a une fenêtre de contexte mesurée en tokens. C’est la quantité totale de texte qu’il peut « voir » en même temps — votre prompt + sa réponse. Claude Opus 4 : 200 000 tokens. GPT-4o : 128 000 tokens. Mistral Large : 32 000 tokens.
Comment optimiser ses tokens
Soyez concis dans vos prompts. Évitez de répéter le contexte à chaque message. Utilisez des instructions structurées plutôt que des paragraphes verbeux. Chaque mot compte littéralement.