Le forfait masque la réalité. Et la réalité arrive.
Ce qui me frappe, ce n'est pas que les abonnements LLM vont disparaître. C'est que personne ne sait ce qu'il consomme pendant qu'ils existent encore.
J'utilise Claude Max en subscription. 100$ par mois, usage "illimité". Sauf que j'ai quand même installé ClaudeUsageBar pour monitorer ma consommation en temps réel.
Un jour, j'ai estimé ce que mes sessions auraient coûté en pur token API. La réponse m'a changé la façon de travailler, pas parce que j'allais payer plus, mais parce que j'ai réalisé que je consommais sans compter.
Le forfait masque la réalité. Et la réalité arrive.
Le signal est déjà là
GitHub Copilot vient de sortir du modèle subscription. Microsoft bascule vers une facturation à l'usage. Ce n'est pas un accident de parcours, c'est une décision économique structurelle : le coût réel d'un utilisateur intensif est incompatible avec un prix fixe.
Les providers US ont subventionné l'adoption. Cette phase se termine.
Anthropic, OpenAI, Google ont tous publié leurs grilles tarifaires API en parallèle de leurs offres subscription. L'infrastructure de facturation au token existe déjà. Ce qui change, c'est la direction dans laquelle ils vont pousser leurs utilisateurs.
Les modèles chinois accélèrent le mouvement. Deepseek et Qwen proposent des coûts en API qui rendent le subscription encore plus difficile à justifier pour les providers occidentaux. Quand le coût marginal du token s'effondre globalement, le forfait devient une anomalie comptable.
La transition ne sera pas simultanée. Les modèles US basculent en premiers, dans quelques mois. Les modèles chinois, plus tard, mais avec une pression prix qui rend l'issue inévitable.
Le forfait comme anesthésiant
Le prix fixe crée une illusion de gratuité marginale. Chaque requête supplémentaire semble coûter zéro. Donc on n'optimise pas, on ne mesure pas, on ne questionne pas.
C'est exactement le piège.
Quand j'ai estimé mes sessions Claude en coût API réel, j'ai eu un choc de lucidité. Pas parce que la facture aurait été insupportable. Parce que je voyais pour la première fois ce que chaque workflow, chaque agent, chaque itération pesait réellement. Le monitoring n'a pas réduit mon usage. Il l'a rendu conscient.
La différence est importante. Consommer sans compter, c'est construire sans budget. Quand le token devient la monnaie réelle, ceux qui n'ont jamais mesuré partiront de zéro. Ceux qui monitoraient déjà auront une baseline, des patterns, des décisions à prendre plutôt que des surprises à absorber.
Le forfait ne protège pas. Il reporte.
Monitorer maintenant, pas après
Il existe deux façons simples de commencer sans changer de provider.
La première : OpenRouter. Une couche API unifiée qui expose la consommation token par modèle, par requête, en temps réel. Compatible avec Deepseek, Qwen, Claude, GPT. Le dashboard natif donne une lecture immédiate de ce que chaque usage coûte réellement.
La deuxième : ClaudeUsageBar, que j'ai construit pour mon propre usage. Une app macOS open source en SwiftUI qui affiche la consommation de session Claude Max dans la barre de menu. Pas de télémétrie, stockage Keychain local. Le code est disponible sur https://github.com/LouisMasson/ClaudeUsageBar.
Ces deux outils font la même chose : rendre visible ce que le forfait rend invisible.
Pour aller plus loin, un stack Prometheus + Grafana sur VPS permet de logguer et visualiser la consommation dans le temps. C'est ce que j'utilise pour mon monitoring global, sur un Contabo à 6€/mois. Le coût d'infrastructure est négligeable. Ce qui compte, c'est d'avoir une trace.
Comment démarrer
- Ouvrir un compte OpenRouter et router au moins un workflow existant dessus pour voir les coûts réels
- Installer ClaudeUsageBar si tu es sur Claude Max et macOS
- Estimer rétrospectivement ce que tes 3 dernières semaines auraient coûté en pure API
- Identifier les workflows les plus coûteux : ce sont eux qui devront être optimisés ou arbitrés en premier
La lucidité a un prix. L'ignorance aussi.
Le subscription a rendu l'IA accessible. Il a aussi rendu l'IA opaque.
Quand le compteur deviendra visible pour tout le monde, ceux qui l'avaient déjà regardé auront une longueur d'avance. Pas parce qu'ils auront dépensé moins. Parce qu'ils sauront exactement ce que chaque décision coûte.
La lucidité a un prix. L'ignorance aussi, mais elle se présente en retard.