Suivi de l'utilisation des LLM
Voici un dashboard que j'ai réalisé chez l'un de mes clients.
Problématique : suivre l'utilisation des LLM et définir des quotas à la minute pour limiter la consommation des LLM.
Ci-dessous, le dashboard contient :
- - Des filtres : date, cas d'usage et modèle
- - Des métriques et des graphiques
Les métriques permettent de connaitre le nombre de requêtes, le nombre de tokens totaux (ingérés + générés par les LLM) ainsi que les coûts associés.
Les 2 graphiques linéaires permettent de suivre respectivement le nombre de requêtes LLM ainsi que la consommation de tokens par jour.
Les graphiques ci-dessus permettent d'analyser la distribution du nombre de requêtes par minute (1ère ligne) et la distribution du nombre de tokens totaux (2ème ligne).
Résultats :
- - Utilisation du dashboard par les Product Managers
- - Utilisation des 95ème percentiles de chaque modèle pour déterminer des quotas par minute
- - Limitation et contrôle de la consommation des LLM