Retour au cours

Mise à l'échelle de votre infrastructure d'IA

L'IA générative pour les applications Web et mobiles

Prêt pour 1 000 utilisateurs ?

À mesure que votre application grandit, vous pourriez atteindre des limites de débit (nombre maximal de requêtes par minute).

Stratégies pour passer à l'échelle :

  • File d'attente (Queuing) : Mettez les requêtes en attente pendant les pics d'utilisation.
  • Clés multiples : (À utiliser avec prudence) distribuer la charge sur différents comptes.
  • Auto-hébergement : Explorer des modèles comme Llama 3 que vous pouvez exécuter sur vos propres serveurs pour éviter les coûts par token.

Nous verrons quand il est temps de passer au-delà du simple appel API.