OpenAI introduit le traitement Flex pour des requêtes API plus économiques

OpenAI introduit le traitement Flex pour des requêtes API plus économiques

OpenAI lance le traitement Flex comme alternative plus économique pour les requêtes API. Cette formule est destinée aux applications moins sensibles au facteur temps.

OpenAI introduit le traitement Flex pour les utilisateurs de l’API. Avec Flex, l’entreprise d’IA vise à offrir une réponse compétitive aux stratégies tarifaires de concurrents tels que Google.

Le traitement Flex s’adresse aux développeurs souhaitant limiter leurs coûts pour des tâches hors production telles que les tests de modèles, l’enrichissement de données ou les traitements asynchrones. En contrepartie de tarifs inférieurs, l’utilisateur accepte des temps de réponse plus lents et la possibilité que les ressources demandées soient temporairement indisponibles.

Le traitement Flex utilise les mêmes tarifs que l’API Batch d’OpenAI. Pour activer ce mode, les utilisateurs doivent définir le paramètre service_tier sur flex dans leur requête API. Cela s’applique aussi bien à la fonctionnalité Chat qu’à la fonctionnalité Responses de l’API.

Lors de l’utilisation du traitement Flex, des temps de traitement plus longs sont probables. Le délai d’expiration par défaut est de dix minutes. Pour les tâches complexes ou de longue durée, OpenAI recommande d’augmenter ce délai. Dans les SDK Python et JavaScript, cela se fait via le paramètre timeout. Si une requête dure plus longtemps que le temps autorisé, les SDK tentent automatiquement de l’exécuter à nouveau deux fois avant de générer un message d’erreur.

Retard ou indisponibilité

Une requête via le traitement Flex peut parfois être refusée lorsque la capacité de traitement disponible est insuffisante. Dans ce cas, l’utilisateur reçoit un code d’erreur 429, mais aucun frais n’est facturé.

Pour gérer cette situation, OpenAI recommande deux stratégies. La première consiste à réessayer la requête avec un temps d’attente croissant entre les tentatives (exponential backoff). Cette stratégie convient aux applications pouvant tolérer de légers retards.

La deuxième option consiste à revenir optionnellement au niveau de traitement standard. Pour ce faire, les développeurs doivent définir le paramètre service_tier sur auto ou l’omettre complètement de la requête. Dans ce cas, une requête sera parfois traitée à un tarif légèrement plus élevé.

L’option Flex n’est actuellement disponible qu’en version bêta et uniquement utilisable pour les utilisateurs des modèles o3 et o4-mini d’OpenAI.