Étude de cas | Claude Code

Au sein de l'équipe IA/ML de Delight.ai : création d'outils internes avec Claude Code

Essayer Claude
Contacter le service commercial
Secteur d'activité :
Logiciels
Taille de l'entreprise :
Startup
Produit :
Claude Code
Partenaire :
AWS
Lieu :
Amérique du Nord
1 semaine → 1 à 2 jours
Délai de résolution et de redéploiement d'un problème d'agent IA en production
Chaque déploiement client soumis à des tests de régression
grâce à des outils internes créés par Claude Code
Claude on Amazon Bedrock

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

En savoir plus
Claude on Amazon Bedrock
Suivant

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Légende de la vidéo
Suivant
Claude on Amazon Bedrock

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Précédent
Suivant

Delight.ai crée des agents d'IA pour l'assistance client en s'appuyant sur l'infrastructure de messagerie, de voix et de vidéo de Sendbird, qui gère 7 milliards de conversations mensuelles pour les entreprises. Avec Claude comme modèle principal, son concierge IA résout les interactions complexes et à haut enjeu dans les secteurs de la vente au détail, des voyages, du SaaS B2B et des places de marché qui nécessitaient auparavant une escalade humaine.

Nous nous sommes entretenus avec Clara Park, ingénieure logicielle au sein de l'équipe IA/ML de Sendbird. À l'aide de Claude Code, elle crée les outils internes qui préparent l'agent de chaque client pour la mise en production.

Anthropic : pour les personnes qui ne connaissent pas Delight AI, que fait le produit et où Claude Code s'intègre-t-il dans le travail de votre équipe ?

Clara Park, Sendbird  : nous déployons des agents IA pour des entreprises comme Mixpanel et les services à la demande dans les secteurs de la vente au détail et du voyage, gérant des conversations à fort volume autour des modifications d'abonnements, de l'assistance aux commandes et des types de cas limites qui étaient auparavant transférés à un humain. Claude est l'un des principaux modèles alimentant ces agents. Concernant l'équipe IA/ML, Claude Code est également ce que nous utilisons pour créer les outils internes qui préparent chaque déploiement de Delight AI à être mis en production. Nous avons basé notre flux de travail de débogage et de tests de régression sur Claude Code. Nous pouvons tester les agents et détecter les problèmes avant qu'ils n'atteignent les clients, ce que nous ne pouvions pas faire auparavant.

Après Claude Code, le temps de résolution d'un problème d'agent IA en production est passé d'une semaine environ à un ou deux jours. Expliquez-nous ce qui a changé.

Clara Park : les conversations des agents IA ne sont jamais parfaites, et des erreurs comme une tarification erronée ou un langage juridique incorrect nécessiteraient une correction immédiate. Une fois qu'un agent est en production, il nous fallait environ une semaine pour résoudre les problèmes, tester et déployer. Désormais, cela ne prend qu'un ou deux jours maximum. La semaine était principalement constituée de travail manuel. Chaque ingénieur IA avait son propre notebook Python pour générer des conversations de test et les étiqueter, ce qui était inefficace. Après avoir tout intégré en un seul outil utilisé par tous les ingénieurs, le temps nécessaire a diminué. Si nous constatons maintenant une conversation en production avec des problèmes, nous pouvons directement la corriger.

Depuis l'adoption de Claude Code en novembre, notre nombre de créations hebdomadaires de pull requests et de fusions de pull requests a plus ou moins doublé. Début novembre, nous avions environ 700 PR créées et 600 fusionnées par semaine ; en mai, nous étions plus proches de 1,6k PR créées et 1,3k fusionnées par semaine. Cela s'aligne également sur notre croissance d'utilisation des jetons Claude Code.

« Depuis l'adoption de Claude Code en novembre, notre nombre de créations hebdomadaires de pull requests et de fusions PR a plus ou moins doublé. »
Clara Park
Ingénieure logicielle, Delight.ai

Comment l'approche de Delight.ai en matière d'IA a-t-elle évolué pour en arriver là où vous en êtes maintenant ?

Clara Park : dès le début, nos agents étaient de simples chatbots RAG. Ensuite, le secteur est entré dans une ère de déflexion, où l'objectif était de garder les tickets à distance des agents humains, l'IA résolvant les tickets simples. À mesure que les modèles se sont améliorés pour les appels d'outils, la gestion de contextes plus longs et le raisonnement sur des problèmes en plusieurs étapes, nos agents ont évolué pour couvrir l'ensemble du cycle de vie d'une demande. Par exemple, un client se présente pour modifier son plan, s'aperçoit qu'il a été surfacturé le mois dernier et souhaite mettre à jour son mode de paiement. L'agent gère les trois en une seule conversation. 

Anthropic : vous exécutez une architecture multi-modèles. Comment décidez-vous quel modèle gère quoi ?

Clara Park : différentes tâches ont des critères différents. Lors des conversations d'assistance, nous mettons en place des mesures de protection contre l'injection de requêtes, comme quelqu'un qui prétend à tort qu'un abonnement payant est gratuit, par exemple. Une fois la conversation terminée, nous exécutons une étape d'analyse distincte : classification des sujets, analyse des sentiments et recherche d'hallucinations.

Les compromis varient en fonction de la tâche. La génération de résumés doit être rapide. La détection des hallucinations peut se permettre d'être plus lente, mais l'exactitude est plus importante dans ce cas. Nous maintenons un ensemble de tests internes constitué d'exemples réels des comportements qui nous tiennent à cœur : hallucinations, gestion des demandes hors périmètre et cas extrêmes de classification d'intention. Le modèle qui fonctionne le mieux pour une tâche donnée est celui que nous utilisons.

Vous avez créé un système qui regroupe les problèmes issus des conversations de production et fait apparaître aux clients les suggestions de l'IA sur ce qu'il faut corriger. Pourquoi Claude Opus pour ce travail ?

Clara Park : analyser les conversations de production est un travail vraiment complexe. En tant qu'équipe d'ingénierie, nous regroupons les problèmes par sujet sur des milliers de conversations, puis générons des suggestions de correctifs. Pas de correctifs ponctuels, mais des améliorations générales sur lesquelles le client peut agir. Ce résultat est directement fourni au client, il doit donc être correct. Nous avons d'abord testé les modèles à moindre coût. Ils produisaient des étiquettes répétitives et continuaient de faire remonter des problèmes mineurs, tout en passant à côté des problèmes critiques. Pour un pipeline en plusieurs étapes comme celui-ci (regrouper, synthétiser, recommander), où le résultat est ce que le client voit et sur quoi il agit, nous avions besoin d'un modèle capable d'assurer la cohérence de l'ensemble. C'est pourquoi nous utilisons Opus 4.8.

Expliquez-nous les outils internes que votre équipe a créés avec Claude Code.

Clara Park : le premier est un débogueur de conversation. Lorsqu'un agent a un problème en production, l'outil récupère le journal de conversation, affiche la requête système et nous indique, côte à côte, le comportement attendu et le comportement réel. Nous exécutons cette analyse via Opus pour identifier où corriger le problème. Le second est notre outil de test de régression. Vous lui donnez un persona utilisateur et un scénario à tester, et il génère automatiquement des conversations et les exécute à grande échelle. Nous l'utilisons pour valider l'agent de chaque client avant qu'il ne soit mis en production. Ensuite, la propre équipe d'assurance qualité du client l'examine et nous donne son feu vert pour la livraison.

Au-delà des outils, comment Claude Code a-t-il changé votre quotidien d'ingénieure ?

Clara Park : volume, principalement. Avant, je pouvais traiter un ou deux tickets par jour. Désormais, je peux confier quelque chose à Claude Code, m'éloigner et revenir lorsque c'est terminé. Cela a également changé ma façon d'aborder les décisions architecturales. Auparavant, je les soumettais directement à mon responsable ou à un ingénieur senior. Désormais, je les étudie d'abord avec Claude Code, puis j'aborde la conversation avec des options déjà sur la table. Cela a été vraiment utile.

En savoir plus
Suivant

Légende de la vidéo
Suivant

« Nous avons basé notre flux de travail de débogage et de tests de régression sur Claude Code. Nous pouvons tester les agents et détecter les problèmes avant qu'ils n'atteignent les clients, ce que nous ne pouvions pas faire auparavant ».
Clara Park
Ingénieure logicielle, Delight.ai

À quoi ressemble l'infrastructure de Delight en coulisses ?

Park : nous exécutons Claude sur Amazon Bedrock et l'API directe d'Anthropic comme routes homologues. Un proxy interne sélectionne l'un d'entre eux pour chaque requête en fonction de la latence en temps réel, des taux d'erreurs et de la capacité. Le chemin qui répond le plus rapidement et le plus proprement reçoit la requête. Les erreurs de limite de débit sont critiques pour nous : les clients achètent un agent IA spécifiquement parce qu'ils souhaitent une assistance 24 h/24 et 7 j/7, donc toute interruption est un échec du produit. 

Bedrock est précieux, car il nous fournit une infrastructure supplémentaire prête pour l'entreprise, une flexibilité régionale, un alignement sur la conformité pour certains clients et une autre option de capacité pour la fiabilité.

L'exécution des deux chemins améliore la fiabilité de deux façons. Cela nous procure une redondance au niveau du fournisseur, de sorte qu'un ralentissement ou une limitation de débit sur une route n'affecte pas automatiquement le client. Et cela nous offre une plus grande flexibilité au niveau régional et en matière d'infrastructure que lorsqu'on utilise un seul chemin. Du côté de l'intégration, une fois qu'un modèle est configuré, l'ajout d'une nouvelle version est simple. Nous mettons à jour le nom du modèle, définissons des paramètres pour les nouvelles fonctionnalités comme la réflexion étendue, et nous sommes opérationnels.

Claude Platform a-t-elle récemment fourni des capacités qui vous ont impressionné ?

Clara Park : l'outil de conseil dans Claude a été lancé le mois dernier. Un modèle plus rapide et moins coûteux gère le travail du début à la fin. Lorsque le système détecte quelque chose de trop complexe à résoudre seul, il s'arrête, consulte Opus, obtient un plan ou une correction et continue. Opus n'intervient que dans les moments difficiles, pas pour chaque réponse.

C'était exactement ce que nous essayions de créer nous-mêmes. Pour les tâches plus légères, vous n'avez pas besoin d'Opus à chaque tour. Mais pour les requêtes vraiment complexes, vous avez besoin de cette capacité de raisonnement, et nous voulions un système capable de faire automatiquement la différence. Cela résout le problème précis que nous visions.

Quelle est la suite ? Où l'équipe compte-t-elle en venir ?

Clara Park : la plus importante est ce que nous appelons Zero-Touch Improvement, qui est vraiment l'IA améliorant l'IA : l'agent apprend en permanence, les clients peuvent voir ce qui ne va pas et pourquoi, et les corrections ont lieu sans intervention humaine. Aujourd'hui, ils doivent venir vers nous pour diagnostiquer et déployer un correctif. Nous voulons qu'ils s'en approprien eux-mêmes.

La voix est l'autre axe de développement, où la latence n'est pas seulement une mesure, c'est le produit. Un léger retard rompt l'impression d'une véritable conversation.

Enfin, il y a la Memory. La plupart des agents du marché commencent encore chaque conversation à partir de zéro. Lorsqu'un client revient, l'agent doit déjà connaître son historique et ce qui a été résolu. C'est le passage d'une interaction de support à une relation avec la marque.

Suivant

Légende de la vidéo
Suivant

Précédent
Suivant