
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Delight.ai crée des agents d'IA pour l'assistance client en s'appuyant sur l'infrastructure de messagerie, de voix et de vidéo de Sendbird, qui gère 7 milliards de conversations mensuelles pour les entreprises. Avec Claude comme modèle principal, son concierge IA résout les interactions complexes et à haut enjeu dans les secteurs de la vente au détail, des voyages, du SaaS B2B et des places de marché qui nécessitaient auparavant une escalade humaine.
Nous nous sommes entretenus avec Clara Park, ingénieure logicielle au sein de l'équipe IA/ML de Sendbird. À l'aide de Claude Code, elle crée les outils internes qui préparent l'agent de chaque client pour la mise en production.
Clara Park, Sendbird : nous déployons des agents IA pour des entreprises comme Mixpanel et les services à la demande dans les secteurs de la vente au détail et du voyage, gérant des conversations à fort volume autour des modifications d'abonnements, de l'assistance aux commandes et des types de cas limites qui étaient auparavant transférés à un humain. Claude est l'un des principaux modèles alimentant ces agents. Concernant l'équipe IA/ML, Claude Code est également ce que nous utilisons pour créer les outils internes qui préparent chaque déploiement de Delight AI à être mis en production. Nous avons basé notre flux de travail de débogage et de tests de régression sur Claude Code. Nous pouvons tester les agents et détecter les problèmes avant qu'ils n'atteignent les clients, ce que nous ne pouvions pas faire auparavant.
Clara Park : les conversations des agents IA ne sont jamais parfaites, et des erreurs comme une tarification erronée ou un langage juridique incorrect nécessiteraient une correction immédiate. Une fois qu'un agent est en production, il nous fallait environ une semaine pour résoudre les problèmes, tester et déployer. Désormais, cela ne prend qu'un ou deux jours maximum. La semaine était principalement constituée de travail manuel. Chaque ingénieur IA avait son propre notebook Python pour générer des conversations de test et les étiqueter, ce qui était inefficace. Après avoir tout intégré en un seul outil utilisé par tous les ingénieurs, le temps nécessaire a diminué. Si nous constatons maintenant une conversation en production avec des problèmes, nous pouvons directement la corriger.
Depuis l'adoption de Claude Code en novembre, notre nombre de créations hebdomadaires de pull requests et de fusions de pull requests a plus ou moins doublé. Début novembre, nous avions environ 700 PR créées et 600 fusionnées par semaine ; en mai, nous étions plus proches de 1,6k PR créées et 1,3k fusionnées par semaine. Cela s'aligne également sur notre croissance d'utilisation des jetons Claude Code.
Clara Park : dès le début, nos agents étaient de simples chatbots RAG. Ensuite, le secteur est entré dans une ère de déflexion, où l'objectif était de garder les tickets à distance des agents humains, l'IA résolvant les tickets simples. À mesure que les modèles se sont améliorés pour les appels d'outils, la gestion de contextes plus longs et le raisonnement sur des problèmes en plusieurs étapes, nos agents ont évolué pour couvrir l'ensemble du cycle de vie d'une demande. Par exemple, un client se présente pour modifier son plan, s'aperçoit qu'il a été surfacturé le mois dernier et souhaite mettre à jour son mode de paiement. L'agent gère les trois en une seule conversation.
Anthropic : vous exécutez une architecture multi-modèles. Comment décidez-vous quel modèle gère quoi ?
Clara Park : différentes tâches ont des critères différents. Lors des conversations d'assistance, nous mettons en place des mesures de protection contre l'injection de requêtes, comme quelqu'un qui prétend à tort qu'un abonnement payant est gratuit, par exemple. Une fois la conversation terminée, nous exécutons une étape d'analyse distincte : classification des sujets, analyse des sentiments et recherche d'hallucinations.
Les compromis varient en fonction de la tâche. La génération de résumés doit être rapide. La détection des hallucinations peut se permettre d'être plus lente, mais l'exactitude est plus importante dans ce cas. Nous maintenons un ensemble de tests internes constitué d'exemples réels des comportements qui nous tiennent à cœur : hallucinations, gestion des demandes hors périmètre et cas extrêmes de classification d'intention. Le modèle qui fonctionne le mieux pour une tâche donnée est celui que nous utilisons.
Clara Park : analyser les conversations de production est un travail vraiment complexe. En tant qu'équipe d'ingénierie, nous regroupons les problèmes par sujet sur des milliers de conversations, puis générons des suggestions de correctifs. Pas de correctifs ponctuels, mais des améliorations générales sur lesquelles le client peut agir. Ce résultat est directement fourni au client, il doit donc être correct. Nous avons d'abord testé les modèles à moindre coût. Ils produisaient des étiquettes répétitives et continuaient de faire remonter des problèmes mineurs, tout en passant à côté des problèmes critiques. Pour un pipeline en plusieurs étapes comme celui-ci (regrouper, synthétiser, recommander), où le résultat est ce que le client voit et sur quoi il agit, nous avions besoin d'un modèle capable d'assurer la cohérence de l'ensemble. C'est pourquoi nous utilisons Opus 4.8.
Clara Park : le premier est un débogueur de conversation. Lorsqu'un agent a un problème en production, l'outil récupère le journal de conversation, affiche la requête système et nous indique, côte à côte, le comportement attendu et le comportement réel. Nous exécutons cette analyse via Opus pour identifier où corriger le problème. Le second est notre outil de test de régression. Vous lui donnez un persona utilisateur et un scénario à tester, et il génère automatiquement des conversations et les exécute à grande échelle. Nous l'utilisons pour valider l'agent de chaque client avant qu'il ne soit mis en production. Ensuite, la propre équipe d'assurance qualité du client l'examine et nous donne son feu vert pour la livraison.
Clara Park : volume, principalement. Avant, je pouvais traiter un ou deux tickets par jour. Désormais, je peux confier quelque chose à Claude Code, m'éloigner et revenir lorsque c'est terminé. Cela a également changé ma façon d'aborder les décisions architecturales. Auparavant, je les soumettais directement à mon responsable ou à un ingénieur senior. Désormais, je les étudie d'abord avec Claude Code, puis j'aborde la conversation avec des options déjà sur la table. Cela a été vraiment utile.
Park : nous exécutons Claude sur Amazon Bedrock et l'API directe d'Anthropic comme routes homologues. Un proxy interne sélectionne l'un d'entre eux pour chaque requête en fonction de la latence en temps réel, des taux d'erreurs et de la capacité. Le chemin qui répond le plus rapidement et le plus proprement reçoit la requête. Les erreurs de limite de débit sont critiques pour nous : les clients achètent un agent IA spécifiquement parce qu'ils souhaitent une assistance 24 h/24 et 7 j/7, donc toute interruption est un échec du produit.
Bedrock est précieux, car il nous fournit une infrastructure supplémentaire prête pour l'entreprise, une flexibilité régionale, un alignement sur la conformité pour certains clients et une autre option de capacité pour la fiabilité.
L'exécution des deux chemins améliore la fiabilité de deux façons. Cela nous procure une redondance au niveau du fournisseur, de sorte qu'un ralentissement ou une limitation de débit sur une route n'affecte pas automatiquement le client. Et cela nous offre une plus grande flexibilité au niveau régional et en matière d'infrastructure que lorsqu'on utilise un seul chemin. Du côté de l'intégration, une fois qu'un modèle est configuré, l'ajout d'une nouvelle version est simple. Nous mettons à jour le nom du modèle, définissons des paramètres pour les nouvelles fonctionnalités comme la réflexion étendue, et nous sommes opérationnels.
Clara Park : l'outil de conseil dans Claude a été lancé le mois dernier. Un modèle plus rapide et moins coûteux gère le travail du début à la fin. Lorsque le système détecte quelque chose de trop complexe à résoudre seul, il s'arrête, consulte Opus, obtient un plan ou une correction et continue. Opus n'intervient que dans les moments difficiles, pas pour chaque réponse.
C'était exactement ce que nous essayions de créer nous-mêmes. Pour les tâches plus légères, vous n'avez pas besoin d'Opus à chaque tour. Mais pour les requêtes vraiment complexes, vous avez besoin de cette capacité de raisonnement, et nous voulions un système capable de faire automatiquement la différence. Cela résout le problème précis que nous visions.
Clara Park : la plus importante est ce que nous appelons Zero-Touch Improvement, qui est vraiment l'IA améliorant l'IA : l'agent apprend en permanence, les clients peuvent voir ce qui ne va pas et pourquoi, et les corrections ont lieu sans intervention humaine. Aujourd'hui, ils doivent venir vers nous pour diagnostiquer et déployer un correctif. Nous voulons qu'ils s'en approprien eux-mêmes.
La voix est l'autre axe de développement, où la latence n'est pas seulement une mesure, c'est le produit. Un léger retard rompt l'impression d'une véritable conversation.
Enfin, il y a la Memory. La plupart des agents du marché commencent encore chaque conversation à partir de zéro. Lorsqu'un client revient, l'agent doit déjà connaître son historique et ce qui a été résolu. C'est le passage d'une interaction de support à une relation avec la marque.