
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Delight.ai entwickelt KI-Agenten für den Kundensupport auf der Grundlage der Messaging-, Sprach- und Videoinfrastruktur von Sendbird, die 7 Milliarden Gespräche monatlich für Unternehmen bearbeitet. Mit Claude als primärem Modell löst sein KI-Concierge komplexe Interaktionen mit hohem Risiko in den Bereichen Einzelhandel, Reisen, B2B SaaS und Marktplätzen, die zuvor eine menschliche Eskalation erforderten.
Wir haben uns mit Clara Park getroffen, einer Software-Engineerin im KI/ML-Team von Sendbird. Mit Claude Code entwickelt sie das interne Tooling, das den Agenten jedes Kunden produktionsbereit macht.
Clara Park, Sendbird: Wir setzen KI-Agenten für Unternehmen wie Mixpanel und On-Demand-Dienste in den Bereichen Einzelhandel und Reisen ein und bearbeiten ein hohes Gesprächsaufkommen rund um Abonnementänderungen, Bestellsupport und jene Randfälle, die früher an einen Menschen weitergeleitet wurden. Claude ist eines der Hauptmodelle, die diese Agenten antreiben. Im KI/ML-Team verwenden wir Claude Code auch zur Entwicklung der internen Tools, mit denen jede Delight-KI-Bereitstellung produktionsbereit gemacht wird. Wir haben so gut wie unseren gesamten Workflow für Debugging und Regressionstests auf Claude Code entwickelt. Damit können wir Agenten in großem Maßstab testen und Probleme erkennen, bevor sie Kunden erreichen, was vorher nicht ging.
Park: Gespräche mit KI-Agenten sind nie perfekt, und Fehler wie eine falsche Preisgestaltung oder falsche rechtliche Formulierungen würden eine sofortige Behebung erfordern. Nachdem ein Agent in die Produktion gegangen war, dauerte es etwa eine Woche, um Probleme zu beheben, zu testen und bereitzustellen. Jetzt dauert es nur noch maximal ein bis zwei Tage. Die Woche bestand hauptsächlich aus manueller Arbeit. Jeder KI-Ingenieur hatte sein eigenes Python-Notebook für die Erstellung von Testgesprächen und deren Kennzeichnung, was ineffizient war. Nachdem wir alles in ein Tool integriert hatten, das alle Ingenieure nutzen, sank die Zeit. Wenn wir jetzt eine Konversation in der Produktion mit Problemen sehen, können wir sie direkt beheben.
Seit der Einführung von Claude Code im November haben sich die Anzahl der wöchentlichen Pull-Requests und die Anzahl der PR-Zusammenführungen etwa verdoppelt. Anfang November hatten wir pro Woche etwa 700 PRs erstellt und 600 zusammengeführt; bis Mai waren es annähernd 1,6K PRs erstellt und 1,3K zusammengeführt pro Woche. Dies entspricht auch der Zunahme der Token-Nutzung von Claude Code.
Park: Zu Beginn waren unsere Agenten einfache RAG-Chatbots. Dann ging die Branche in eine Ära der Deflection über, in der es darum ging, Tickets von menschlichen Agenten fernzuhalten, wobei KI die einfachen Probleme löste. Da die Modelle beim Tool-Aufruf, längerem Kontext und dem Durchdenken mehrstufiger Probleme besser wurden, entwickelten sich unsere Agenten dahin, den gesamten Lebenszyklus einer Anfrage abzudecken. Ein Kunde möchte zum Beispiel seinen Tarif ändern, stellt fest, dass ihm im letzten Monat zu viel berechnet wurde, und möchte seine Zahlungsmethode aktualisieren. Der Agent erledigt alle drei in einem Gespräch.
Anthropic: Sie führen eine Multimodell-Architektur aus. Wie entscheiden Sie, welches Modell was übernimmt?
Park: Unterschiedliche Aufgaben haben unterschiedliche Kriterien. Während der Support-Gespräche ergreifen wir Sicherheitsmaßnahmen gegen Prompt-Injection, z. B. wenn jemand fälschlicherweise behauptet, dass eine kostenpflichtige Mitgliedschaft kostenlos ist. Nach dem Ende des Gesprächs führen wir einen separaten Analyse-Durchlauf durch: Themen werden klassifiziert, die Stimmung analysiert und auf Halluzinationen überprüft.
Die Kompromisse variieren je nach Aufgabe. Die Zusammenfassung muss schnell erstellt werden. Die Halluzinationserkennung kann es sich leisten, langsamer zu sein, aber die Genauigkeit ist hier wichtiger. Wir führen ein internes Testset, das aus realen Beispielen für die Verhaltensweisen besteht, auf die wir Wert legen: Halluzinationen, Handhabung außerhalb des Anwendungsbereichs und Grenzfälle bei der Absichtsklassifizierung. Wir verwenden das Modell, das bei einer bestimmten Aufgabe die beste Leistung bietet.
Park: Die Analyse von Konversationen in der Produktionsumgebung ist eine wirklich komplexe Arbeit. Als Engineering-Team gruppieren wir Probleme nach Themen in Tausenden von Gesprächen und entwickeln dann Korrekturvorschläge. Keine einmaligen Patches, sondern allgemeine Verbesserungen, die der Kunde umsetzen kann. Diese Ausgabe geht direkt an den Kunden, also muss es richtig sein. Wir haben zuerst kostengünstigere Modelle getestet. Sie produzierten sich wiederholende Labels und brachten kleinere Probleme immer wieder ans Licht, während sie die kritischen übersahen. Für eine mehrstufige Pipeline wie diese (Clustering, Synthese, Empfehlung), deren Ergebnis das ist, was der Kunde sieht und danach handelt, brauchten wir ein Modell, das alles zusammenhält. Aus diesem Grund verwenden wir Opus 4.8.
Park: Der erste ist ein Konversations-Debugger. Wenn ein Agent ein Problem in der Produktion hat, ruft das Tool das Gesprächsprotokoll ab, zeigt den System-Prompt an und stellt uns das erwartete und das tatsächliche Verhalten nebeneinander gegenüber. Diese Analyse führen wir durch Opus durch, um festzustellen, wo das Problem behoben werden muss. Der zweite ist unser Tool für Regressionstests. Sie geben ihm eine Benutzer-Persona und ein Szenario zum Testen, und es generiert automatisch Gespräche und führt sie in großem Umfang aus. Wir verwenden es, um den Agenten jedes Kunden zu validieren, bevor er in die Produktion geht. Danach überprüft das eigene QS-Team des Kunden alles und gibt uns die Genehmigung für die Auslieferung.
Park: Volumen, vor allem. Zuvor konnte ich ein oder zwei Tickets pro Tag bearbeiten. Jetzt kann ich etwas an Claude Code übergeben, mich zurückziehen und wiederkommen, wenn es fertig ist. Es hat auch meine Herangehensweise an Architekturentscheidungen verändert. Früher habe ich diese direkt an meinen Vorgesetzten oder einen leitenden Entwickler weitergegeben. Jetzt gehe ich sie zuerst mit Claude Code durch und beginne das Gespräch mit den Optionen, die bereits auf dem Tisch liegen. Das war wirklich nützlich.
Park: Wir führen Claude auf Amazon Bedrock und der direkten Anthropic API als Peer-Routen aus. Ein interner Proxy wählt pro Anfrage zwischen ihnen aus, basierend auf Echtzeitlatenz, Fehlerraten und Kapazität. Welcher Weg auch immer schneller und sauberer antwortet, erhält die Anfrage. Ratenlimit-Fehler sind für uns kritisch: Kunden kaufen einen KI-Agenten ausdrücklich, weil sie Support rund um die Uhr wünschen, sodass jede Lücke ein Produktfehler ist.
Bedrock ist wertvoll, da es uns eine zusätzliche unternehmenstaugliche Infrastruktur, regionale Flexibilität, Compliance-Anpassung für einige Kunden und einen weiteren Kapazitätspfad für Zuverlässigkeit bietet.
Die Ausführung beider Pfade verbessert die Zuverlässigkeit in zweifacher Hinsicht. Das bietet uns eine Redundanz auf Anbieterebene, sodass eine Verlangsamung oder Drosselung auf einer Route den Kunden nicht automatisch erreicht. Und das bietet uns mehr regionale und infrastrukturelle Flexibilität, als wenn wir auf einem einzigen Pfad arbeiten würden. Auf der Integrationsseite ist nach der Einrichtung eines Modells das Hinzufügen einer neuen Version unkompliziert. Wir aktualisieren den Modellnamen, legen Parameter für neue Funktionen wie erweitertes Denken fest und schon läuft es.
Park: Das Beratungstool in Claude wurde letzten Monat eingeführt. Ein schnelleres und günstigeres Modell erledigt die Arbeit von Anfang bis Ende. Wenn es auf etwas stößt, das zu komplex ist, um es selbst zu lösen, pausiert es, konsultiert Opus, erhält einen Plan oder eine Korrektur und geht weiter. Opus greift nur in schwierigen Momenten ein, nicht für jede Antwort.
Genau das wollten wir selbst entwickeln. Für einfachere Aufgaben benötigen Sie Opus nicht bei jedem Schritt. Aber für wirklich komplexe Abfragen braucht man diese Denkkraft, und wir wollten ein System, das den Unterschied automatisch erkennen kann. Es löst genau das Problem, das wir angehen wollten.
Park: Die größte Verbesserung ist das, was wir Zero-Touch-Verbesserung nennen, bei der wirklich KI die KI verbessert: Der Agent lernt kontinuierlich dazu, die Kunden können sehen, was schief läuft und warum, und die Korrekturen erfolgen ohne einen Menschen im Prozess. Heute müssen sie uns zur Diagnose und zur Bereitstellung einer Korrektur kontaktieren. Wir möchten, dass sie dies selbst verantworten.
Sprache ist der andere Push, bei dem die Latenz nicht nur eine Kennzahl ist, sondern das Produkt. Eine kleine Verzögerung unterbricht das Gefühl eines echten Gesprächs.
Schließlich gibt es Memory. Die meisten Agenten auf dem Markt beginnen jedes Gespräch immer noch bei Null. Wenn ein Kunde zurückkommt, sollte der Mitarbeiter bereits die Historie des Kunden kennen und wissen, was gelöst wurde. Das ist der Wechsel von einer Support-Interaktion zu einer Beziehung zur Marke.