Fallstudie | Claude Code

Ein Blick in das KI/ML-Team von Delight.ai: Entwicklung interner Tools mit Claude Code

Claude ausprobieren
Sales kontaktieren
Branche:
Software
Unternehmensgröße:
Startup
Produkt:
Claude Code
Partner:
AWS
Standort:
Nordamerika
1 Woche → 1–2 Tage
Zeit zur Behebung und Neubereitstellung eines Problems mit einem KI-Agent in der Produktion
Jede Kundenbereitstellung regressionsgetestet
durch von Claude Code entwickelte interne Tools
Claude on Amazon Bedrock

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Weitere Informationen
Claude on Amazon Bedrock
Next

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Video-Untertitel
Next
Claude on Amazon Bedrock

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Vorherige
Next

Delight.ai entwickelt KI-Agenten für den Kundensupport auf der Grundlage der Messaging-, Sprach- und Videoinfrastruktur von Sendbird, die 7 Milliarden Gespräche monatlich für Unternehmen bearbeitet. Mit Claude als primärem Modell löst sein KI-Concierge komplexe Interaktionen mit hohem Risiko in den Bereichen Einzelhandel, Reisen, B2B SaaS und Marktplätzen, die zuvor eine menschliche Eskalation erforderten.

Wir haben uns mit Clara Park getroffen, einer Software-Engineerin im KI/ML-Team von Sendbird. Mit Claude Code entwickelt sie das interne Tooling, das den Agenten jedes Kunden produktionsbereit macht.

Anthropic: Für alle, die Delight KI noch nicht kennen: Was macht das Produkt, und wie passt Claude Code in die Arbeit Ihres Teams?

Clara Park, Sendbird: Wir setzen KI-Agenten für Unternehmen wie Mixpanel und On-Demand-Dienste in den Bereichen Einzelhandel und Reisen ein und bearbeiten ein hohes Gesprächsaufkommen rund um Abonnementänderungen, Bestellsupport und jene Randfälle, die früher an einen Menschen weitergeleitet wurden. Claude ist eines der Hauptmodelle, die diese Agenten antreiben. Im KI/ML-Team verwenden wir Claude Code auch zur Entwicklung der internen Tools, mit denen jede Delight-KI-Bereitstellung produktionsbereit gemacht wird. Wir haben so gut wie unseren gesamten Workflow für Debugging und Regressionstests auf Claude Code entwickelt. Damit können wir Agenten in großem Maßstab testen und Probleme erkennen, bevor sie Kunden erreichen, was vorher nicht ging.

Nach dem Einsatz von Claude Code sank die Zeit zur Behebung eines Problems mit dem KI-Agenten in der Produktion von etwa einer Woche auf ein oder zwei Tage. Führen Sie uns durch, was sich geändert hat.

Park: Gespräche mit KI-Agenten sind nie perfekt, und Fehler wie eine falsche Preisgestaltung oder falsche rechtliche Formulierungen würden eine sofortige Behebung erfordern. Nachdem ein Agent in die Produktion gegangen war, dauerte es etwa eine Woche, um Probleme zu beheben, zu testen und bereitzustellen. Jetzt dauert es nur noch maximal ein bis zwei Tage. Die Woche bestand hauptsächlich aus manueller Arbeit. Jeder KI-Ingenieur hatte sein eigenes Python-Notebook für die Erstellung von Testgesprächen und deren Kennzeichnung, was ineffizient war. Nachdem wir alles in ein Tool integriert hatten, das alle Ingenieure nutzen, sank die Zeit. Wenn wir jetzt eine Konversation in der Produktion mit Problemen sehen, können wir sie direkt beheben.

Seit der Einführung von Claude Code im November haben sich die Anzahl der wöchentlichen Pull-Requests und die Anzahl der PR-Zusammenführungen etwa verdoppelt. Anfang November hatten wir pro Woche etwa 700 PRs erstellt und 600 zusammengeführt; bis Mai waren es annähernd 1,6K PRs erstellt und 1,3K zusammengeführt pro Woche. Dies entspricht auch der Zunahme der Token-Nutzung von Claude Code.

„Seit der Einführung von Claude Code im November haben sich unsere wöchentlichen Pull-Request-Erstellungen und PR-Zusammenführungen etwa verdoppelt.“
Clara Park
Software, Delight.ai

Wie hat sich der KI-Ansatz von Delight.ai weiterentwickelt, um dort zu sein, wo Sie heute sind?

Park: Zu Beginn waren unsere Agenten einfache RAG-Chatbots. Dann ging die Branche in eine Ära der Deflection über, in der es darum ging, Tickets von menschlichen Agenten fernzuhalten, wobei KI die einfachen Probleme löste. Da die Modelle beim Tool-Aufruf, längerem Kontext und dem Durchdenken mehrstufiger Probleme besser wurden, entwickelten sich unsere Agenten dahin, den gesamten Lebenszyklus einer Anfrage abzudecken. Ein Kunde möchte zum Beispiel seinen Tarif ändern, stellt fest, dass ihm im letzten Monat zu viel berechnet wurde, und möchte seine Zahlungsmethode aktualisieren. Der Agent erledigt alle drei in einem Gespräch. 

Anthropic: Sie führen eine Multimodell-Architektur aus. Wie entscheiden Sie, welches Modell was übernimmt?

Park: Unterschiedliche Aufgaben haben unterschiedliche Kriterien. Während der Support-Gespräche ergreifen wir Sicherheitsmaßnahmen gegen Prompt-Injection, z. B. wenn jemand fälschlicherweise behauptet, dass eine kostenpflichtige Mitgliedschaft kostenlos ist. Nach dem Ende des Gesprächs führen wir einen separaten Analyse-Durchlauf durch: Themen werden klassifiziert, die Stimmung analysiert und auf Halluzinationen überprüft.

Die Kompromisse variieren je nach Aufgabe. Die Zusammenfassung muss schnell erstellt werden. Die Halluzinationserkennung kann es sich leisten, langsamer zu sein, aber die Genauigkeit ist hier wichtiger. Wir führen ein internes Testset, das aus realen Beispielen für die Verhaltensweisen besteht, auf die wir Wert legen: Halluzinationen, Handhabung außerhalb des Anwendungsbereichs und Grenzfälle bei der Absichtsklassifizierung. Wir verwenden das Modell, das bei einer bestimmten Aufgabe die beste Leistung bietet.

Sie haben ein System entwickelt, das Probleme aus Produktionsgesprächen gruppiert und Kunden KI-Vorschläge darüber unterbreitet, was zu beheben ist. Warum Claude Opus für diese Arbeit?

Park: Die Analyse von Konversationen in der Produktionsumgebung ist eine wirklich komplexe Arbeit. Als Engineering-Team gruppieren wir Probleme nach Themen in Tausenden von Gesprächen und entwickeln dann Korrekturvorschläge. Keine einmaligen Patches, sondern allgemeine Verbesserungen, die der Kunde umsetzen kann. Diese Ausgabe geht direkt an den Kunden, also muss es richtig sein. Wir haben zuerst kostengünstigere Modelle getestet. Sie produzierten sich wiederholende Labels und brachten kleinere Probleme immer wieder ans Licht, während sie die kritischen übersahen. Für eine mehrstufige Pipeline wie diese (Clustering, Synthese, Empfehlung), deren Ergebnis das ist, was der Kunde sieht und danach handelt, brauchten wir ein Modell, das alles zusammenhält. Aus diesem Grund verwenden wir Opus 4.8.

Erklären Sie uns die internen Tools, die Ihr Team mit Claude Code entwickelt hat.

Park: Der erste ist ein Konversations-Debugger. Wenn ein Agent ein Problem in der Produktion hat, ruft das Tool das Gesprächsprotokoll ab, zeigt den System-Prompt an und stellt uns das erwartete und das tatsächliche Verhalten nebeneinander gegenüber. Diese Analyse führen wir durch Opus durch, um festzustellen, wo das Problem behoben werden muss. Der zweite ist unser Tool für Regressionstests. Sie geben ihm eine Benutzer-Persona und ein Szenario zum Testen, und es generiert automatisch Gespräche und führt sie in großem Umfang aus. Wir verwenden es, um den Agenten jedes Kunden zu validieren, bevor er in die Produktion geht. Danach überprüft das eigene QS-Team des Kunden alles und gibt uns die Genehmigung für die Auslieferung.

Abgesehen von den Tools, wie hat Claude Code Ihren Alltag als Entwickler verändert?

Park: Volumen, vor allem. Zuvor konnte ich ein oder zwei Tickets pro Tag bearbeiten. Jetzt kann ich etwas an Claude Code übergeben, mich zurückziehen und wiederkommen, wenn es fertig ist. Es hat auch meine Herangehensweise an Architekturentscheidungen verändert. Früher habe ich diese direkt an meinen Vorgesetzten oder einen leitenden Entwickler weitergegeben. Jetzt gehe ich sie zuerst mit Claude Code durch und beginne das Gespräch mit den Optionen, die bereits auf dem Tisch liegen. Das war wirklich nützlich.

Weitere Informationen
Next

Video-Untertitel
Next

„Wir haben so gut wie unseren gesamten Workflow für Debugging und Regressionstests auf Claude Code entwickelt. Damit können wir Agenten in großem Maßstab testen und Probleme erkennen, bevor sie Kunden erreichen, was vorher nicht ging.“
Clara Park
Softwareentwickler, Delight.ai

Wie sieht die Infrastruktur von Delight hinter den Kulissen aus?

Park: Wir führen Claude auf Amazon Bedrock und der direkten Anthropic API als Peer-Routen aus. Ein interner Proxy wählt pro Anfrage zwischen ihnen aus, basierend auf Echtzeitlatenz, Fehlerraten und Kapazität. Welcher Weg auch immer schneller und sauberer antwortet, erhält die Anfrage. Ratenlimit-Fehler sind für uns kritisch: Kunden kaufen einen KI-Agenten ausdrücklich, weil sie Support rund um die Uhr wünschen, sodass jede Lücke ein Produktfehler ist. 

Bedrock ist wertvoll, da es uns eine zusätzliche unternehmenstaugliche Infrastruktur, regionale Flexibilität, Compliance-Anpassung für einige Kunden und einen weiteren Kapazitätspfad für Zuverlässigkeit bietet.

Die Ausführung beider Pfade verbessert die Zuverlässigkeit in zweifacher Hinsicht. Das bietet uns eine Redundanz auf Anbieterebene, sodass eine Verlangsamung oder Drosselung auf einer Route den Kunden nicht automatisch erreicht. Und das bietet uns mehr regionale und infrastrukturelle Flexibilität, als wenn wir auf einem einzigen Pfad arbeiten würden. Auf der Integrationsseite ist nach der Einrichtung eines Modells das Hinzufügen einer neuen Version unkompliziert. Wir aktualisieren den Modellnamen, legen Parameter für neue Funktionen wie erweitertes Denken fest und schon läuft es.

Wurden auf der Claude Platform kürzlich Funktionen veröffentlicht, die Sie beeindruckt haben?

Park: Das Beratungstool in Claude wurde letzten Monat eingeführt. Ein schnelleres und günstigeres Modell erledigt die Arbeit von Anfang bis Ende. Wenn es auf etwas stößt, das zu komplex ist, um es selbst zu lösen, pausiert es, konsultiert Opus, erhält einen Plan oder eine Korrektur und geht weiter. Opus greift nur in schwierigen Momenten ein, nicht für jede Antwort.

Genau das wollten wir selbst entwickeln. Für einfachere Aufgaben benötigen Sie Opus nicht bei jedem Schritt. Aber für wirklich komplexe Abfragen braucht man diese Denkkraft, und wir wollten ein System, das den Unterschied automatisch erkennen kann. Es löst genau das Problem, das wir angehen wollten.

Was kommt als Nächstes? Wohin führt das Team diese Entwicklung?

Park: Die größte Verbesserung ist das, was wir Zero-Touch-Verbesserung nennen, bei der wirklich KI die KI verbessert: Der Agent lernt kontinuierlich dazu, die Kunden können sehen, was schief läuft und warum, und die Korrekturen erfolgen ohne einen Menschen im Prozess. Heute müssen sie uns zur Diagnose und zur Bereitstellung einer Korrektur kontaktieren. Wir möchten, dass sie dies selbst verantworten.

Sprache ist der andere Push, bei dem die Latenz nicht nur eine Kennzahl ist, sondern das Produkt. Eine kleine Verzögerung unterbricht das Gefühl eines echten Gesprächs.

Schließlich gibt es Memory. Die meisten Agenten auf dem Markt beginnen jedes Gespräch immer noch bei Null. Wenn ein Kunde zurückkommt, sollte der Mitarbeiter bereits die Historie des Kunden kennen und wissen, was gelöst wurde. Das ist der Wechsel von einer Support-Interaktion zu einer Beziehung zur Marke.

Next

Video-Untertitel
Next

Vorherige
Next