
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.

Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Build innovative AI applications with safer systems from Anthropic, supported by secure infrastructure from AWS.
Sendbird は Claude を活用して AI カスタマーサポートエージェントを構築し、4,000 社以上のグローバルカスタマーに対して正確性、信頼性、コンプライアンスを維持しながら大量のサポート会話を自動化することを可能にしています。
Claude により、Sendbird は以下を実現しました。
Sendbird は 4,000 社以上のグローバル企業のコミュニケーション基盤となり、月間 70 億件以上の会話がプラットフォームを通じて処理されています。カスタマーの期待が全チャネルでの即時かつパーソナライズされたサポートを求めるように進化するにつれ、Sendbird は従来のコンタクトセンターではそのペースに追いつけないことを認識しました。
AI の機会は明白でしたが、リスクも同様でした。初期の実験では、ほとんどの AI モデルが自信を持って不正確な応答を生成し、ブランドの信頼性とコンプライアンスを危険にさらすことが判明しました。Sendbird はエンタープライズの信頼性を犠牲にすることなく、インテリジェントな自動化を必要としていました。
Claude をプラットフォームに統合することで、Sendbird は自動化のスケールと人間レベルの正確性を兼ね備えた AI エージェントを提供しています。このソリューションはルーティンの問い合わせを自動処理し、複雑な問題はエスカレーションすることで、企業が任意のスケールで即時かつ高品質なサポートを提供できるようにしています。
Sendbird の評価プロセスは、カスタマーサポートに適切なトーンを維持しながら、指示に確実に従いハルシネーションを制限できる AI モデルを見つけることに重点を置いていました。複数のモデルにわたる広範なテストの結果、Claude は明らかに競合を上回りました。
「指示への忠実性とハルシネーションの制限が重要な特性でした」と Sendbird の CTO である Jin Ku 氏は述べています。「また、サポート環境でユーザーに適切にサービスを提供するために、親切で、忍耐強く、共感力のある特性を持つモデルが必要でした」
結果は明白でした。Ku 氏は「競合のモデルでは 30% の勝率しか達成できませんでした。Claude はプロンプトの最適化なしで90% の勝率を達成しました。これらの結果はナレッジコンテキストを削減しても一貫しており、本当に驚くべきものでした」と説明します。
Claude は大規模なプロンプトエンジニアリングを必要とせずに優れたパフォーマンスを発揮しました。Sendbird チームは統合体験が非常にスムーズで、優れたドキュメントと Anthropic からの迅速なサポートを受けたと評価しています。AWS を通じた Claude のエンタープライズグレードのセキュリティも決定を強化し、最大のエンタープライズカスタマーの厳格なコンプライアンス要件を満たすことができました。
Sendbird は Claude を使用して、エンタープライズカスタマーコミュニケーションを大規模に処理する AI エージェントを構築しています。これらのエージェントは複数のチャネルにわたるフロントラインサポートシステムとして機能し、以下の重要な利点を提供します。
このプラットフォームはライブ会話中の複雑な情報処理に優れています。Ku は「Claude は大量の非構造化データをリアルタイムで分析します。数百ページの技術ドキュメントを処理し、アップロードされた資料がコンプライアンス基準を満たしているかどうかを即座に判断できます。これらすべてを会話の流れを維持しながら実行します」と述べています。
この機能は AI サポートを根本的に変えています。Sendbird のクライアントにとって、以前は人間の介入が必要だった問い合わせを AI エージェントが自信を持って処理できるようになり、ブランド基準を維持しながら効率を劇的に向上させるシームレスなカスタマー体験を実現しています。
Sendbird の Claude 搭載プラットフォームは、エンタープライズクライアントのカスタマーサポートを革新し、測定可能なビジネスインパクトとユーザー体験の向上を実現しました。AI の正確性向上は、オペレーションとカスタマー満足度を変革しています。
「Claude により、以前の AI ソリューションと比較して正確性が大幅に向上し、クライアントにより高品質なインタラクションを提供しています」と Ku は述べています。「この改善により、ユーザーは AI サポートをより快適に感じ、より高い CSAT 評価を与え、人間の介入なしにより多くの問題を解決できるようになりました。」
Lotte Homeshopping はこれらのメリットを実証しています。Sendbird のソリューションの導入により、問い合わせの30〜40% が AI にリダイレクトされ、24時間365日のサポートが可能になり、満足度が向上しました。「いくつかのプロバイダーをテストしましたが、Anthropic の Claude を搭載した Sendbird を見つけるまで満足できませんでした」と Lotte Homeshopping の AI 推進チームの Oh Ju-young は説明します。「その正確性と柔軟性が私たちの課題を克服してくれました。」
Claude の優れたコンプライアンス機能により、エンタープライズクライアントのリスク認識も低減し、Sendbird のカスタマーベース全体での AI 導入が加速し、企業が自信を持って AI サポートを採用できるようになりました。
Sendbird は、カスタマーサービスを事後対応型の問題解決から戦略的なビジネス推進力へと再定義しています。「カスタマーのニーズを予測し、満足度を大規模に向上させるプロアクティブな AI エージェントを構築しています」と Ku は述べています。
このビジョンは、カスタマーサービスをコストセンターから収益源へと変革するものです。Ku は「Claude により、サポートの会話にパーソナライズされたクロスセルの機会を統合し、これらの信頼のあるタッチポイントを活用してカスタマーバリューを拡大しています」と説明します。
Sendbird は Anthropic との協業を通じて、エンタープライズコミュニケーションプラットフォームに強力なマルチモーダル AI 機能を提供しています。Claude をすべてのカスタマータッチポイントに統合することで、AI がカスタマーへのコミュニケーションを真に改善する未来を構築しています。その結果、業務効率と永続的なロイヤルティを構築する人間味の両方を提供する、デジタルコネクションの新しい基準が生まれています。
Park: Early on, our agents were plain RAG chatbots. Then the industry moved into a deflection era, where the goal was keeping tickets away from human agents, with AI resolving the simple ones. As models got better at tool calling, longer context, and reasoning through multi-step problems, our agents evolved to covering the full lifecycle of a request. For example, a customer comes in to change their plan, realizes they were overcharged last month, and wants to update their payment method. The agent handles all three in one conversation.
Anthropic: You're running a multi-model architecture. How do you decide which model handles what?
Park: Different tasks have different criteria. During support conversations, we run safeguards against prompt injection, like someone falsely claiming a paid membership is free, for example. After the conversation ends, we run a separate analytics pass: classifying topics, analyzing sentiment, and checking for hallucinations.
The tradeoffs shift depending on the task. Summary generation needs to be fast. Hallucination detection can afford to be slower, but accuracy matters more there. We maintain an internal test set built from real examples of the behaviors we care about: hallucinations, out-of-scope handling, and intent classification edge cases. Whichever model performs best on a given task is what we use.
Park: Analyzing production conversations is genuinely complex work. As an engineering team, we cluster issues by topic across thousands of conversations, then generate suggested fixes. Not one-off patches, but general improvements the customer can act on. That output goes directly to the customer, so it has to be right. We tested lower-cost models first. They produced repetitive labels and kept surfacing minor issues while missing the critical ones. For a multi-step pipeline like that (cluster, synthesize, recommend) where the result is what the customer sees and acts on, we needed a model that could hold the whole thing together. That's why we use Opus 4.8.
Park: The first is a conversation debugger. When an agent has a problem in production, the tool fetches the conversation log, surfaces the system prompt, and shows us expected versus actual behavior side by side. We run that analysis through Opus to pinpoint where to fix it. The second is our regression testing tool. You give it a user persona and a scenario to test, and it automatically generates conversations and runs them at scale. We use it to validate every customer's agent before it goes into production. After that, the customer's own QA team runs through it and gives us the go-ahead to ship.
Park: Volume, mostly. Before, I could get through one or two tickets a day. Now I can hand something off to Claude Code, step away, and come back when it's done. It's also changed how I approach architectural decisions. I used to take those straight to my manager or a senior engineer. Now I work through them with Claude Code first and come to the conversation with options already on the table. That's been genuinely useful.
Park: We run Claude on Amazon Bedrock and the direct Anthropic API as peer routes. An internal proxy picks between them per request based on real-time latency, error rates, and capacity. Whichever path is responding faster and cleaner gets the request. Rate limit errors are critical for us: customers buy an AI agent specifically because they want 24/7 support, so any gap there is a product failure.
Bedrock is valuable because it gives us additional enterprise-ready infrastructure, regional flexibility, compliance alignment for some customers, and another capacity path for reliability.
Running both paths improves reliability in two ways. It gives us provider-level redundancy, so a slowdown or throttling event on one route doesn't automatically reach the customer. And it gives us more regional and infrastructure flexibility than running on a single path. On the integration side, once a model is set up, adding a new version is straightforward. We update the model name, set parameters for new features like extended thinking, and we're running.
Park: The advisor tool in Claude launched last month. A faster, cheaper model handles the work from start to finish. When it hits something too complex to figure out on its own, it pauses, consults Opus, gets a plan or a correction, and keeps going. Opus only steps in at the hard moments, not for every response.
That was exactly what we were trying to build ourselves. For lighter tasks, you don't need Opus on every turn. But for genuinely complex queries, you need that reasoning power, and we wanted a system that could tell the difference automatically. It solves the exact problem we were going after.
Park: The biggest is what we call Zero-Touch Improvement, which is really AI improving AI: the agent learns continuously, customers can see what's going wrong and why, and fixes happen without a human in the loop. Today they have to come to us to diagnose and deploy a fix. We want them to own that themselves.
Voice is the other push, where latency isn't just a metric, it's the product. A small delay breaks the feeling of a real conversation.
Finally, there’s memory. Most agents in the market still start every conversation from zero. When a customer comes back, the agent should already know their history and what's been resolved. That's the shift from a support interaction to a relationship with the brand.