業界標準の 70% に対するコンプライアンス率
業界標準の 70% に対するコンプライアンス率
業界標準の 70% に対するコンプライアンス率
業界標準の 70% に対するコンプライアンス率
Emergent は、会話するように簡単にソフトウェアを構築できる AI プラットフォームです。同社は、クラウドベースの開発環境で稼働する自律型コーディングエージェントを開発しました。エージェントはコードの記述、データベースの管理、デプロイの処理、問題のデバッグを人間の介入なしに行います。
Emergent は、コーディングを障壁として取り除くことでソフトウェア創造の民主化を目指しました。同社のカスタマー—MVP を構築する創業者、社内ツールを作成するプロダクトマネージャー、業界ソリューションを開発するドメイン専門家、業務を自動化する中小企業—は通常月額 25~50 ドルで、従来なら開発費用 50,000 ドル以上かかるアプリケーションを構築しています。
「私たちはこれまで 3 つの人生を歩んできました」と、Emergent の CEO 兼共同創業者である Mukund Jha 氏は述べています。同社は当初、AI を活用した QA テスト製品を構築しました。Web アプリケーションをナビゲートし、インターフェースを理解し、機能を検証できるエージェントです。そして Y Combinator の初日に気づきました。AI がアプリケーションをテストできるほど理解できるなら、なぜ構築できないのかと。
即座に方向転換しました。バージョン2は、SWE ベンチマークでトップを獲得し Devin のスコアを上回ったエンタープライズ向けコーディングエージェントでした。しかし、エンタープライズ営業サイクルによりフィードバックが数か月単位に遅れました。1 月に再度方向転換し、今度はコンシューマー向けにエージェントを Web プラットフォームにパッケージ化し、誰でもすぐに構築を開始できるようにしました。
しかし、3 つの重大な技術的課題に直面しました。モデルは同じセッション内で指示を忘れ、フォーマット要件を指定しても数分後には無視することがありました。また、「残りは同じ」というコメント付きの部分的なコードを書き、実際の開発には使えない出力を生成しました。最も問題だったのは、エージェントが数百のターミナルコマンドを実行する必要があるのに、モデルが正しい構文とパラメーターの順序を維持できないことでした。
Emergent はあらゆるものをテストしました。主要なプロプライエタリモデル、オープンソースの選択肢、すべてを試しました。Claude は最も重要な側面で大幅に優れていることが証明されました。
一度与えられた指示はプロジェクト全体を通じて一貫していました。コマンド実行はツール呼び出し構文とマルチステップワークフローで高い精度を示しました。モデルは 500 行以上の完全なコードファイルを切り捨てなく一貫して生成しました。
「API 統合はスムーズで、2 日以内に本番環境で稼働しました」と Jha 氏は述べています。
Claude は Emergent のプラットフォームの 5 つのコア機能を支えています。コード生成では、Python バックエンド、JavaScript フロントエンド、データベーススキーマにわたる平均 5,000 行以上の完全なアプリケーションを生成します。マルチエージェントオーケストレーションでは、異なる Claude インスタンスが専門タスクを処理します。1つがフロントエンド、もう 1 つがバックエンドロジック、3 つ目がテスト、4 つ目がデプロイを担当します。
自律デバッグでは、Claude がスタックトレースを分析し、根本原因を特定し、人間の介入なしに修正を実装します。ビジュアルテストでは、ビジョン機能を使用して UI の機能を確認します。Claude はまた、適切な技術スタックの選定やデザインパターンの実装など、アーキテクチャの意思決定も行います。
「より大きな課題は Claude を信頼することを学ぶことでした」と Jha 氏は説明しています。「Claude を制約し、ガードレールを追加し、能力を制限したくなりました。そして気づいたのです。Claude は制約を減らすほど、より良いパフォーマンスを発揮すると。そこで仮想マシンへのフルアクセスを与えました。それが魔法の第一歩でした」
このアプローチにより、以前は不可能だった能力が解放されました。プロジェクトは、以前の 10~15 ステップに対して、100 ステップ以上のワークフローを成功裏に完了できるようになりました。エージェントは人間の介入なしに 5,000 行以上のコードベースを生成し、フロントエンドとバックエンドが分離されたフルスタックアプリケーションを構築します。WebSocket、リアルタイム更新、決済処理などの複雑な機能を処理し、エラーから自動的に復旧し自らのミスを修正します。
コンシューマーへの最終ピボットは、Claude の能力によってすべてを変えました。Emergent は6月初めに商用化しました。4 か月後、同社は 200 万人以上のユーザーとプラットフォームを通じて立ち上げられた数千の実際のビジネスとともに、ARR は 2,500 万ドルに到達しました。
従来フリーランサーに2週間かかるプロジェクトが 2 時間で構築できます。技術統合は、初期セットアップに 2 日、プロンプトの完全な最適化に1週間、Claude の能力を中心にエージェントアーキテクチャ全体を再構成するのに 2 週間かかりました。
今後、Emergent は短期的にモバイルおよびデスクトップアプリケーション機能を開発しています。中期的なプロジェクトには、ユーザーが口頭でアプリケーションを説明しながら Emergent がリアルタイムで構築する音声コーディングや、ユーザーが問題箇所を指し示してエージェントに修正させる画面共有機能が含まれます。
同社は Anthropic と本番環境のパフォーマンスベンチマーク、マルチエージェントオーケストレーションパターン、ロングコンテキスト最適化、実世界の信頼性指標について協力しています。Emergent のテスト・評価データは Anthropic が本番アプリケーションを理解するのに役立ち、モデルの改善はプラットフォームの能力を直接向上させます。
「私たちの共通の目標は、技術的なバックグラウンドに関係なく、必要なものを説明できる誰もがソフトウェア開発にアクセスできるようにすることです」と Jha 氏は述べています。