Shortcut이 Opus 4.6을 활용해 엔터프라이즈의 복잡한 스프레드시트 작업을 처리하는 방법

Claude 사용해 보기
도입 문의
업종:
소프트웨어
회사 규모:
소기업
제품
Claude Platform
위치:
북아메리카
100,000명 이상의 사용자
Shortcut은 소비자 앱에서 1,000개 이상의 기업을 지원하는 규모로 확대되었습니다
벤치마크 정확도 7.29에서 8.08로 향상
Opus 4.6으로 전환한 후 프롬프트 변경 없이 10점 만점 중 10점
Introducing Claude Opus 4.6

We’re upgrading our smartest model. The new Claude Opus 4.6 improves on its predecessor’s coding skills. It plans more carefully, sustains agentic tasks for longer, and features a 1M token context window.

자세히 보기
Introducing Claude Opus 4.6
다음

We’re upgrading our smartest model. The new Claude Opus 4.6 improves on its predecessor’s coding skills. It plans more carefully, sustains agentic tasks for longer, and features a 1M token context window.

비디오 캡션
다음
Introducing Claude Opus 4.6

We’re upgrading our smartest model. The new Claude Opus 4.6 improves on its predecessor’s coding skills. It plans more carefully, sustains agentic tasks for longer, and features a 1M token context window.

자세히 보기
다음

비디오 캡션
다음

이전
다음

Fundamental Research Labs는 2년 된 리서치 랩으로, 더욱 인간에 가까운 AI를 구축하는 데 주력하고 있습니다. 첫 상업용 제품인 Shortcut은 Excel, Google Sheets는 물론 독립형 웹 및 데스크톱 앱에서도 작동하는 AI 기반 스프레드시트 도구입니다.

Claude와 함께, Fundamental Research Labs는 다음과 같은 성과를 달성했습니다.

  • 프롬프트 변경 없이 Opus 4.6으로 전환한 후 벤치마크 정확도가 10점 만점에 7.29에서 8.08로 향상되었습니다.
  • 2026년 1월에 플랫폼을 통해 약 5,000억 개의 토큰 처리
  • 소비자, 광고 대행사, 헤지 펀드, 경영 컨설팅 회사 등 1,000개 이상의 기업에서 10만 명 이상의 사용자
  • 사용자들은 재무 모델 구축, 데이터 추출, 수식 검토 등의 작업에서 하루의 많은 시간을 절약하고 있다고 보고합니다.
  • 복잡한 멀티 시트 워크북을 분석하기 위해 10개 이상의 Claude 서브에이전트를 동시에 실행하는 멀티 에이전트 아키텍처

과제: 스프레드시트에 AI가 작동하도록 만들기

AI 에이전트에게 스프레드시트 작업은 보기보다 훨씬 복잡합니다. 하나의 재무 모델은 여러 시트에서 수십만 개의 관련 셀을 포함할 수 있으며, 코딩 에이전트가 작업을 수행하는 데 제공되는 일반적인 구조적 틀이 부족합니다. Fundamental 리서치 랩에서 Shortcut을 이끌고 있는 니코 크리스티는 이전에 금융 컨설팅 업계에서 일했는데, 팀이 하나의 모델을 반복적으로 검토하는 데 몇 주를 투자한 뒤 고객의 승인을 받곤 했습니다. 크리스티는 "이제 코딩과 마찬가지로 스프레드시트에도 AI가 도입되고 있습니다"라고 말했습니다.

이 작업에는 문서에서의 데이터 추출, 상호 연결된 셀 전반에서의 수식 생성, 오류 탐지, 모델 감사가 포함됩니다. 이러한 모델을 마무리하거나 감사하는 작업은 정확성과 시트가 서로 어떻게 관련되어 있는지에 대한 이해가 필요합니다.

Fundamental 리서치 랩은 검증 가능한 정확한 답변이 있는 현실적이고 어려운 Excel 문제를 통해 AI 성능을 측정하는 벤치마킹 인프라를 구축했습니다. 처음 Shortcut이라는 제품을 출시했을 때, 테스트한 최고의 모델은 10점 만점에 4~5.5점 사이의 점수를 받았습니다. 크리스티는 다른 모델 제공업체를 사용했을 때는 작업이 약 70% 실패했다고 보고했습니다.

스프레드시트 복잡성을 위한 Claude 선택

벤치마크 파이프라인을 기준으로 여러 모델 제공업체를 테스트한 뒤, Claude는 Shortcut의 유일한 실제 운영 환경 모델이 되었습니다.

이번 선택의 핵심 요소는 Claude가 적응하는 데 거의 어려움이 없었다는 점이었습니다. 다른 모델은 모델별 동작을 해결하기 위해 여러 차례의 프롬프트 엔지니어링과 벤치마킹이 필요했습니다. Opus로 교체하는 데는 아무것도 필요하지 않았습니다. "우리가 해야 할 Claude 전용 프롬프팅은 거의 없습니다."라고 크리스티는 말했습니다.

이후 Claude가 출시될 때마다 이 결정은 더욱 확고해졌습니다. Anthropic이 2월 Opus 4.6을 출시했을 때, 점수는 10점 만점에 7.29점에서 8.08점으로 상승했습니다.

"획기적인 개선이었습니다."라고 크리스티는 말했습니다. "불가능했던 어려운 작업이 가능해졌습니다. 중간 수준의 작업이 쉬워졌습니다. 쉬운 작업은 그야말로 완전히 포화 상태였습니다. 코딩에서와 마찬가지로 완전한 변화였습니다."

결과: 복잡한 작업을 위한 멀티 에이전트 아키텍처

Shortcut의 아키텍처는 멀티 에이전트 패턴에서 Claude를 사용합니다. 사용자가 Shortcut에게 복잡한 통합 문서 감사를 요청하면, 시스템은 Claude Code가 작동하는 방식과 유사하게 여러 Claude 서브에이전트가 각 시트를 병렬로 탐색하도록 설정합니다. 10개 시트로 구성된 재무 모델의 경우, 6~10개의 에이전트가 동시에 실행되어 각 에이전트가 서로 다른 탭에서 오류, 구조적 문제, 누락된 데이터를 분석하는 것을 의미할 수 있습니다. 이러한 에이전트는 컨텍스트를 수집하고 결과를 메인 에이전트에 다시 전달합니다.

변경 사항을 실행하기 전에 시스템은 계획 모드로 전환되며, Claude는 워크북을 검토하고, 문제를 식별하며, 명확히 하기 위한 질문을 합니다. 계획이 승인되면, Shortcut은 새로운 Claude 에이전트에게 실행을 넘기며, 이를 통해 실행 컨텍스트를 깔끔하고 집중된 상태로 유지합니다.

미래를 향하여

각 Claude 모델 업그레이드는 엔지니어링 작업 없이도 Shortcut에 측정 가능한 성과를 가져다주었습니다. 크리스티의 경우, 이 패턴은 팀이 로드맵에 대해 생각하는 방식을 형성합니다. Claude의 기능이 향상되면, Shortcut이 사용자에게 제공할 수 있는 것도 향상됩니다.

크리스티는 "Excel은 약 10억 명의 사람들이 사용하고 있으며, 스프레드시트는 20억 명이 사용하고 있습니다"라고 말했습니다. "Shortcut의 사명은 우리가 Claude를 사용할 때 느끼는 감정을 전 세계 10억 명의 Spreadsheet 사용자에게 전달하는 것입니다."

"Shortcut의 사명은 저희가 Claude를 사용할 때 느끼는 감정을 전 세계 10억 명의 스프레드시트 사용자에게 전달하는 것입니다."
니코 크리스티
Fundamental 리서치 랩의 공동 창업자

다음

비디오 캡션
다음

이전
다음