Graphite, Claude로 코드 검토 속도 40배 향상

산업:

소프트웨어

기업 규모:

중소기업

제품:

Claude Platform

위치:

북아메리카

800배 더 빠른 분석 속도

3주 분량의 분석을 35분에 완료

인간 수준

인간 수준의 벤치마크 성능

Video caption

현대적인 엔드투엔드 개발자 플랫폼인 Graphite는 Claude를 활용하여 버그를 발견하고 수정 사항을 제안하는 AI 코드 리뷰어를 구동하며, Snowflake, Asana, Ramp 등의 기업 엔지니어링 팀이 소프트웨어를 개발하는 방식을 혁신하고 있습니다.

Claude를 활용하여 Graphite가 이루어낸 성과:

풀 리퀘스트 피드백 주기 1시간에서 90초로 40배 단축
긍정적인 AI 생성 코멘트 피드백률 96%
제안된 변경 사항 적용률 67%
고객 기반 전반에 걸쳐 수십만 건의 풀 리퀘스트 지원

현대적 코드 리뷰 확장의 과제

코드 리뷰는 현대 소프트웨어 개발에서 핵심적인 병목 구간입니다. Google과 Facebook 같은 빅테크 기업은 이 과정을 관리할 정교한 내부 도구를 보유하고 있지만, 대부분의 엔지니어링 팀은 기본적인 GitHub 워크플로우에 어려움을 겪고 있습니다. Graphite의 공동 창업자 Tomas Reimers는 "개발 도구 분야의 공공연한 비밀은 거의 모든 기업이 팀을 위해 GitHub 위에 도구를 구축한다는 것입니다"라고 말합니다.

적절한 도구 없는 개발자들은 점점 더 많은 지연을 겪습니다. 피드백을 받기까지 몇 시간 또는 며칠을 기다린 후, 수정과 재검토라는 시간이 많이 소요되는 또 다른 과정을 반복합니다. 2023년 초, Graphite는 선진적인 개발 팀들의 반복된 요청에 따라 AI 기반 코드 검토를 탐색했습니다. 그러나 초기 실험 결과는 실망스러웠습니다. Reimers는 "모델이 환각 현상을 일으켜 풀 리퀘스트에 존재하지 않는 문제를 당당히 지적하곤 했죠. 봇이 틀렸음에도 구체적인 진술을 생성할 때면 사람들은 좌절했습니다."라고 말합니다. 팀에는 높은 정확도를 유지하면서도 인간 수준의 코드 이해력를 보여줄 수 있는 무언가가 필요했습니다.

뛰어난 코드 이해력 때문에 선택한 Claude

Graphite는 주요 AI 모델들을 테스트한 끝에, Claude만이 코드 검토 기준을 충족한다는 것을 발견했습니다. 팀은 경험 많은 엔지니어도 발견하기 어려워 한 알려진 버그를 포함한 합성 및 실제 사례 500건의 풀 리퀘스트를 대상으로 하는 엄격한 평가 프레임워크로 모델을 테스트했습니다. Graphite의 AI 리드 엔지니어인 Alyssa Baum은 "Claude는 코드 이해에 특히 뛰어났습니다. 코드 검토에서 매우 중요한 부분이죠"라고 말합니다.

Claude 3.5 Sonnet의 출시는 결정적인 돌파구가 되었습니다. Baum은 "평가 성능이 급상승했을 뿐만 아니라, 우리가 버그인지도 몰랐던 테스트 데이터셋의 버그까지 찾아냈습니다"라고 말합니다. A/B 테스트를 통해 팀은 Claude의 뛰어난 성능을 확인했습니다. "Claude 3.5가 출시되었을 때 시스템에 즉시 적용했더니 사용자 성능이 라웠습니다."

Anthropic과의 파트너십은 이러한 기술적 이점을 한층 더 강화했습니다. Anthropic 팀은 전용 Slack 채널을 통해 평가 프레임워크와 구현 전략에 대한 중요한 가이드를 제공했습니다. 2024년 10월 Graphite 출시 당시 예상치 못한 수요가 발생했을 때, Anthropic은 고객 수요를 충족할 수 있도록 속도 제한을 신속하게 확장해 주었습니다. Reimers는 "Anthropic 팀으로부터 큰 도움을 받았습니다. 평가 체계와 코드를 어떻게 구성해야 하는지에 대한 조언이 참 유익했죠"라고 덧붙였습니다

고급 AI 아키텍처를 통한 코드 검토 혁신

Graphite의 구현 방식은 Claude의 정교한 추론력과 효과적인 코드 검토에 대한 깊은 전문성을 결합합니다. 아키텍처는 복잡한 코드 분석을 개별 단계로 나누어 Claude가 각 특정 작업에서 뛰어난 성능을 발휘할 수 있도록 합니다. 시스템은 투표, 추론 체인, 자기 비판 등 다양한 검증 계층을 활용하여 고품질 코멘트만 개발자에게 전달되도록 합니다.

플랫폼은 주관적 제안이 아닌 객관적 버그에 집중하여 다음과 같은 문제를 처리합니다.

함수 매개변수 순서 오류
복사 및 붙여넣기 실수
보안 취약점
논리 불일치
모범 사례 위반

문제가 식별되면 시스템이 자동으로 수정 제안을 생성하여 개발자가 클릭 한 번으로 적용할 수 있게 하여, 기존의 수정 후 검토 주기 시간을 단축합니다.

개발 팀에 측정 가능한 성과 제공

Graphite의 AI 기반 접근 방식은 고객의 개발 워크플로우를 혁신했습니다. The Browser Company의 Brian Michel은 "Graphite Reviewer는 문제를 보여주면서도 번거롭지 않게 하는 좋은 균형을 유지합니다. 다른 AI 도구와 다르게 실제로 작동하기도 하고요. 더 빠르게 반복하고 작업할 수 있는 결과물을 신속히 만들어낼 수 있습니다. 더 이상 혼자가 아니기 때문에 단독 개발자에게도 도움이 되죠."라고 말했습니다.

이 영향은 개별 개발자를 넘어 전체 엔지니어링 조직으로 확대됩니다. Ramp의 엔지니어링 책임자 Nik Koblov는 "Graphite는 Ramp 팀에게 혁신적인 변화를 가져다주었습니다. AI 리뷰어의 자동 코멘트가 미묘한 오류를 버그가 되기 전에 포착하여, 속도를 늦추지 않고도 품질을 유지할 수 있게 해줍니다. 전반적으로 Graphite는 우리의 워크플로우를 더 원활하고 생산적으로 만들어주었습니다."라고 말합니다.

품질과 속도를 동시에 잡은 이러한 이점은 Graphite의 고객층에서 큰 호응을 얻고 있습니다. Notion의 Ben Kraft는 "Graphite Reviewer는 놀라울 정도로 신호 대 잡음비가 높습니다. 이미 고객에게 노출되기 전에 실질적인 버그를 여럿 포착했으며, 이는 개발자 워크플로우에 매우 큰 가치를 더해줍니다"라고 말했습니다.

현재 시스템은 풀 리퀘스트 5건 중 1건에 실행 가능한 피드백을 제공하며, 이는 3건 중 1건꼴로 사람이 코멘트를 다는 업계 표준에 근접한 수치입니다. AI 제안의 67%가 실제 코드 변경으로 이어지고 96%의 긍정적 피드백률을 달성함으로써, Graphite는 AI가 기계 속도로 작동하면서 인간 수준의 코드 검토 품질을 달성할 수 있음을 보여줍니다.

AI 강화 개발의 미래를 향해

Graphite는 향후 10년 간 소프트웨어 개발이 근본적으로 바뀔 것이라 전망합니다. Reimers는 "Graphite에서는 10년 후 개인이 직접소프트웨어를 작성하지 않을 거라고 봅니다. LLM이 대부분의 코드를 작성하고, 인간은 제품을 외부 세계와 연결하며 이를 안내하거나 협력할 것입니다"라고 말했습니다.

Anthropic과의 파트너십을 통해 Graphite는 이러한 변화를 선도하고 있습니다. 시간이 많이 소요되는 검토를 자동화하고, 미묘한 버그를 포착하며, 한 번의 클릭으로 수정할 수 있게 함으로써, 개발자가 인간이 가장 잘하는 일인 소프트웨어의 미래를 빚는 고차원적 아키텍처 의사 결정에 집중할 수 있도록 합니다. Graphite와 Claude는 함께 코드 검토를 병목 구간에서 인간의 창의성과 엔지니어링 우수성을 가속하는 촉매제로 변모시키고 있습니다.

Video caption