Pratham, Claude를 활용해 인도 전역 수천 명의 학생에게 맞춤형 평가 피드백 제공

업종:

성공적인 도입 사례

회사 규모:

대기업

제품:

Claude Platform

위치:

India

1,500명 이상의 학생 평가

인도 전역의 20개 학교

30% → 80% 채점 정확도 향상

Anthropic과의 반복적인 프롬프트 엔지니어링을 통해 달성

비디오 캡션

Pratham은 세계 최대 규모의 비영리 교육단체 중 하나입니다. 30년 전 인도에서 설립된 이 단체는 기초 문해력 교육부터 직업 훈련에 이르기까지 다양한 프로그램을 통해 매년 수백만 명의 아동에게 교육의 기회를 제공하고 있습니다. Pratham의 교육 방식은 MIT J-PAL의 연구를 포함해, 10건 이상의 무작위대조시험에서 그 효과가 검증되었습니다. 세계은행 또한 Pratham 모델을 전 세계에서 가장 효과적인 교육 투자 중 하나로 인정한 바 있습니다. 현재 Pratham의 프로그램은 인도의 거의 모든 주에서 운영되고 있으며, 전 세계 30개국 이상에 도입되었습니다.

Claude를 통해 Pratham은 다음과 같은 성과를 달성했습니다:

20개 학교에서 1,500건 이상의 학생 평가 완료
Anthropic과의 반복적인 프롬프트 엔지니어링을 통해 채점 정확도를 30%에서 80%로 향상
'블룸의 택소노미'에 부합하는 문제 생성에서 90%의 정확도 달성 — '블룸의 택소노미'는 기초적인 사실 암기부터 복잡한 고차원적 사고력까지 전 영역을 평가하는 보편적 교육 프레임워크입니다.

과제: 수천 개의 연습 시험, 그러나 개별 피드백의 부재

인도 전역의 교실에서 이루어지는 평가는 대개 학생들에게 결과만 알려줄 뿐, 개선 방향까지 제시해 주는 경우는 흔치 않습니다. 60명 이상의 학생을 관리하는 교사는 각 연습 시험에 대해 개별적인 피드백을 제공할 시간이 거의 없으며, 이러한 피드백이 가장 절실한 자원 부족 학교 및 지역사회의 학생들일수록 이런 혜택을 누릴 가능성은 낮습니다. 필요한 정보는 이미 학생들의 답안 속에 존재하지만, 이를 학생들이 실제로 활용할 수 있도록 풀어내는 것이 문제입니다.

Pratham은 지난 30년간 바로 이러한 간극을 메우는 데 집중해 왔습니다. 하지만 대규모로 영향력을 발휘해 온 Pratham도 끊임없이 근본적인 한계에 직면했습니다. 학생들에게 충분한 반복 학습과 피드백을 제공하려면 방대한 양의 연습 시험을 채점해야 하지만, 이를 감당할 인력은 늘 부족했던 것입니다.

이러한 한계는 Pratham의 Second Chance 프로그램에서 더욱 극명하게 드러났습니다. 이 프로그램은 학교를 중퇴한 젊은 여성들이 인도의 '10학년 졸업시험'을 준비할 수 있도록 지원합니다. 이 자격은 대부분의 직장에서 요구하는 조건입니다. 이 프로그램은 전문 교사의 지도를 받기 어려운 여성들을 대상으로 합니다. Pratham의 기술 혁신 디렉터이자 MIT Media Lab의 방문 과학자인 Nishant Baghel은 이렇게 말했습니다. "수많은 답안을 일일이 채점할 인력이 없다 보니, 이 여성들은 충분히 문제를 풀어보고 연습할 기회조차 얻지 못했습니다." 병목 구간은 커리큘럼도, 학습 의지도 아니었습니다. 원인은 채점에 있었습니다.

Pratham은 이미 Second Chance 프로그램에 ATM 시스템을 도입해, 인도 6개 주에서 4,000명이 넘는 학습자에게 약 8,000건의 자동 채점 서비스를 제공한 상태였습니다. 하지만 이 시스템은 확장하기가 어려웠습니다. 채점의 일관성이 떨어질 수 있었고, 교육과정별 기준을 토대로 정확도를 체계적으로 측정할 방법이 없었습니다.

솔루션: 실제 교육 현장에 최적화된 자동 평가 및 피드백 엔진 설계

Pratham은 이러한 한계를 극복하고자 Claude를 기반으로 ATM(Anytime Testing Machine)을 개발했습니다. Claude를 활용해 교육과정에 부합하는 문항을 생성하고, 학생들의 수기 답안을 디지털화하며, 구조화된 루브릭에 따라 채점하고, 맞춤형 피드백까지 제공하는 엔드투엔드 연습 평가 시스템입니다. 이 시스템은 Pratham이 실제로 활동하는 환경을 고려해 설계되었습니다. 학생들이 종이에 직접 답안을 쓰고 사진을 찍어 올리면, 시스템이 해당 이미지를 텍스트로 변환한 후, Claude가 내용, 정확성, 표현력의 측면에서 답안을 평가합니다.

Pratham은 여러 모델을 대상으로 평가를 실시한 뒤 Claude를 선택했습니다. Pratham의 AI 리드 Sravana Chandra는 "Claude는 문항 생성, 생성된 문항의 품질 검수, 채점, 피드백 등 작업 전반에서 일관되게 우수한 성능을 보였습니다."라고 말했습니다. "이와 함께 Anthropic이 안전성과 책임 있는 AI에 중점을 두고 있다는 점도 다른 LLM이 아닌 Claude를 선택하는 데 중요한 요인으로 작용했습니다."

두 팀의 협력은 매우 긴밀하게 진행되었습니다. Anthropic과 Pratham 팀은 수개월 동안 매주 한두 차례 미팅을 갖고, 단순한 모델 통합을 넘어 파이프라인의 각 단계를 정교하게 조정했습니다. 초기 채점 정확도는 전문가 채점 벤치마크 대비 30% 수준에 불과했지만, 프롬프트를 반복적으로 정교화하고 평가 설계를 개선한 결과 이를 약 80%까지 끌어올릴 수 있었습니다. Chandra는 다음과 같이 설명했습니다. "우리는 LLM-as-a-judge 프레임워크를 도입하고, 교과 전문가들이 직접 검수한 모범 답안 세트를 기준으로 삼아 모델의 평가 결과를 벤치마킹했습니다."

피드백 생성 측면에서 Claude의 다국어 처리 능력은 핵심적인 강점이었습니다. Chandra는 다음과 같이 말했습니다. "Claude는 뛰어난 언어 처리 능력을 바탕으로 힌디어와 영어가 섞인 피드백도 수월하게 생성할 수 있었습니다. 대부분의 텍스트는 힌디어로 유지하되 과학 용어처럼 필요한 경우에는 영어를 사용하는 식으로요."

접근 방식: 교사를 중심에 두기

이 시스템의 핵심 설계 원칙은, 학생이 AI 생성 피드백을 전달받기 전에 교사가 이를 검토하고 수정할 수 있어야 한다는 것이었습니다. 이는 AI가 교실에 도입될 때 교사의 역할은 축소되는 것이 아니라 오히려 더욱 중요해진다는 Pratham의 신념을 반영합니다.

현장 교사들의 반응은 이 신념이 옳았음을 증명하고 있습니다. 교사들은 채점 자동화 덕분에 행정 업무의 부담을 덜고, 맞춤형 지도에 더 집중할 수 있게 되었다고 말합니다. "교사들은 학생에게 전달될 AI 피드백을 검증하는 최종 평가자이기 때문에, 오히려 스스로의 역할이 더욱 강화되었다고 체감합니다."라고 Chandra는 덧붙였습니다. 이 시스템은 역량을 배가하는 역할을 합니다. 교사의 판단을 대신하는 것이 아니라, 더 나은 정보를 제공하여 교사의 판단을 지원합니다.

학생들에게 이 변화는 점수만을 의미하지 않습니다. 존엄성을 찾는 과정이기도 합니다. 아무런 설명 없이 점수만 받는 방식은 학생들을 낙담시키기 쉽습니다. 하지만 Claude의 피드백은 학습자에게 개선 가능한 부분을 구체적으로 알려줍니다. 학생들은 왜 틀렸는지 모른 채 오답 처리를 받아들이는 대신, 놓친 개념에 대한 구체적인 설명과 함께 다음 학습 방향에 대한 명확한 안내를 받게 됩니다.

"우리의 초점은 사람의 역할에 있습니다."라고 Baghel은 말합니다. "우리의 질문은 'AI가 교사를 대신해 무엇을 할 수 있는가'가 아닙니다. 그보다 '교사와 학생이 한계에 부딪힌 바로 그 지점에서 AI는 어떻게 돌파구가 되어줄 수 있는가'를 고민합니다."

결과: 6개 주의 학습자들에게 맞춤형 피드백 제공

이제 Claude 기반의 ATM은 글로벌 교육 프레임워크인 '블룸의 택소노미' 기준을 90% 수준까지 충족하는 문항을 생성합니다. 채점 측면에서도 루브릭 기반 평가 시 과목 전문가의 수준과 비교해 약 80%의 일치율을 보입니다. Claude 기반 시스템은 20개 학교에서 1,500건 이상의 학생 평가를 완료했으며, 향후 인도 전역 수십만 명의 학생으로 규모를 확대할 계획입니다. 이와 별도로, Second Chance 프로그램 역시 2026년 말까지 전체 시스템을 Claude 기반 파이프라인으로 전환할 예정입니다. 이 프로그램은 현재 10학년 졸업시험을 준비 중인 15,000명의 여성을 대상으로 운영되고 있습니다.

Pratham의 공동 창립자인 Madhav Chavan은 "Claude와 같은 AI 도구는 고급 교육 자원을 접하기 어려운 학생들을 위해 새로운 학습 방식을 구상할 수 있는 길을 열어줍니다."라고 말했습니다. "ATM 혁신의 가치는 단순히 교과서 이해를 돕는 맞춤형 지원에 머물지 않습니다. 이 시스템은 아이들이 교과서 너머의 지식을 스스로 검증하고 확인할 수 있는 역량을 길러줄 것입니다."

다음 단계: 교육 시스템의 전환

Chavan은 평가를 더 큰 변화의 시작점으로 바라보며, 학생들이 정해진 교과과정에 얽매이지 않고 관심 있는 어떤 주제에 대해서든 평가를 받고, 해당 지식에 대한 인증을 받을 수 있는 시스템을 구상하고 있습니다.

Chavan은 다음과 같이 강조했습니다. "교과과정에 맞춰 질문하는 대신, 아이들이 무엇을 알고 있는지 먼저 물어야 합니다." "이렇게 관점을 전환하면, 교육 시스템 또한 필터링 메커니즘에서 벗어나, 아이의 관심사와 배경지식을 토대로 최적의 경로를 제안하는 구조로 바뀔 수 있습니다. AI 기술이 등장하기 전에는 불가능했던 일입니다."

파트너십은 이미 확장되고 있습니다. Anthropic은 Pratham의 AI 기반 교사 지원 시스템인 Tech in TaRL(Teaching at the Right Level) 이니셔티브를 지원할 예정입니다. 수천 명의 학생을 대상으로 무작위대조시험이 계획되어 있습니다. 또한 두 조직은 교육용 디지털 공공 인프라(지식 그래프 포함)를 구축하고, 케냐, 르완다 등 글로벌 사우스 전역의 지역사회로 협력 범위를 넓히는 방안을 모색 중입니다. Pratham의 3개년 목표는 비선형 경로에서 획득한 역량까지 인증할 수 있는 학습 및 인증 엔진으로 ATM을 발전시켜, 전 세계 학습자에게 제공하는 것입니다.

"Claude와 같은 AI 도구는 고급 교육 자원을 접하기 어려운 학생들을 위해 새로운 학습 방식을 구상할 수 있는 길을 열어줍니다."

Madhav Chavan

Pratham International 공동 창립자