AI 기반 성적 인플레이션: 높은 점수가 오히려 학습 부족을 의미할 수 있는 이유

학계에 생성형 AI가 급격히 통합되면서 학생들의 성적이 크게 급등하고 있으나, 새로운 연구에 따르면 이러한 추세는 인지 능력의 향상이 아닌 '외주화된 노동'을 반영하는 것으로 나타났다. A학점 분포가 상향 이동함에 따라, 교육자와 업계 리더들은 학업 자격과 실제 역량이 분리될 수 있는 "기술 퇴화(skill atrophy)"의 위험을 경고하고 있다.

성적 급등의 데이터적 근거

연구원 이고르 치리코프(Igor Chirikov)가 2018년부터 2025년까지 84개 학과의 319개 강의를 추적 조사한 종합 연구 결과, 학업 성취도에서 놀라운 추세가 발견되었다. 2022년 11월 ChatGPT 출시 이후, A학점의 비중은 13%포인트 급증했으며, 이는 2022년 기준치보다 약 30% 높은 수치다. 이러한 변화로 인해 평균 GPA는 0.12점 상승했으며, 전체적인 성적 분포는 크게 좁아졌다.

이 연구는 이러한 인플레이션이 모든 학문에 균등하게 나타나지 않는다는 점을 강조한다. 대신, "AI 노출도"가 높은 강의, 특히 글쓰기와 코딩 과제가 많이 포함된 강의에서 가장 두드러지게 나타났다. 흥력롭게도 데이터에 따르면 A- 또는 B+ 학점이 빈번하게 A학점으로 "상향 조정"되고 있으며, 이는 평가 과정에서 체계적인 상향 편향이 발생하고 있음을 시사한다.

과제 vs. 감독 하의 시험: 결정적 증거

이번 연구의 가장 핵심적인 발견은 이러한 성적 상승이 어디에서 발생하는가에 있다. 만약 AI가 실제로 학습을 향상시키고 있다면, 모든 평가 유형에서 성적 향상이 관찰되어야 한다. 그러나 데이터는 성적 인플레이션과 감독되지 않는 과제 사이에 명확한 상관관계가 있음을 보여준다.

과제가 최종 성적에서 중간값 이상의 비중을 차지하는 강의의 경우, AI 노출도가 비슷하더라도 과제 비중이 낮은 강의에 비해 A학점이 16%포인트 추가로 상승했다. 반면, 감독 하의 시험이나 구술 발표에 의존하는 강의(AI의 활용도가 현저히 낮은 분야)에서는 성적이 안정적으로 유지되었다. 이는 성적 급등이 진정한 교육적 성과를 반영하는 것이 아니라, 학생들이 감독되지 않는 과제를 수행하기 위해 AI를 사용한 직접적인 결과임을 시사한다.

학업적 신호 기능과 비판적 사고의 침식

수십 년 동안 하버드와 같은 기관에서는 성적 인플레이션이 우려 사항이었다. 하버드의 경우 A학점 비율이 2005년 24%에서 2025년 60% 이상으로 상승했다. 그러나 치리코프는 AI가 근본적으로 다른 문제를 야기한다고 주장한다. 과거의 인플레이션 요인이 채점 단계에서 발생했다면, AI는 생산 단계를 변화시켜 교수자가 결과물을 확인하기도 전에 작업이 만들어지는 방식 자체를 바꾸어 놓는다.

이는 광범위한 기술 및 전문직 분야에 두 가지 주요 위험을 초래한다:

  1. 자격 증명의 가치 하락: 코딩 및 글쓰기 비중이 높은 강의의 성적이 인간의 기술이 아닌 AI의 결과물을 반영한다면, 고용주와 대학원 과정은 정확한 선발 결정을 내리는 데 어려움을 겪게 될 것이다.
  2. 기술 퇴화: OpenAI의 CEO 샘 알트만(Sam Altman)은 체계적인 교육적 변화가 없다면 비판적 사고 능력이 "심각하게 퇴화"할 위험이 있다고 경고했다. 학생들이 글쓰기나 프로그래밍처럼 사고력을 훈련하는 핵심 과제들을 외주화한다면, 졸업 시점에 자신이 사용하는 도구를 숙달하는 데 필요한 근본적인 논리력을 갖추지 못할 수 있다.

핵심 요약

  • 감독되지 않는 과제와의 상관관계: 성적 인플레이션은 과제 비중이 높은 강의에서 가장 공격적으로 나타나며, 이는 AI가 학습을 보조하기보다는 우회하는 용도로 사용되고 있음을 시사한다.
  • 특정 분야의 취약성: LLM의 높은 숙련도로 인해 글쓰기와 코딩 비중이 높은 커리큘럼이 "외주화된" 성적 인플레이션의 가장 큰 위험에 처해 있다.
  • 신호 기능의 위기: 이러한 변화는 학업 성적과 실제 기술 수준을 분리할 위험이 있으며, 잠재적으로 복잡한 문제 해결에 필요한 기초적인 비판적 사고력이 결여된 인력을 양성할 수 있다.