AIによる成績インフレ:なぜ高得点が学習不足の兆候となり得るのか

アカデミアにおける生成AIの急速な導入は、学生の成績を大幅に押し上げているが、新たな研究によれば、この傾向は認知能力の向上ではなく、作業の外注化を反映していることが示唆されている。A評価の分布が上昇するにつれ、教育者や業界のリーダーたちは、学術的な資格と実際の能力が乖離してしまう「スキルの退化(skill atrophy)」の到来に警鐘を鳴らしている。

成績急上昇の背景にあるデータ

研究者のイゴール・チリコフ(Igor Chirikov)氏による、2018年から2025年にかけて84学科の319コースを追跡した包括的な調査により、学業成績における驚くべき傾向が明らかになった。2022年11月のChatGPTリリース以降、A評価の割合は13パーセントポイント上昇し、2022年の基準値から約30%増加している。この変化により、平均GPAは0.12ポイント上昇し、全体の成績分布は著しく狭まった。

同研究は、このインフレがすべての学問分野で一様に起きているわけではないことを強調している。むしろ、「AIへの露出(AI exposure)」が高い、具体的にはライティングやコーディングの課題が多いコースで最も顕著に見られる。興味深いことに、データによればAマイナスやBプラスの成績が頻繁に「引き上げられて」純粋なA評価になっており、評価における系統的な上方へのドリフト(偏り)が示唆されている。

宿題 vs 監督付き試験:決定的な証拠

この研究の最も重要な発見は、成績の上昇が「どこで」起きているかにある。もしAIが真に学習を促進しているのであれば、成績の向上はあらゆる評価タイプで見られるはずである。しかし、データは成績インフレと「監督のない課題(unsupervised assignments)」との間に明確な相関関係があることを示している。

宿題が最終成績に占める割合が中央値よりも高いコースでは、同様のAI露出度を持つ宿題の少ないコースと比較して、A評価がさらに16パーセントポイント上昇した。対照的に、監督付き試験や口頭発表に依存するコース(AIの有用性が著しく低い分野)では、成績は安定していた。これは、成績の急増が真の教育的成果を反映したものではなく、学生が監督のない課題を完了するためにAIを利用した直接的な結果であることを示唆している。

学術的シグナリングと批判的思考の浸食

何十年もの間、ハーバード大学のような機関では成績インフレが懸念事項となっており、同校ではA評価の割合が2005年の24%から2025年までに60%以上に上昇した。しかし、チリコフ氏は、AIは根本的に異なる問題をもたらすと主張している。従来のインフレ要因は「採点段階」で発生していたが、AIは「制作段階」を変容させ、講師が課題を見る前に、成果物がどのように作成されるかそのプロセス自体を変えてしまうのである。

これは、広範なテック業界および専門職の世界において、2つの大きなリスクを生じさせる:

  1. 資格の価値低下: コーディングやライティングの比重が高いコースの成績が、人間のスキルではなくAIの出力結果を反映している場合、雇用主や大学院の選考プロセスにおいて、正確な判断を下すことが困難になる。
  2. スキルの退化: OpenAIのCEOであるサム・アルトマン氏は、教育制度の抜本的な改革が行われない限り、批判的思考能力が「著しく退化」するリスクがあると警告している。もし学生が、ライティングやプログラミングといった「思考を鍛えるための課題そのもの」を外注してしまうと、自分が使うツールを使いこなすために必要な基礎的な論理思考力を欠いたまま卒業することになりかねない。

主な要点

  • 監督のない課題との相関: 成績インフレは宿題の比重が高いコースで最も激しく、AIが学習を補完するのではなく、学習を回避するために利用されていることを示唆している。
  • 特定の脆弱性: LLMがこれらの領域で高い習熟度を持っているため、ライティングやコーディングに重点を置いたカリキュラムは、「外注型」の成績インフレのリスクが最も高い。
  • シグナリングの危機: この変化は、学術的な成績と実際のスキルレベルを乖離させる恐れがあり、複雑な問題解決に必要な基礎的な批判的思考力を欠いた労働力を生み出す可能性がある。