
2026학년도 수능 영어가 ‘역대 최저’ 1등급 비율(3.11%)을 기록하며 난이도 조절 실패 논란이 커지자, 교육부가 영어 출제 체계 전반을 손질하고 생성형 인공지능(AI) 기반 ‘영어 지문 생성’ 지원 시스템을 도입하겠다고 밝혔다. 목표는 단순한 자동화가 아니라, 반복되는 난이도 논란을 줄이고 출제·검토의 품질과 속도를 동시에 끌어올리는 ‘출제 공정(工程)의 재설계’다.
교육부 조사에 따르면 이번 영어 영역은 출제 과정에서 19문항이 교체됐고, 이 과정이 난이도 점검 등 후속 검증 절차를 연쇄적으로 흔들었다는 게 핵심 진단이다. 다른 영역(국어 1문항, 수학 4문항)과 비교해도 교체 폭이 컸다. 교육부는 무작위 추출 방식으로 출제위원을 뽑는 과정에서 역량 검증이 충분치 않았던 점도 원인으로 들었다.
교육부가 밝힌 방향은 ‘AI가 출제한다’가 아니라 AI가 지문 생성과 검증을 보조하고, 최종 책임은 사람이 지는 구조다. 구체적으로 교육부는 2026년 하반기부터 시스템 개발에 착수하고, 2028학년도 모의평가에서 AI 기반 영어 지문 생성 시스템을 시범 운영하겠다고 했다.

교육부 구상에서 눈에 띄는 대목은 ‘지문 생성’이 출발점이라는 점이다. 장기적으로는 난이도 예측, 기출·사교육 유사문항 검색, 중복 검토 자동화 등으로 기능을 넓히겠다고 밝혔다. 즉, 사람의 감(感)에 기대던 난이도 관리와 유사문항 검증을 ‘데이터 기반’으로 바꾸겠다는 뜻이다.
수능은 대표적인 고보안(High-stakes) 시험이다. 교육부도 인터넷과 연결되지 않는 폐쇄형 독립 서버 체계를 언급하며 유출 우려를 선제 차단하겠다고 했다. 다만 현장에서 요구되는 수준은 단순 ‘망 분리’ 이상의 문제다.
AI가 만들거나 참고한 문장이 외부 데이터와 유사해지는 저작권·출처 논란, 모델이 특정 주제·표현을 선호하는 편향(바이어스), 생성 과정의 기록과 책임 소재를 남기는 감사 가능성(추적성)까지 제도 설계가 따라붙어야 한다. 교육부 역시 생성형 AI의 환각(할루시네이션) 문제를 들어 “보조 역할”을 전제로 했다.
해외 고위험 시험 시장에서 AI는 이미 오래전부터 채점·피드백 자동화 영역에서 상용화가 진행돼 왔다. ETS는 e-rater가 AI와 자연어처리(NLP)를 활용해 에세이를 평가하고 피드백을 제공한다고 명시한다.
또 Pearson은 PTE에서 책임 있는 AI(responsible AI)와 언어평가 전문성을 결합해 빠르고 공정한 채점을 강조한다.
반면 한국이 이번에 꺼내든 카드는 ‘채점’이 아니라 영어 지문 생성·검증 공정 자체의 자동화다. 성공한다면 “출제 인력의 합숙·보안·운영 부담”을 줄이면서도 품질을 균질화할 수 있다는 계산이 깔려 있다. 다만 그만큼 시스템 신뢰성·투명성 요구도 커진다.

교육부는 영어 출제에서 교사 출제위원 비중을 33%→50% 수준으로 확대하기로 했다. AI를 들이더라도 결국 마지막 안전핀은 사람이며, 특히 수업·평가 현장의 감각을 가진 교사의 역할을 강화하겠다는 메시지다. AI 도입이 ‘사람 대체’가 아니라 사람의 시간을 “창작→검증·조정”으로 이동시키는 방향으로 설계될지, 이 지점이 실제 성패를 가를 가능성이 높다.
첫째, 출제 기준의 일관성이다. AI가 만든 문장을 사람이 다듬는 과정에서 기준이 흔들리면 ‘AI 도입’의 명분이 퇴색한다.
둘째, 검증 로그(기록)와 책임 구조다. 문제가 발생했을 때 “누가 어떤 근거로 통과시켰는지”를 남기는 체계가 신뢰의 출발선이다.
셋째, 사교육 유사문항 탐지의 공정성이다. AI 검색이 강해질수록 “무엇을 유사로 볼 것인가” 기준이 더 중요해진다.
교육부는 중장기적으로 2030년 ‘교육평가·출제지원센터’ 설립까지 내걸었다. 출제의 기술과 제도를 함께 바꾸겠다는 선언이다. 다만 ‘AI가 만들었다’는 사실 자체가 혁신이 아니라, 그 결과물이 수험생과 학교 현장에 예측 가능성과 납득 가능성을 제공할 때 비로소 제도가 된다.