한국어 서답형 문항 자동채점 결과 비교 분석 - 국가수준 학업성취도 평가 국어,사회,과학 문항을 중심으로 -
Received: Apr 30, 2014 ; Revised: May 29, 2014 ; Accepted: Jun 13, 2014
Published Online: Jul 31, 2014
요약
본 연구는 2013년 개발된 한국어 서답형 문항 자동채점 프로그램을 활용하여 2012년 학업성취도 평가의 초ㆍ중ㆍ고 국어, 초ㆍ중 사회/과학의 총 38문항 각 3,010개 답안을 대상으로 교과 간 문항 및 답안 유형의 차이, 교과 간 자동채점 결과의 차이를 분석하였다. 우선, 2009~2012년 학업성취도 평가 서답형 답안의 유형별 비율은 단어ㆍ구 답안이 74.7%로 가장 높았고, 문장 답안이 12%, 다문장 답안이 10.9%, 기타 답안이 2.4%를 차지하였다. 교과별로 살펴보면, 단어ㆍ구 답안(P1~P3)의 경우 사회 교과가 86.5%로 가장 높았으며, 문장 답안(P4~P6)은 국어 교과가 17.0%로 가장 높았다. 기타 답안(그래프, 선긋기 등)의 경우 과학 교과가 6.6%로 상대적으로 비율이 높았으며, 국어, 사회 교과에서는 거의 출제되지 않았다. 즉, 국어 교과에서는 술어형 단어나 구, 문장 형태의 답안을, 사회 교과에서는 내용함축적 개념어 형태의 답안을 요구하는 문항이 자주 출제되었다. 다음으로 자동채점 결과, 단어ㆍ구 수준 서답형 문항의 Kappa계수는 최소 .95 이상으로 채점 신뢰도가 매우 높게 나타났으나, 답안의 길이가 증가하고 복잡해질수록 인간채점과 자동채점 간 일치도가 떨어지는 것으로 나타났다. 채점 비율 측면에서는 국어 문항이 평균 99.73%로 가장 높았으나, 채점 신뢰도 측면에서는 사회 문항이 가장 높은 신뢰도(Kappa계수 평균 1.00)를 보여주었다. 요컨대 국어, 사회, 과학의 교과별 사용 용어 및 용례, 문항 출제 형식은 서로 다른 특징을 보이며, 이는 채점 결과에도 영향을 미쳤다. 이를 볼 때, 교과별로 지식베이스를 구축하고 이와 연계되어 차별화된 자연언어처리 및 개념 분석 기술이 정교화된다면, 현재의 단어ㆍ구 수준 자동채점 프로그램의 채점 정확성 및 효율성을 상당한 정도로 높일 수 있을 것으로 기대된다.