대학수학능력시험의 안정적 등급 산출을 위한 요건 탐색
Received: Apr 12, 2006 ; Revised: May 15, 2006 ; Accepted: May 24, 2006
Published Online: Jun 30, 2006
교육인적자원부가 발표한 2008 대입개선안에 따르면, 2008학년도 대학수학능력시험(수능)부터 다른 점수 형태는 제공되지 않고, 영역/과목별 등급만 제공하게 된다. 현행 수능에서는 등급 이외에 표준점수, 백분위가 함께 제공되어, 상호보완적 역할을 하고 있다. 그러나 2008학년도부터 수능의 점수 체제가 등급제로 전환됨에 따라, 각 영역/과목별 뿐 아니라 영역/과목 간 균형있는 등급 점수의 산출이 무엇보다도 중요한 문제로 대두되었다. 본 연구는 2008학년도 등급제 실시에 앞서, 영역/과목별 안정적 등급 산출을 위한 조건을 탐색하기 위한 것이다. 연구의 목적을 달성하기 위하여, 첫째, 원점수, 선형 표준점수, 정규화 표준점수 등 세 가지의 검사 점수 유형에 따른 등급 산출 결과를 비교하였다. 둘째, 문항 난이도에 따른 등급 산출 결과를 비교하였다. 분석 결과, 원점수, 정수화된 선형 표준점수 및 정규화 표준점수 분포를 이용하여 등급 비율을 산출했을 때, 상대적으로 점수의 가지 수가 많은 언어, 수리, 외국어(영어) 영역의 경우는 검사 점수 유형에 따른 등급별 비율에 큰 차이가 없는 것으로 나타났다. 반면 탐구 및 제2외국어/한문 영역의 선택과목과 같이 점수 가지 수가 적은 시험에서는 가능한 모든 점수 가지 수를 살린 분포, 즉 원점수 분포를 이용하여 등급 점수를 산출하는 것이 가장 안정적인 것으로 나타났다. 문항 난이도와 등급 비율간의 관계에서는 쉬운 문항, 중간 수준 문항, 어려운 문항 등 다양한 수준의 난이도를 갖는 검사에서 등급 비율이 안정적으로 산출되었다. 결론적으로 현행 등급 체제에서 안정적 등급 산출을 위해서는 가능한 한 원점수 분포를 그대로 사용하고, 문항 난이도의 수준이 고르게 나올 수 있도록 출제 과정을 강화하는 것이 주요 요건이라 할 수 있다. 그러나 특히 문항 수가 적은 선택과목의 경우, 문항의 난이도가 고르게 분포되도록 출제하는 것은 현실적으로 쉬운 문제는 아니다. 따라서 안정적 등급 산출을 위해서는 중․장기적으로 선택과목의 통합․조정을 통해 시험과목의 수를 축소하고 문항 수를 확대하는 방향으로 시험 체제를 개선하는 노력이 이루어져야 할 것이다.
While current CSAT(College Scholastic Ability Test) score reporting includes percentiles and standardized scores as well as stanines, Minister of Education and Human Resource announced that only stanine score will be reported from 2008 school year CSAT. The purpose of this study is to evaluate several conditions for stable stanines. To complete this goal, we compared stanine proportions according to raw scores, linear standardized scores and normalized standard scores. Also we analyzed effects of item difficulties on stanine scores. We found that there were not much differences of stanine proportions in Korean Language, Mathematics and Foreign Language (English) whether we used raw scores, linear standardized scores or normalized standard scores. But raw scores made stanines more stable in Social Studies/Science/Vocational Education and Foreign Languages/Chinese Characters and Classics since raw scores had more score points compared with linear standardized scores and normalized standard scores. Also we found that stanines approached target proportions when a test included various item difficulty levels(i.e., difficult, moderately difficult and easy). In sum, CSAT stanine scales would be stable when a test consists of various levels of item difficulty and raw scores are used for the final scaling. But this suggestion may not be feasible when a test includes a relatively few items (i.e., 20 items for Social Studies). So it needs to be considered to increase the number of items by combining similar subjects in future.