표 9 프롬프트 유형에 따른 세부 평가 항목별 국어과 읽기 영역 평가 문항 생성 결과 평가

문항 타당성(10) 문항 형식 평가(10) 문항 내용 평가(10)
1. 성취기준 적합성 2. 학습자 적합성 3. 문항 이해 용이성 4. 기출과 유사성 5. 정답의 명확성 6. 문항 다양성
제로샷(A) 평균 2.50 2.50 2.88 2.88 2.25 2.38
표준편차 0.93 1.20 0.64 0.64 1.04 0.92
최솟값 1 1 2 2 1 1
최댓값 4 5 4 4 4 4
퓨샷(B) 평균 3.00 3.38 3.13 3.63 3.00 3.00
표준편차 0.53 0.74 0.83 0.52 0.76 0.53
최솟값 2 3 2 3 2 2
최댓값 4 5 4 4 4 4
CoT(C) 평균 3.75 4.00 3.75 4.63 3.88 4.13
표준편차 0.71 0.76 0.71 0.52 0.83 0.83
최솟값 3 3 3 4 2 3
최댓값 5 5 5 5 5 5
F값 5.78*** 5.34** 3.03* 19.55*** 6.79*** 10.36***
사후검증(Scheffé) A<BA<CB<C A<BA<CB<C A<CB<C A<BA<CB<C A<BA<CB<C A<BA<CB<C