I. 서 론
한국은 최근 실시된 PISA(Programme for International Student Assessment) 2018에서 조사에 참여한 전체 79개국 중 읽기 영역 6~11위, 수학 영역 5~9위, 과학 영역 6~10위를 기록하며, 상위권의 인지적 성취 수준을 보였다(조성민, 구남욱, 김현정, 이소연, 이인화, 2019). 한국은 2000년부터 만 15세 청소년을 대상으로 3년 주기로 실시되는 PISA에 매번 참가하고 있으며, PISA 2000에서 PISA 2018까지 7번 시행되는 동안 순위 변화는 있었으나 지속적으로 상위의 인지적 성취 수준을 유지하고 있다. 그러나 PISA 2009 결과에서 한국의 인지적 성취의 비약적인 성장에 대한 OECD 보도 자료가 배포될 만큼 최상위 수준이었던데 비해(이은하, 최은정, 2015), 이후 점차 하락하고 있는 추세이다.
그간 국내에서는 PISA 자료를 활용한 수많은 연구가 수행되어 왔으며, 다양한 학생관련 변수와 학교관련 변수가 읽기, 수학 및 과학 성취에 영향을 미치는 것으로 밝혀졌다. 구체적으로 학생관련 변수인 학생배경 요인, 학생과정 요인, 진로관련 요인, ICT 요인(구자옥, 한정아, 김성숙, 2015; 김수혜, 2018; 김혜숙, 2012; 윤정일, 이범수, 2006; 이인화, 구남욱, 2019; 이정민, 정혜원, 2019; 정혜원, 박소영, 김정인, 김아름, 2021), 사회·환경적 요인과 학교관련 변수(구자옥 외, 2015; 김수혜, 2018; 김혜숙, 2012; 윤정일, 이범수, 2006; 정혜원 외, 2021)가 청소년의 읽기 성취, 수학 성취 또는 과학 성취에 영향을 미치는 것으로 나타났다. 그러나 PISA 자료를 활용한 대부분의 선행연구에서는 회귀분석, 구조방정식, 다층모형 등의 전통적인 통계기법을 적용해왔으며, 선행연구나 연구자가 설정한 모형에 따라 예측변수를 선택적으로 분석에 포함하였다.
이와 달리 최근에는 PISA 자료에서 포함하고 있는 많은 변수를 동시에 활용할 수 있는 머신러닝 기법을 적용해 청소년의 읽기 성취를 예측하는 주요 변수를 탐색한 연구가 시도되었다(손윤희, 박현정, 박민호, 2020; 정혜원 외, 2021). 이를 통해 청소년의 읽기 성취를 예측하는 데 주요한 변수를 확인하였으며, 선행연구에서는 상대적으로 주목받지 못한 새로운 주요 변수를 확인하였다는 점에서 머신러닝 기법의 활용 가능성이 대두되었다(손윤희 외, 2020; 정혜원 외, 2021). 그러나 이러한 선행연구들은 인지적 성취의 세 영역 중 PISA 2018의 주 영역2)인 읽기 성취만을 분석하였으며(손윤희 외, 2020; 정혜원 외, 2021), PISA 자료가 학생이 학교에 내재된 다층자료 구조이지만 다층자료의 구조를 분석 시 반영하지 못하는 전통적인 랜덤포레스트(random forest: RF) 기법을 적용하였다.
이에 본 연구는 다층자료 구조를 반영할 수 있는 혼합효과 랜덤포레스트 기법(mixed-effect random forest: MERF)(Hajjem, Bellavance & Larocque, 2014)을 소개하고, 전통적인 랜덤포레스트와 예측성과를 비교하여 PISA 2018 자료에 더 적합한 기법을 확인하고자 한다. 이후 예측성과가 더 우수한 기법을 적용하여 청소년의 읽기, 수학 및 과학 성취에 영향을 미치는 주요 예측변수를 탐색하고, 세 영역에서 공통적 또는 차별적으로 도출되는 예측변수를 확인하여 영역별 균형 있는 학습 발달을 위해 범교과적 또는 영역별 방안을 모색하고자 한다. 또한 머신러닝 기법을 적용해 도출된 주요 예측변수가 청소년의 읽기, 수학 및 과학 성취에 어떠한 영향을 미치는 지 검증하기 위해 다층모형 분석을 수행하고자 한다. 본 연구에서 설정한 연구문제는 다음과 같다.
연구문제 1. 혼합효과 랜덤포레스트와 일반적인 랜덤포레스트 간 청소년의 읽기, 수학 및 과학 성취 예측성과는 차이는 어떠한가?
연구문제 2. 청소년의 읽기, 수학 및 과학 성취에 영향을 미치는 주요 예측변수 중 영역별 공통적 또는 차별적 예측변수는 무엇인가?
연구문제 3. 주요 예측변수는 청소년의 읽기, 수학 및 과학 성취에 어떠한 영향을 미치는가?
II. 선행연구 고찰
PISA 2018에서 읽기 소양의 개념은 “자신의 목적을 성취하고 지식과 잠재적 능력을 계발하며, 사회에 참여하기 위해 텍스트를 이해·활용·평가·성찰하고, 다양한 텍스트 읽기 활동에 관여하는 능력”으로 정의되었다(조성민 외, 2019, p.39). 읽기 성취와 관련된 선행연구를 살펴보면, 청소년의 읽기 성취는 학생 또는 학교와 관련된 다양한 변수에 의해 영향을 받는 것으로 나타났다.
PISA 2018 자료를 통해 읽기 성취에 영향을 미치는 변수를 분석한 정혜원 외(2021)의 연구에서는 학생배경 요인인 가정의 ESCS, 가정에서 모국어 사용 여부가 청소년의 읽기 성취에 긍정적인 영향을 미치는 것으로 나타났다. 또한 학생과정 요인인 읽기 전략(요약, 이해 및 기억), 디지털 읽기 전략, 읽기에 대한 능력 지각, 읽기에 대한 즐거움, PISA 검사 또는 응답에 대한 노력, 다양한 읽기 활동(픽션)은 읽기 성취에 정적인 영향을 미쳤다. 반면, 학생과정 요인 중 읽기에 대한 어려움 지각, PISA 검사 어려움에 대한 인식, 총 학습시간은 부적인 영향을 미쳤다. 진로관련 요인도 청소년의 읽기 성취에 영향을 미치는 것으로 나타났는데, 학생이 기대하는 직업 지위가 높을수록, 고등학교나 대학교 또는 대학원 이상의 학력에 대한 기대는 읽기 성취를 높이는 것으로 나타났다. ICT 요인으로는 ICT에 대한 흥미는 읽기 성취에 긍정적인 영향을 미친 반면, 가정에서 사용 가능한 ICT와 학교에서 일상적인 ICT 사용은 읽기 성취에 부정적인 영향을 미치는 것으로 나타났다. 또한 학교관련 변수인 학교 분위기에 영향을 미치는 학생 행동은 읽기 성취에 부정적인 영향을 미치는 것으로 나타났다.
PISA 2015 자료를 활용한 이인화와 구남욱(2019)은 성별에 따라 읽기 성취에 차이가 있는 것으로 나타났는데, 남학생에 비해 여학생의 읽기 성취가 상대적으로 더 높은 것으로 나타났다. 또한 학생배경 요인인 가정의 ESCS도 읽기 성취에 정적인 영향을 미쳤다. 학생과정 요인인 학업적 동기와 학습 시간(국어)은 읽기 성취에 정적인 영향을 미친 반면, 사회·환경적 요인인 학교 지각은 읽기 성취에 부적인 영향을 미쳤다. 학교관련 변수 중에서는 학교 분위기에 영향을 미치는 학생 행동이 읽기 성취에 부적인 영향을 미치는 것으로 나타났다.
PISA 2009 자료를 분석한 김혜숙(2012)의 연구에서는 학생배경 요인인 성별과 가정의 ESCS에 따라 청소년의 읽기 성취에 차이가 나타났으며, 남학생에 비해 여학생이, 가정의 ESCS가 높을수록 읽기 성취가 높은 것으로 나타났다. 학생과정 요인인 읽기에 대한 즐거움과 온라인 읽기 활동은 읽기 성취에 정적인 영향을 미쳤다. 또한 ICT 요인이 읽기 성취에 영향을 미쳤는데, 학교에서 ICT 사용과 레저 목적(오락, 인터넷 등)으로의 ICT 사용은 읽기 성취에 부적인 영향을 미친 반면, 컴퓨터에 대한 태도는 읽기 성취에 정적인 영향을 미치는 것으로 나타났다. 학교관련 변인으로는 설립유형에 따라 청소년의 읽기 성취에 차이가 있었으며, 국공립에 비해 사립학교에 다니는 학생의 읽기 성취가 더 높은 것으로 나타났다.
PISA 2018에서는 PISA 2012와 동일하게 수학 소양을 정의하였으며, 수학 소양은 “다양한 맥락 속에서 수학을 형식화하고, 이용하고, 해석하는 개인적인 능력이다. 여기에는 현상을 기술하고, 설명하고, 예측하기 위해 수학적으로 추론하고 수학적 개념·절차 ·사실·도구를 사용하는 것이 포함된다. 수학 소양은 개인이 실세계에서 수학의 역할을 인식하고 건설적이고 참여적이며 반성적인 시민에게 요구되는 근거 있는 판단과 결정을 할 수 있도록 돕는다”고 하였다(조성민 외, 2019, p.87). 청소년의 수학 성취 역시 다양한 학생 및 학교와 관련된 변수에 의해 영향을 받는 것으로 나타났다.
PISA 2015 자료를 활용해 청소년의 수학 성취를 분석한 김수혜(2018)는 학생배경 요인인 부모의 교육수준이 높을수록 수학 성취가 높은 것으로 밝혔다. 학생과정 요인 중 성취동기, 학업시간, 부모의 정서적 지원은 수학 성취에 정적인 영향을 미치는 것으로 나타났다. 또한 진로관련 요인으로 직업에 대한 기대 수준이 높을수록 수학 성취가 높은 것으로 나타났다. 한편, 학교관련 변인 중 학부모가 인식하는 평균 학교교육의 질은 학생의 수학 성취에 정적인 영향을 미친 반면, 학교 평균 교사의 차별은 수학 성취에 부적인 영향을 미치는 것으로 나타났다.
PISA 2009를 활용하여 분석한 김혜숙(2012)의 연구에서도 학생배경 요인인 가정의 ESCS가 높을수록 수학 성취가 높은 것으로 나타났다. ICT 요인인 학교에서 ICT 사용과 레저 목적(오락, 인터넷 등)으로의 ICT 사용은 수학 성취에 부적인 영향을 미친 반면, 고차원 과제에 대한 자신감과 컴퓨터에 대한 태도는 수학 성취에 정적인 영향을 미치는 것으로 나타났다.
PISA 2003 자료를 활용해 수학 성취에 영향을 미치는 변수를 살펴본 윤정일과 이범수(2006)의 연구에서는 학생배경 요인인 성별에 따라 수학 성취에 차이가 있었으며, 여학생에 비해 남학생의 수학 성취가 더 높은 것으로 나타났다. 또한 가정의 ESCS와 최종 학력에 대한 기대 수준(대학교 및 대학원)은 수학 성취에 긍정적인 영향을 미쳤다. 사회·환경적 요인인 교사와 학생의 관계도 청소년의 수학 성취에 정적인 영향을 미쳤다. 학교관련 변수도 수학 성취에 영향을 미쳤는데, 학교위치, 교사부족, 학교장이 인식한 학생의 사기는 수학 성취에 긍정적인 영향을 미친 반면, 수학교사 1인당 학생 수는 수학 성취에 부정적인 영향을 미치는 것으로 나타났다.
PISA 2018에서는 PISA 2015와 마찬가지로 과학 소양을 “성찰적인 개인(시민)으로서 과학적인 사고를 발휘해 과학과 관련된 문제에 참여할 수 있는 능력”으로 개념화하였다(조성민 외, 2019, p.125). 과학 소양을 위해서는 현상에 대한 과학적인 설명, 과학 탐구의 평가와 설계, 자료와 증거에 대한 과학적인 해석 등 세 가지의 역량이 필요하다고 하였다(조성민 외, 2019). 선행연구에서 청소년의 과학 성취는 학생 또는 학교와 관련된 다양한 변수에 의해 영향을 받는 것으로 밝혀져 왔다.
PISA 2015 자료를 활용해 청소년의 과학 성취를 연구한 이정민과 정혜원(2019)의 연구에서는 학생과정 변인인 학업적 자기효능감이 과학 성취에 정적인 영향을 미치는 것으로 나타났다. 또한 사회·환경적 요인 중 교사의 관심과 지원을 높게 인식할수록 과학 성취가 높아진 반면, 수업에서 피드백을 활발히 제공할수록 오히려 청소년의 과학 성취가 낮아지는 것으로 나타났다.
PISA 2012 자료를 활용한 구자옥 외(2015)는 학생관련 변수 중 학생배경 요인인 가정의 교육자원 지표, 가정의 문화적 자산 지표가 청소년의 과학 성취에 긍정적인 영향을 미친다고 하였으며, 학생과정 요인인 방과 후 공부시간(숙제)도 과학 성취에 정적인 영향을 미쳤다. 또한 사회·환경적 요인인 학습활동에 대한 태도는 과학 성취에 정적인 영향을 미쳤으며, 학교소속감은 오히려 한국 남학생의 과학 성취에 부적인 영향을 미치는 것으로 나타났다. 이 밖에도 학교관련 변수인 학교 분위기에 영향을 미치는 학생 행동은 과학 성취에 정적인 영향을, 학교 평균 교사와 학생의 관계는 여학생의 과학 성취에만 긍정적인 영향을 미치는 것으로 나타났다.
PISA 2009를 활용하여 분석한 김혜숙(2012)은 학생배경 요인 중 가정의 ESCS가 과학 성취에 정적인 영향을 미친다고 하였다. 또한 학생과정 요인인 학습시간(과학)은 과학 성취에 정적인 영향을 미쳤다. ICT와 관련하여 학교에서 ICT 사용과 레저 목적(오락, 인터넷 등)으로의 ICT 사용은 과학 성취에 부적인 영향을 미친 반면, 고차원 과제에 대한 자신감과 컴퓨터에 대한 태도는 과학 성취에 정적인 영향을 미치는 것으로 나타났다. 학교관련 변인 중 설립유형에 따라서도 과학 성취에 차이가 나타났으며, 국공립에 비해 사립학교에 다니는 학생의 과학 성취가 더 높은 것으로 나타났다. 특히 김혜숙(2012)은 읽기, 수학, 과학 성취를 모두 분석하였는데, 영역에 따라 영향을 미치는 예측변수가 일부 상이한 결과를 보였다.
III. 연구방법
본 연구는 OECD에서 회원국과 비회원국 총 79개국의 대상으로 실시한 국제 비교자료인 PISA 2018의 한국 자료를 활용하였다. PISA 2018은 중학교 또는 고등학교에 재학하고 있는 만 15세 청소년을 대상으로 조사를 실시하였으며, 본 연구에서는 한국의 188개 학교에서 표집한 6,650명을 연구대상으로 선정하였다. 이 중 남학생은 3,459명(약 52%), 여학생은 3,191명(약 48%)이 분석에 포함되었다.
본 연구의 종속변수는 읽기, 수학 및 과학 성취로, PISA에서 각 인지적 성취 수준에 대한 평가 결과는 10개의 유의측정값(plausible values: PV)으로 제공된다. PISA의 경우 개별 학생이 모든 문항에 응답하는 것이 아니기 때문에 문항반응이론(item response theory: IRT)에 근거해 학생의 능력모수를 추정하고, 능력모수의 사후 분포로부터 임의로 10개의 값을 추출하게 된다(OECD, 2017). 이 때 유의측정값은 OECD 회원국 응시생들의 읽기, 수학 및 과학 성취 평균을 500점, 표준편차를 100점으로 척도화한 후 제공된다(OECD, 2017). 유의측정값을 분석에 활용할 때 평균을 사용하거나 한 개의 유의측정값만을 사용하게 되면 표준오차의 편의나 측정오차 등이 발생될 수 있어 10개 유의측정값을 모두 활용하는 것이 권장되고 있으므로(OECD, 2020), 본 연구는 10개의 유의측정값을 모두 이용하여 분석한 후 통합된 결과를 제시하였다.
예측변수는 PISA 2018에서 조사한 수백 개의 변수 중 분석에 활용할 수 있는 학생, 부모, 교사 및 학교와 관련된 변수를 활용하였으며, 이는 각 대상이 응답한 변수이다. 예측변수 전처리 과정 시 선행연구(정혜원 외, 2021)를 참고하여 파생변수(derived variable)를 우선적으로 포함하였다. 파생변수는 직접 관찰할 수 없는 잠재요인(예, ESCS(가정의 경제, 사회 및 문화적 배경 지표))을 측정하기 위해 결합된 변수로, 하나 또는 여러 개의 문항을 재코딩하여 변환하거나 문항반응이론을 활용해 스케일링하는 등의 방법으로 하나의 지표로 구성하게 된다(OECD, 2017). 따라서 파생변수를 생성하는 데 포함된 개별문항의 경우 분석에서 제외하였고, 파생변수 생성에 활용되지 않은 문항의 경우에는 개별문항으로 분석에 포함하였다(정혜원 외, 2021). 개별문항 중 범주형 변수의 경우 더미코딩하여 분석에 활용하였고(예, 남=0, 여=1), 교사관련 변수는 학교별 평균을 내어 활용하였다. 또한 결측이 30%를 넘는 예측변수는 분석에서 제외하였으며, 30% 미만의 결측에 대해서는 10회 대체하여 활용하였다. 결측 대체는 R 4.0.2의 mice(Ver,3.12.0) 패키지를 사용하였다(van Buuren & Groothuis-Oudshoorn, 2011).
이러한 데이터 정리 과정을 통해 총 493개의 예측변수가 분석에 활용되었으며, 구체적으로 학생관련 변수 196개, 부모관련 변수 93개, 교사관련 변수 106개, 학교관련 변수 98개가 포함되었다. 변수명과 변수 구분은 선행연구(정혜원 외, 2021; 한국교육과정평가원, 2019)를 참조하였으며, 자세한 예측변수는 다음의 <표 1>과 같다.
본 연구에서는 PISA 2018 자료가 학생이 학교에 내재된 다층자료 구조를 반영할 수 있는 혼합효과 랜덤포레스트(Hajjem et al., 2014)를 적용하였다. 본 연구에서 활용한 혼합효과 랜덤포레스트 식은 다음과 같다.
위 식(1)에서 Yij는 학교 j에 속하는 학생 개인 i에 대한 종속변수 벡터이며, Xij는 예측변수 행렬, Zj는 임의효과 예측변수의 행렬, bj는 학교수준 임의효과, eij는 학생수준 오차 벡터를 의미한다. 이 때, 본 연구에서 Zj는 [1]로 고정하였다. f(Xij)는 일반적인 랜덤포레스트(Breiman, 2001)를 통해 추정되며, bj와 eij는 상호 독립적이며 정규분포를 따르는 것으로 가정한다(Hajjem et al., 2014). 다층자료 구조를 반영할 수 있도록 전통적인 랜덤포레스트를 확장한 혼합효과 랜덤포레스트를 제시한 Hajjem 외(2014)의 연구에서는 혼합효과 랜덤포레스트의 예측력이 전통적인 랜덤포레스트에 비해 우수하였으며, 특히 상위수준의 임의효과가 클 경우에는 예측력 차이가 보다 큰 것으로 나타났다.
본 연구에서는 전체 데이터의 70%를 학습용 자료로 30%를 검증용 자료로 구분하였고, 학습용 자료로 훈련한 후, 새로운 데이터인 검증용 자료로 예측오차를 계산하였다. 또한 혼합효과 랜덤포레스트와 다층자료의 속성을 고려하지 않는 전통적인 랜덤포레스트(Breiman, 2001)를 적용해 각각 예측성과를 비교하고, 상대적으로 예측성과가 좋은 기법을 적용해 주요 예측변수를 확인하였다. 이때, 한국 청소년의 읽기, 수학 및 과학 성취 관련 주요 예측변수는 SHAP(shapley additive explanations)를 통해 나타난 변수 중요도(SHAP value 절대값의 평균)를 기준으로 판별하였다. 본 연구는 각 인지적 성취의 유의측정값(PV) 10개를 모두 활용하였기 때문에 모든 과정을 10회 반복 분석하였으며, 10회 반복 분석에서 매번 변수 중요도가 높게 도출된 변수를 주요 예측변수라 하였다.
한국 청소년의 읽기, 수학 및 과학 성취에 영향을 미치는 주요 예측변수를 확인한 후, 도출된 주요 예측변수가 세 영역에 미치는 영향을 살펴보기 위해 마찬가지로 자료의 위계적 구조를 반영할 수 있는 전통적인 방법인 다층모형 분석을 실시하였다. 다층모형은 예측변수의 투입 여부에 따라 기초모형과 연구모형으로 구분되며, 기초모형은 예측변수를 투입하지 않은 모형으로 종속변수의 학생 및 학교 분산을 구분하게 된다. 다층모형의 기초모형 식은 다음과 같다(강상진, 2016).
위에서 학생 개인(i)과 학교(j)에 대하여 Yij는 종속변수(읽기, 수학 및 과학 성취), β0j는 학교별 평균 종속변수, rij는 개인 간 분산을, γ00는 전체 종속변수 평균, u0j는 학교 간 분산을 의미한다. 기초모형에 혼합효과 랜덤포레스트를 통해 도출된 주요 예측변수를 투입한 연구모형은 다음과 같다.
연구모형에서 Xp는 학생수준 예측변수, Zq는 학교수준 예측변수, β0j는 학교별 평균 종속변수, γ00는 전체 종속변수 평균, γ0q는 학교수준 주요 예측변수의 회귀계수를 의미한다. βpj는 학교별 학생수준 예측변수의 회귀계수, γp0는 전체 학생수준 주요 예측변수 회귀계수를 의미하며, 본 연구에서는 모형의 간명성을 위해 학교 간 차이가 없다고 가정하는 무선절편(random intercept) 모형으로 분석을 실시하였다(Bryk & Raudenbush, 1992). 혼합효과 랜덤포레스트 분석과 마찬가지로 다층모형도 10개의 유의측정값을 활용해 분석을 반복한 후 통합된 결과를 도출하였다.
혼합효과 랜덤포레스트 분석에는 파이썬(Python)의 MERF(Hajjem et al., 2014) 라이브러리를, 랜덤포레스트 분석에는 파이썬의 sklearn(RandomForestRegressor) 라이브러리를 활용하였다. 다층모형 분석은 Mplus 8.3(Muthén & Muthén, 1998-2020) 프로그램을 사용하였다.
IV. 연구결과
혼합효과 랜덤포레스트와 전통적인 랜덤포레스트 간 예측오차는 평균제곱근오차(RMSE)를 통해 확인하였으며, 읽기, 수학 및 과학 성취의 10개 유의측정값을 사용하여 두 기법을 각각 10회 반복 분석한 평균 결과값을 <표 2>에 제시하였다. 그 결과, 읽기, 수학 및 과학 성취에서 모두 혼합효과 랜덤포레스트가 전통적인 랜덤포레스트보다 평균제곱근오차가 낮은 것으로 나타났다. 이에 본 연구는 상대적으로 예측성과가 우수한 혼합효과 랜덤포레스트를 통해 읽기, 수학 및 과학 성취 관련 주요 예측변수를 탐색하였다.
영역 | 혼합효과 랜덤포레스트 | 랜덤포레스트 | ||||
---|---|---|---|---|---|---|
평균제곱근오차 | 평균제곱근오차 | |||||
Mean | Min | Max | Mean | Min | Max | |
읽기 | 69.811 | 68.833 | 70.610 | 69.872 | 68.925 | 70.800 |
수학 | 69.222 | 67.946 | 70.514 | 70.675 | 69.452 | 71.771 |
과학 | 67.457 | 65.616 | 68.283 | 68.600 | 66.915 | 69.621 |
본 연구는 혼합효과 랜덤포레스트 분석을 통해 청소년의 읽기, 수학 및 과학 성취의 주요 예측변수를 탐색하였다. 주요 예측변수는 투입된 493개 예측변수의 변수 중요도를 기준으로 살펴보았으며, 각 인지적 성취의 10개 유의측정값을 모두 활용하였기 때문에 분석 과정을 10회 반복 실시한 후 10번 모두 변수 중요도가 상위 30위 안에 포함된 변수를 확인하였다. 그 결과, 읽기 성취는 23개, 수학 성취는 15개, 과학 성취는 14개가 각 영역에서 주요 예측변수로 선택되었으며, 선택된 변수를 <표 3>~<표 5>에 제시하였다. 분석에 포함된 다양한 학생, 부모, 교사 및 학교 변수 중 주요 예측변수는 부모관련 변수 1개를 제외하고 대부분 학생관련 변수가 선택되었다. 교사 및 학교관련 변수는 변수 중요도가 상대적으로 낮아 주요 예측변수로 선택되지 않았다.
분석에 포함된 493개 예측변수 중 읽기 성취 관련 주요 예측변수는 23개가 선택되었으며, 이는 <표 3>과 같다. 구체적으로 각 요인별 선택된 예측변수를 살펴보면, 학생관련 변수 중 학생배경 요인 2개, 학생과정 요인 11개, 진로관련 요인 3개, ICT 요인 6개 및 부모관련 변수 1개가 선택되었다. 학생배경 요인에서는 가정의 ‘ESCS’와 ‘가정에서 사용 가능한 ICT’가 주요 예측변수로 도출되었다. 학생과정 요인 중에서는 ‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’, ‘읽기에 대한 능력 지각’, ‘읽기에 대한 어려움 지각’, ‘읽기에 대한 즐거움’ 및 ‘온라인 읽기 활동(온라인으로 정보 탐색)’ 등과 같이 읽기와 관련된 변수가 도출되었다. 또한 PISA 검사에 대해 직접적으로 묻고 있는 ‘PISA 검사 어려움에 대한 인식’, ‘PISA 검사에 대한 노력’, ‘PISA 응답에 대한 노력’, ‘총 학습시간’이 주요 예측변수로 도출되었다. 진로관련 요인 중에는 ‘학생이 기대하는 직업 지위’, ‘미래 직업 결정에 중요한 요소(친한 친구의 미래 계획)’와 ‘직업에 대한 정보’가 선택되어 직업이나 진로와 관련된 변수가 읽기 성취의 주요 예측변수임을 확인하였다. ICT 요인 중에는 ‘ICT 사용에 대한 지각된 자율성’, ‘ICT에 대한 흥미’, ‘학교에서 사용 가능한 ICT’, ‘수업에서 과목과 관련된 ICT 사용’, ‘학교에서 일상적인 ICT 사용’ 및 ‘학교 밖에서의 ICT 사용(학교 활동 목적)’이 주요 예측변수로 도출되었다. 또한 부모관련 변수 중 ‘자녀가 10살 무렵 자료를 읽은 빈도(책)’도 주요 예측변수로 선택되었다. 이 중 ‘읽기 전략-요약’은 10회 반복 실시된 분석에서 모두 가장 주요 예측변수로 도출되었다. 다음으로 ‘PISA 검사 어려움에 대한 인식’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’, ‘읽기에 대한 능력 지각’이 10회 반복 실시한 결과에서 모두 2-4위로 나타나, 중요도 지수 상위 1-4위 변수는 매번 동일하게 도출되었다.
수학 성취의 주요 예측변수로는 15개의 변수가 선택되었으며, 자세한 변수를 <표 4>에 제시하였다. 학생관련 변수 중 학생배경 요인 2개, 학생과정 요인 11개, 진로관련 요인 1개, ICT 요인 1개가 선택되었다. 학생배경 요인에서는 ‘ESCS’와 ‘연간 가계 소득’이 주요 예측변수로 도출되었다. 학생과정 요인 중에는 ‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’, ‘읽기에 대한 능력 지각’, ‘읽기에 대한 즐거움’, ‘PISA 검사 어려움에 대한 인식’, ‘PISA 검사에 대한 노력’, ‘PISA 응답에 대한 노력’, ‘총 학습시간’, ‘정규 수업 외에 받는 추가적인 교육(수학 과목)’과 ‘방과 후 공부 시간’이 주요 예측변수로 도출되었다. 진로관련 요인 중에는 ‘최종 학력에 대한 기대(대학교 및 대학원)’이 도출되었다. 또한 ICT 요인 중에는 ‘ICT 사용에 대한 지각된 자율성’이 주요 예측변수로 도출되었다. 이 중 ‘읽기 전략-요약’은 10회 반복 실시된 분석에서 모두 가장 주요 예측변수로 나타났다.
493개 예측변수 중 과학 성취 관련 주요 예측변수로는 14개의 변수가 선택되었으며, 이는 <표 5>와 같다. 과학 성취의 주요 예측변수는 모두 학생관련 변수가 선택되었으며, 학생관련 변수 중 학생과정 요인 8개, 진로관련 요인 2개, 사회·환경적 요인 1개, ICT 요인 3개가 선택되었다. 학생과정 요인에서는 ‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’, ‘읽기에 대한 능력 지각’, ‘읽기에 대한 즐거움’, ‘PISA 검사 어려움에 대한 인식’, ‘PISA 검사에 대한 노력’, ‘PISA 응답에 대한 노력’이 주요 예측변수로 도출되었다. 진로관련 요인 중에서 ‘미래 직업 결정에 중요한 요소(친한 친구의 미래 계획)’과 ‘학생이 기대하는 직업 지위’가 도출되었고, 사회·환경적 요인으로는 ‘학교 소속감’이 주요 예측변수로 나타났다. ICT 요인 중에는 ‘ICT 사용에 대한 지각된 자율성’, ‘수업에서 과목과 관련된 ICT 사용’, ‘학교에서 일상적인 ICT 사용’이 도출되었다. 이 중 과학 성취에서도 마찬가지로 ‘읽기 전략-요약’이 10회 반복 실시된 분석에서 모두 가장 주요 예측변수로 도출되었다. 다음으로 ‘PISA 검사 어려움에 대한 인식’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’가 10회 반복 실시한 분석결과에서 모두 각각 2위, 3위로 나타나, 중요도 지수 상위 1-3위 변수는 매번 동일하게 도출되었다.
앞서 읽기, 수학 및 과학 성취의 주요 예측변수를 각각 도출한 결과를 확인하였다. 세 영역의 결과를 비교하기 위해 도출된 주요 예측변수를 [그림 1]과 같이 구분하였다.
[그림 1]에 따라 읽기, 수학 및 과학 성취의 주요 예측변수를 구분하면 <표 6>과 같다. 세 영역에서 공통적으로 도출된 주요 예측변인은 총 9개로 나타났다([그림 1]의 a부분). 9개의 변수 중 학생과정 요인 8개(‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’, ‘읽기에 대한 능력 지각’, ‘읽기에 대한 즐거움’, ‘PISA 검사 어려움에 대한 인식’, ‘PISA 검사에 대한 노력’, ‘PISA 응답에 대한 노력’)와 ICT 요인 1개(‘ICT 사용에 대한 지각된 자율성’)가 공통적으로 나타났다. 읽기와 수학 성취에 공통적으로 나타난 주요 예측변수([그림 1]의 b부분)는 ‘ESCS’와 ‘총 학습시간’이었다. 읽기와 과학 성취에 공통적으로 나타난 변수([그림 1]의 c부분)는 ‘학생이 기대하는 직업 지위’, ‘미래 직업 결정에 중요한 요소(친한 친구의 미래 계획)’, ‘수업에서 과목과 관련된 ICT 사용’, ‘학교에서 일상적인 ICT 사용’으로 나타났다. 수학과 과학 성취 간에는 공통적인 주요 예측변수가 선택되지 않았다([그림 1]의 d부분).
반면 특정 영역에서만 도출된 주요 예측변수도 나타났다. 읽기 성취에서만 주요 예측변수로 도출된 변수를 살펴보면 학생관련 변수 중 ‘가정에서 사용 가능한 ICT’, ‘읽기에 대한 어려움 지각’, ‘온라인 읽기 활동(온라인 정보 탐색)’, ‘직업에 대한 정보’, ‘ICT에 대한 흥미’, ‘학교에서 사용 가능한 ICT’, ‘학교 밖에서의 ICT 사용’과 부모관련 변수 중 ‘자녀가 10살 무렵 자료를 읽은 빈도(책)’가 선택되었다([그림 1]의 e). 또한 수학 성취에서만 ‘연간 가계 소득’, ‘최종 학력에 대한 기대(대학교 및 대학원)’, ‘정규 수업 외에 받는 추가적인 교육(수학 과목)’ 및 ‘방과 후 공부 시간’이 주요 예측변수로 나타났다([그림 1]의 f). 학생관련 변수 중 사회·환경적 요인인 ’학교 소속감‘은 과학 성취에만 주요 예측변수로 도출되었다([그림 1]의 g).
다음으로 혼합효과 랜덤포레스트를 통해 도출된 주요 예측변수가 한국 청소년의 읽기, 수학 및 과학 성취에 미치는 영향을 검증하기 위해 추가적으로 다층모형 분석을 실시하였으며, 결과는 <표 7>과 같다3). 세 영역의 결과를 비교하기 위해 공통적으로 도출된 주요 예측변수뿐만 아니라 각 영역에서 차별적으로 도출된 예측변수도 동일하게 투입하였다. 우선 예측변수를 투입하지 않은 기초모형에서 ICC (급내상관계수)를 확인한 결과, 읽기 성취는 .260, 수학 성취는 .306, 과학 성취는 .292로, 전체 분산 중 약 26.0~30.6%가 학교수준 분산에 의해 설명되는 것으로 나타났다.
<표 7>을 보면, 학생배경 변수인 ‘ESCS’는 읽기, 수학 및 과학 성취에 모두 정적인 영향을 미치는 것으로 나타났다. ‘연간 가계 소득’의 경우에는 영역에 따라 상이한 결과가 확인되었는데, 수학 성취에는 정적인 영향을 미쳤으나 읽기와 과학 성취에는 유의한 영향을 미치지 않는 것으로 나타났다. 이와 달리 ‘가정에서 사용 가능한 ICT’는 읽기 및 과학 성취에 부적인 영향을 미치는 것으로 나타났으며, 수학 성취에는 유의한 영향을 미치지 않았다.
학생과정 변수인 ‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’, ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’, ‘읽기에 대한 능력 지각’, ‘PISA 검사에 대한 노력’, ‘PISA 응답에 대한 노력’ 및 ‘온라인 읽기 활동(온라인으로 정보 탐색)’은 세 영역에 모두 정적인 영향을 미치는 것으로 나타났다. 반면, ‘PISA 검사 어려움에 대한 인식’과 ‘총 학습시간’은 세 영역에 모두 부적인 영향을 미쳤다. 영역에 따라 다른 결과도 나타났는데, ‘읽기에 대한 즐거움’은 읽기 성취에 긍정적인 영향을 미쳤으나 수학과 과학 성취에는 유의한 영향을 미치지 않았으며, ‘방과 후 공부 시간’은 수학 및 과학 성취에 긍정적인 영향을 미쳤으나, 읽기 성취에는 유의한 영향을 미치지 않았다.
진로관련 변수인 ‘학생이 기대하는 직업 지위’와 ‘최종 학력에 대한 기대(대학교 및 대학원)’는 세 영역에 모두 정적인 영향을 미치는 것으로 나타났다. 이는 한국 청소년이 미래의 직업 지위와 최종 학력에 대해 높게 기대할수록 인지적 성취가 높아짐을 의미한다. 반면, ‘미래 직업 결정에 중요한 요소(친한 친구의 미래 계획)’는 세 영역에 모두 부적인 영향을 미치는 것으로 나타났다. 즉, 미래 직업을 결정하는 데 친한 친구의 미래 계획을 중요하게 생각하는 것은 읽기, 수학 및 과학 성취에 부정적인 영향을 미치는 것으로 나타났다.
ICT 변수 중 ‘ICT 사용에 대한 지각된 자율성’은 세 영역에 모두 정적인 영향을 미치는 것으로 나타난데 반해, ‘학교 밖에서의 ICT 사용(학교 활동 목적)’은 세 영역에 모두 부적인 영향을 미치는 것으로 나타났다. 이 외 변수는 영역에 따라 상이한 결과가 나타났는데, ‘ICT에 대한 흥미’의 경우에는 읽기 성취에 긍정적인 영향을 미치는 것으로 나타났으나 그 외 수학 및 과학 성취에는 유의한 영향을 미치지 않았다. ‘학교에서 일상적인 ICT 사용’은 읽기 및 과학 성취에 부적인 영향을 미치는 것으로 나타난 반면, ‘수업에서 과목과 관련된 ICT 사용’의 경우에는 읽기 및 과학 성취에 정적인 영향을 미치는 것으로 나타났다. 그러나 ‘학교에서 일상적인 ICT 사용’과 ‘수업에서 과목과 관련된 ICT 사용’은 수학 성취에서는 유의한 영향을 미치지 않는 것으로 나타났다. ‘학교에서 사용 가능한 ICT’는 어느 영역에도 유의한 영향을 미치지 못했다.
사회·환경적 변수인 ‘학교 소속감’은 읽기, 수학 및 과학 성취에 모두 부정적인 영향을 미치는 것으로 나타났다. 이와 달리 부모관련 변수인 ‘자녀가 10살 무렵 책을 읽은 빈도’는 읽기, 수학 및 과학 성취에 모두 긍정적인 영향을 미치는 것으로 나타났다.
V. 논의 및 결론
본 연구는 학생이 학교에 내재된 다층자료인 PISA 2018에 혼합효과 랜덤포레스트와 전통적인 랜덤포레스트를 적용해 한국 청소년의 읽기, 수학 및 과학 성취 예측력을 비교하였으며, 상대적으로 예측성과가 우수하게 나타난 혼합효과 랜덤포레스트를 통해 한국 청소년의 읽기, 수학 및 과학 성취에 영향을 미치는 주요 예측변수를 도출하였다. 또한 다층모형 분석을 통해 도출된 주요 예측변수가 읽기, 수학 및 과학 성취에 어떠한 영향을 미치는지 검증하였다. 본 연구에서 나타난 주요 결과는 다음과 같다.
첫째, ‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’ 및 ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’는 메타인지와 관련된 변수로, 청소년의 읽기, 수학 및 과학 성취에서 공통적인 주요 예측변수로 나타났다. 이는 전통적인 랜덤포레스트를 활용해 청소년의 읽기 성취 관련 주요 예측변수를 탐색한 선행연구 (손윤희 외, 2020; 정혜원 외, 2021)와 유사한 결과이다. 주목할 점은 ‘읽기 전략-요약’, ‘읽기 전략-이해 및 기억’ 및 ‘디지털 읽기 전략-질과 신뢰성에 대한 평가’는 읽기 성취뿐만 아니라 수학 성취와 과학 성취에서도 상위 예측변수로 포함되었다는 것이다. 읽기 전략은 학생이 텍스트를 이해하는 데 도움이 되는 정서적 및 행동적 활동이므로(최숙기, 박기범, 2012), 요약 전략, 이해 및 기억 전략의 유용성을 올바르게 이해하여 개인에게 효과적인 읽기 전략을 학습하고 활용하는 방법을 훈련하는 것이 필요하다.
둘째, ‘읽기에 대한 능력 지각’과 ‘읽기에 대한 즐거움’은 읽기 성취 외에 수학 및 과학 성취에서도 주요 예측변수로 도출되었다. 이는 읽기에 대한 능력을 지각하고, 읽기에 대한 즐거움을 가지는 것이 범교과적으로 인지적 성취에 중요한 요인임을 의미한다. 선행연구(이향미, 정혜원, 2019)에서도 유사하게 초등학교 시기의 독서 활동이 국어뿐만 아니라 수학 학업성취도의 종단적 변화에도 긍정적인 영향을 미쳤다고 보고된 바 있다. 따라서 청소년이 스스로 읽기에 대한 능력을 지각하고 읽기에 대한 유능감을 높여줌으로써 읽기에 대한 내재적 동기를 유발하는 것이 필요하며, 이를 위해서는 개별 수준에 맞는 읽기 활동이나 과제를 부여하여 성공적인 읽기 경험을 지속적으로 할 수 있도록 체계적인 지원이 필요하다. 또한 읽기에 대한 즐거움을 향상시키기 위해 아동기에 가정에서부터 독서에 대한 관심을 높이고 관심 있는 책을 많이 접할 수 있는 기회를 제공해줄 수 있어야 할 것이다. 이는 부모가 응답한 ‘자녀가 10살 무렵 책을 읽은 빈도’가 읽기, 수학 및 과학 성취에 모두 정적인 영향을 미쳤다는 결과와 일맥상통한 시사점을 제시한다. 즉, 그간 범교과 학습에서 독서의 중요성이 언급되어 온 상황에서 교과 학습을 위한 독서의 영향력을 실증적으로 확인한 것이다. 따라서 개별학교나 시도교육청에서는 국어 과목에만 한정하지 않고 범교과 학습을 위해 독서를 연계하는 효과적인 독서 교육이 지원될 필요가 있다.
이처럼 읽기관련 변수는 읽기 영역은 물론이고 다른 영역의 성취에도 영향을 미칠 수 있으므로, 여러 이유로 읽기에 대해 어려움이 있는 학생에 대해 가정, 학교 및 지역사회가 연계하여 적극적이고 체계적인 지원 방안을 모색하는 것이 필요하다. 그러나 PISA의 수학 및 과학 영역 평가에는 문장제 구조, 텍스트 자료 분석이 필요한 문항 등이 포함되어 있어 읽기관련 변수가 수학 및 과학 성취에도 정적인 영향을 미칠 수 있다는 점을 간과해서는 안 될 것이다.
셋째, 대표적인 학생배경 변수인 ‘ESCS’는 읽기와 수학 성취의 주요 예측변수로 도출되었으며, 특히 수학 성취에서는 ‘ESCS’외에도 ‘연간 가계 소득’과 사교육 경험과 관련된 ‘정규 수업 외 추가적으로 받는 교육(수학)’이 주요 예측변수로 선택되었는데, 이는 모두 가정의 경제적 수준과 관련 있는 변수이다. 다층모형 분석에서도 ‘연간 가계 소득’과 ‘방과 후 공부시간’이 수학 성취에 긍정적인 영향을 미치는 것으로 나타났다. 수학의 경우 ‘수포자’라는 말이 통용될 정도로 수학 학업에 어려움을 겪는 경우가 많고, 다른 과목에 비해 정규교육 외 사교육 등에 의존하는 경우가 많다(박현정, 2010). 따라서 청소년의 수학 성취 수준 향상을 위해서는 가정의 경제적 수준이나 부모의 지원 차이를 극복할 수 있도록 수학 교육과 지원이 필요한 학생에 대해 학교나 지역사회 차원의 다각적이고 체계적인 지원이 요구된다. 가정환경이 취약한 집단 중 읽기 성취가 높은 학생들을 대상으로 분석한 정혜경과 조지민(2013)의 연구에서 방과 후 학교에 참여하는 것이 읽기 성취에 긍정적인 영향을 미친다고 보고된 것을 고려할 때, 지원방안으로는 효과적이고 내실화된 방과 후 학교 운영을 적극 활용해 볼 수 있다.
넷째, 흥미롭게도 진로 또는 직업과 관련된 변수가 인지적 성취에서 주요 예측변수로 도출되었다. 구체적으로 ‘학생이 기대하는 직업 지위’와 ‘미래 직업 결정에 중요한 요소(친한 친구의 미래 계획)’는 읽기와 과학 성취에서 주요 예측변수로 도출되었으며, ‘직업에 대한 정보’는 읽기 성취, ‘최종 학력에 대한 기대(대학교 및 대학원)’는 수학 성취에 대한 주요 예측변수로 도출되었다. PISA 2018에 표집된 한국의 만 15세 청소년들은 자신의 진로나 직업에 대한 포부를 높이는 것이 중요한 시기이므로, 청소년 시기에 자신의 강점과 관심을 파악하고 진로나 직업에 대한 탐색을 통해 학업에 대한 열의와 성과를 높일 수 있는 방안을 제고하는 것이 필요하다. 한국에서는 혁신학교나 자유학기제 등 혁신적인 교육과정 변화를 통해 학생들의 강점과 진로를 탐색하기 위한 다양한 교육을 시도하고 있다. 이처럼 체계적이고 효과적인 진로활동 및 교육을 통해 청소년들이 성숙한 진로태도를 형성하고, 자신의 진로나 직업과 관련된 포부를 설정하도록 하여 이것이 학업에 대한 열의나 성취로 이어질 수 있도록 해야 할 것이다. 특히 다층모형 분석 결과에서 미래 직업 결정에 친한 친구의 미래 계획이 보다 중요하다고 생각할수록 읽기, 수학 및 과학 성취 수준이 낮은 것으로 나타났다는 점은 매우 흥미로운 결과이다. 청소년이 자신의 미래 직업이나 진로를 결정하는 데 있어 주체적인 고민과 선택이 아닌 타인에 의해 의존적으로 선택한다는 것이 인지적 성취에까지 부정적인 영향을 미칠 수 있음을 의미한다. 선행연구(박현주, 김봉환, 2006; 이명희, 김아영, 2008)에서도 청소년이 주체적으로 진로 등을 선택하기보다는 부모, 교사, 친구 등 타인에 의존하거나 영향을 받는 경향이 있다고 지적했다. 청소년기의 학업과 진로를 긴밀하게 연관된 개념으로 이해하고, 청소년이 진로나 직업을 탐색하고 선택할 때 보다 더 성숙한 태도와 주체적인 진로 결정이 요구된다.
다섯째, ICT 변수는 읽기, 수학 및 과학 성취에서 주요 예측변수로 나타났다. ‘ICT 사용에 대한 지각된 자율성’은 세 영역에서 공통적으로 도출되었고, ‘수업에서 과목과 관련된 ICT 사용’과 ‘학교에서 일상적인 ICT 사용’은 읽기와 과학 성취 영역에서 주요 예측변수로 도출되었다. 이 외에도 읽기 성취의 경우 ‘ICT에 대한 흥미’, ‘가정에서 사용 가능한 ICT’, ‘학교에서 사용 가능한 ICT’, 및 ‘학교 밖에서의 ICT 사용(학교 활동 목적)’ 등 총 6개 ICT 변수가 주요 예측변수로 도출되었다. 그러나 다층모형 분석에서 ‘학교에서 일상적인 ICT 사용’은 읽기와 과학 성취와 부적인 관계가 있는 것으로 나타났다. 따라서 학업적인 부분에서 ICT를 활용하는 것은 다양한 학습 환경이 학습상황에서 전제될 때 학습의 효과성을 높일 수 있으므로(김세리, 남창우, 장선영, 2012), 보다 효과적인 ICT 활용 방안을 모색하는 것이 요구된다. 교수·학습 상황에서 ICT를 활용할 시 교사의 역량이나 학교의 상황에만 의존하기보다는 학교와 교육청에서는 전문가와 연계하여 교수자가 효율적으로 ICT를 사용할 수 있도록 가이드를 제공해 주는 것이 필요할 것으로 사료된다.
여섯째, 사회·환경적 변수인 ‘학교 소속감’은 청소년의 읽기, 수학 및 과학 성취에 부적인 영향을 미치는 것으로 나타났다. 본 연구와 유사하게 PISA 2012 자료를 활용한 선행연구(송미영, 임현정, 임해미, 박혜영, 구자옥, 2015)에서 남학생인 경우 학교 소속감이 읽기, 수학 및 과학 성취에 모두 부적인 영향을 미친다고 하였다. 그러나 연구대상과 분석 자료는 상이하지만, 초등학생을 대상으로 한 설경옥과 정승원(2013)의 연구에서는 학교 소속감과 학업성취도 간에 긍정적 관계가 있는 것으로 나타났다. 따라서 학교 소속감과 읽기, 수학 및 과학 성취와의 관계를 더 면밀히 검증할 필요가 있으며, 학교 소속감과 인지적 성취의 부정적 관계를 해석하기 위해 매개변수와 같이 다른 변수의 존재를 확인하는 등의 추가적인 연구가 필요해 보인다.
본 연구는 대표적인 다층구조인 PISA 2018 자료를 활용한 실제자료 분석을 통해 다층자료 구조를 반영하지 못하는 전통적인 랜덤포레스트 기법에 비해 혼합효과 랜덤포레스트 기법의 예측성과가 상대적으로 우수하다는 것을 확인하였다. 따라서 머신러닝 기법을 다층자료 구조를 가진 데이터를 활용할 시 이를 반영할 수 있는 혼합효과 랜덤포레스트를 적용을 고려해볼 필요가 있음을 제안하는 바이다. 또한 사회과학 분야에서는 예측력만큼 설명과 해석이 중요한데, 혼합효과 랜덤포레스트 기법도 여타 트리기반의 머신러닝 기법의 단점으로 지적되는 것과 같이 변수 중요도만으로는 주요 예측변수 영향력을 해석하는 데 한계가 있다. 이에 본 연구에서는 다층모형 분석을 추가적으로 실시하였으며, 머신러닝 기법과 다른 전통적인 모형을 보완하여 활용할 수 있는 하나의 방안을 제시하였다. 그러나 본 연구는 혼합효과 랜덤포레스트에 기반해 청소년의 읽기, 수학 및 과학 성취의 주요 예측변수를 탐색하여 다층모형 분석에 포함하였기 때문에 학생과 부모관련 변수만 투입되었다. 후속 연구에서는 본 연구에서 도출된 변수와 함께 다양한 교사 및 학교관련 변수의 영향력을 함께 검증하여 더욱 풍부한 결과를 도출할 수 있길 기대한다.