변수 관련 통계학 용어
1. 독립변수와 종속변수
종속변수(dependent variable)는 설명되는 변수이고, 설명하는 것은 독립변수(independent variable)이다. 즉, 독립변수란 어떤 변수가 다른 변수에 시간적으로나 이론적으로 선행하면서 다른 변수에게 영향을 미칠 때, 영향을 미치는 변수를 독립변수(원인변수, 설명변수, 예측변수)라고 하고, 영향을 받는 변수를 종속변수(dependent variable, 결과변수, 피설명변수, 피예측변수)라고 한다. 예를 들면, 속도제한은 특정한 도로에 따라 다를 수 있으며, 그 효과는 교통사고 통계에 의해 측정될 수 있다. 여기에서 속도제한은 독립변수가 되고, 교통사고는 종속변수를 나타낸다. ‘흡연이 폐암을 유발한다’ 에서 흡연은 독립변수, 폐암은 종속변수이다.
2. 매개변수
매개변수(intervening variable)란 독립변수와 종속변수 사이에서 독립변수의 결과이자 종속변수의 원인인 변수를 말한다. 즉, 변수들 간의 함수적 관계를 설명할 때, 두 변수 사이에서 연계하는 변수이다. 예로서 A→B→C에서 B가 매개변수로서, A의 효과가 B를 거쳐서 C에 전달되고 있다. 물론 A가 C에 직접 연결될 수도 있다. 그러나 전체적으로 또는 부분적으로 A의 움직임은 일단 B에 효과를 미치고, 이어서 B가 C에 미치는 효과가 발생할 때 B는 A와 C사이에 매개변수이다. 만일에 A가 C에 미치는 효과, 즉 A→C가 B의 수준(예 : 성 차, 연령 차 등)에 따라 달라지면 B를 조절변수(moderator)라고 하는데, 매개변수와 조절변수를 통틀어서 “intervening variable” 또는 “mediator”로 기술하는 경우가 있는데 정확한 기술은 아니다. 예를 들면 ‘월평균 가구 소득이 월평균 교육비에 영향을 미치고, 이것이 자녀의 학업성취도에 영향을 미친다면 월평균 교육비는 매개 변수가 된다.
3. 연속변수와 이산변수
연속변수(continuous variable)란 길이, 무게, 온도변화와 같이 연속적인 모든 실수 값을 가질 수 있는 변수를 말한다. 즉 사람, 대상물 또는 사건을 그들 속성의 크기나 양에 따라 분류할 수 있는 것을 의미한다. 연속변수는 그 값이 변할 수 있는 한계 내에서는 어떠한 값이라도 가능하다. 이산변수(discrete variable)란 자녀수나 자동차의 판매 대수처럼 정수값을 취하는 변수이다. 이산변수는 연속변수에 비해 통계적 분석방법이 다양하지 못하며, 특히 추론통계(inferential statistics)에서는 이산변수에 의한 통계적 검정이 연속변수를 사용하는 경우보다 검정력이 약하며, 비모수 통계(nonparametric statistics)를 사용하는 경우가 많다. 예를 들면 성별, 종교, 직업 등과 같이 비연속적인 변수로 변수 값이 유한한 변수를 말한다. 연속변수는 등간척도와 비율척도로 측정되는 변수로 변수 값을 나타낼 때는 소수점이하(170.5 센티)로 표시할 수 있지만 이산변수는 명목척도(nominal scale)와 서열척도(ordinal scale, 자녀수 1명, 2명)로 측정되는 변수로 소숫점 이하로 측정할 수 없다.
4. 외생변수와 허위관계
외생변수(extraneous variable)란 겉으로 두 변수 간에 인과관계가 있는 것처럼 보이지만 실제로는 관련이 없고 단지 우연히 각각의 변수가 어떤 변수와 연결됨으로써 독립변수와 종속변수의 관계처럼 보이는 경우가 있다. 이러한 경우 두 변수와 관계되어 있는 다른 변수의 영향을 통제하던 두 변수간의 관계가 사라지는데 이 때 통제되는 변수가 외생변수이다. 허위관계(spurious relationship)는 외생변수를 통제하던 두 변수 간의 관계가 사라지는데 이러한 관계를 허위 관계하고 한다. 예를 들면 병원에서 환자의 입원 기간과 수명을 조사하였더니 입원기간이 길수록 수명이 짧아진다는 것을 발견하였다. 이 때 질병이 심각할수록 입원 기간이 길고, 따라서 수명이 짧아진다면 질병의 심각성이라는 변수를 통제하지 못하던 입원기간과 수명이 인과관계가 있는 것처럼 된다. 이때 질병의 심각성이라는 변수가 외생변수가 된다.
6. 억제변수
억제변수(suppressor variable)란 실제로는 두 변수 간에 관계가 있으나 다른 변수의 영향으로 그 관계가 나타나지 않는 경우가 있다. 이처럼 변수 관계를 악화시키거나 억제시키는 변수를 억제변수라고 한다. 예를 들면 교육이라는 변수와 소득이라는 변수 간에 실제로는 긍정적인 관계가 있으나 연령이라는 변수가 교육과 소득에 각각 영향을 미쳐서, 연령이 높을수록 교육 수준은 낮고, 소득 수준은 높을 경우 연령이 두 변수에 영향을 주지 않도록 연령을 통제하던(즉, 같은 연령대의 사람들끼리 비교하던) 교육과 소득 간에 긍정적인 관계가 나타나지만 연령을 통제하지 않으면 두 변수 간에 관계가 없는 것처럼 나타난다. 이 경우 연령은 교육과 소득간의 관계를 억제하는 억제변수가 된다.
6. 통제변수
통제변수(control variable)란 연구자들이 독립변수와 종속변수 사이의 명백한 관계를 조사하기 위하여 도입한 변수를 의미한다. 즉, 통제변수란 독립변수와 종속변수의 관계에서 영향을 주는 제 3의 변수로서 두 변수간의 관계를 명확히 파악하기 위하여 통제되는 변수를 말한다. 매개변수, 외생변수, 억제변수, 왜곡변수가 설계에서 고려되어야 통제되면 통제변수가 된다. 통제 변수의 효과를 통계적으로 통제하는 방법으로는 다중회귀분석(multiple regression analysis, 독립변수가 2개 이상인 추정식을 이용하는 회귀분석(regression analysis)을 말한다. 예를 들어 개개인의 매월 소비액은 단순히 월수입에만 달려 있는 것이 아니라 개인의 재산 상태·이자율·부양 가족 수 등의 영향도 받는다고 할 때, 이러한 많은 변수를 가진 추정식을 만들어 분석하는 회귀분석을 다중회귀분석이라 한다)이나 공분산분석(analysis of covariance, 분산분석과 회귀분석이 결합된 형태의 분석법이다. 공분산분석은 주로 두 가지 관점에서 분석이 이루어진다. 먼저, 우선적인 관심사가 범주형 변수의 수준(level) 간에 반응변수의 평균에 차이가 존재하는가를 보되(분산분석) 반응변수에 영향을 미칠 것으로 판단되는 연속형 변수〈이를 공변량(covariate)이라고 함〉의 효과를 동시에 고려하는 분석법) 등의 기법을 들 수 있다.
출처
고영복(2000). 사회학사전. 사회문화연구소.
국립특수교육원(2009). 특수교육학 용어사전. 하우.
이철수 외 공저(2009). 사회복지학사전. Blue Fish.
한국교육심리학회(2000). 교육심리학용어사전. 학지사.
한국교육평가학회(2004).교육평가용어사전. 학지사.