복잡하고 아리송한 관계 분석 / 인과관계의 복잡함
유쾌한 통계 이야기 4편] 복잡하고 아리송한 관계 분석 / 인과관계의 복잡함 | |
이번 칼럼에서는 통계 분석의 주 대상인 ‘현상과 인과관계' 중 인과관계에 대해 이야기해 보자. 인과관계 파악을 위한 통계 자료 분석은 통계학에서 매우 중요하다. 그러나 자료 분석 이전에 관계에 대한 충분한 사전 검토가 이루어지지 않는 경우가 종종 있다. 이런 경우, 자료 분석만을 토대로 한 통계 분석은 무의미한 결론을 낼 수 있다. 일반적으로 많이 발생하는 인과관계에 대한 오류 중 몇 가지를 살펴보자.
경찰관 수가 많을수록 범죄 발생 건수가 늘어난다? 어떤 사람이 미국 주요 도시의 범죄 발생 건수와 경찰관 수를 조사하였더니, 그 결과 두 변수 사이에 높은 상관관계가 있음을 발견하고 다음과 같이 주장하였다. “경찰관 수가 많을수록 범죄 발생 건수가 늘어난다.” 그렇다면, 경찰관 수를 줄이면 범죄가 덜 발생하는 것일까? 경찰관 수를 줄인다고 범죄가 줄어들지는 않는다. 이런 경우 발생하는 오류가 바로 ‘역인과관계' 또는 ‘제 3의 인자 효과'이다. 정부의 예산은 한정되어 있다. 경찰관 채용에 대한 예산도 한정되어 있다. 그러나 어느 도시에서 범죄 발생이 증가했다면, 이에 따라 경찰관 수의 증가 요구는 쉽게 받아들여지고, 실제로 경찰관 수가 늘게 된다. 즉, 이런 경우에는 범죄가 많이 발생하므로 경찰관 수를 늘린 것이라고 보는 것이 합당하다. 이럴 때 위에서처럼 원인과 결과를 거꾸로 주장하는 것을 ‘역인과관계의 오류'라고 부른다. 이 문제를 다른 시각에서도 볼 수 있다. 범죄가 발생하는 것은 거주 인구에 비례한다고 볼 수 있다. 서울은 중소도시에 비해 인구가 많고, 그만큼 치안 업무도 많으므로 경찰관 수도 많다. 또, 범죄 건수도 많다. 이처럼 경찰관 수와 범죄 건수는 기본적으로 모두 지역 인구수에 영향을 받는다. 이처럼 다른 변수(인구수)가 관심 있는 두 변수(경찰관 수, 범죄 건수)에 영향을 줄 때 두 변수만의 인과관계를 보는 것은 의미가 없다. 이럴 때는 ‘제 3의 인자'를 찾아야 한다.
삼성라이온즈 야구단의 선동열 감독이 선수 시절에 어깨가 몹시 아팠던 적이 있다. 당시 많은 팬들이 좋은 음식, 보약과 특효약을 보내 주었고, 또 물리치료도 병행하였다. 그 결과 몇 달 후 어깨가 나았다. 그렇다면 음식, 약, 그리고 물리치료 중 어느 것이 어깨를 낫게 하였을까? 이 문제를 다양한 관점에서 살펴보자. 아픈 어깨가 나았다는 결과에 대해 세 개의 원인 인자가 있다. 일반적으로 하나의 결과는 여러 원인이 서로 영향을 받아 발생한다. 이럴 때 인자들의 개별적인 효과가 서로 상승 작용을 줄 경우 상승 효과라고 하고, 서로 반대 방향으로 효과를 줄 때는 상쇄 효과라고 한다. 이때 일부 인자만의 효과라고 보거나, 일부 인자로 인해 오히려 역효과가 났다고 생각하면 오류를 범할 수 있다. 2007년 한국은행 발표에 따르면 2007년도까지 다섯 번의 콜금리 인상에도 통화량이 증가했다고 한다. 이것은 통화량에 대한 영향이 콜금리 인상의 감소 효과보다 주택 가격 상승의 증가 효과가 더 컸기 때문이다. 이런 상황에서 ‘주택 가격'을 보지 않고, ‘콜금리'와 ‘통화량'만을 분석한다면 어떻게 될까? “콜금리 인상이 통화량을 증가시켰다”라는, 기존의 이론과 정반대의 사실이 관찰되었다고 ‘잘못' 판단할 수 있다. 그러므로 결과에 영향을 주는 여러 인자들을 종합적으로 살펴보아야 한다.
두 개의 자료만으로는 음식, 약 그리고 물리치료가 효과가 있었음을 알 수 있지만 그중에 어느 것이 가장 효과가 있었는지, 또는 어느 인자가 얼마큼 완쾌에 기여했는지는 알 수 없다. 인자의 조건이 혼합되어서 자료를 통해서는 인자들의 효과를 개별적으로 구별할 수 없는 경우이다. 통계학에서는 이를 교락(Confounding)되었다고 표현한다. 이런 상황에서 사람들은 일반적으로 특정 원인을 진짜 원인이라고 주장할 수 있다. 음식을 가져온 사람은 음식 덕이라고 할 것이고, 물리치료사도 자신의 공을 주장할 수 있다. 상황과 이를 확인할 수 있는 정보에 대한 이해가 충분하지 않으면 이들 중 일부 주장에 동의할 수 있다. ‘Yes/No'의 판단 이전에 더 중요한 것은 객관적인 자료로써 이를 판단할 수 있느냐는 것이다. 또는 다음과 같이 이 문제를 달리 볼 수도 있다. 부상을 입은 다른 선수가 선동열 감독과 동일한 물리 치료를 병행했지만 회복되지 않았다고 하자. 그럼 물리치료는 효과가 없다고 할 수 있을까? 그렇지 않다. 즉, 물리치료의 경우 특정 약을 함께 먹었을 때에만 효과가 나타날 수 있다. 또는 선동열 감독과 같은 특정 상황에서만 효과가 있을 수도 있다. 다른 조건에 따라 인자의 효과가 달라질 때 통계학에서는 교호효과(Interaction)가 있다고 한다. 예를 들어 사양이 낮은 컴퓨터를 가진 사람은 통신회사의 인터넷 속도를 높여 주는 고가 옵션에 가입하더라도 소용이 없다. 다른 사람이 고가의 인터넷 옵션으로 속도를 높였다는 말이 그에게는 해당이 없다. 즉, 상황에 따라 필요한 조치가 달라지게 된다. 경우마다 조건을 구분해서 보는 세분화 사고는 여기에서도 필요하다. 지금까지 인과관계에 대한 혼동에 대해서 이야기하였다. 인과관계를 알아내는 것은 쉽지 않다. 그럼에도 일반적으로 사람들은 ‘잘 모르겠다'는 모호함보다는 특정 원인을 통해 이를 쉽게 단정하는 경향이 있다. 특히 그것이 자신의 이익과 일치할 때는 더욱 그러하다. 위에서 설명한 것처럼 인과관계의 복잡함을 고려하면서, 가설을 세우고 통계 자료를 통해 확인하는 습관과 능력이 현대인에게 필요하다. 정답1) 이 경우에는 ‘도시의 발전'이 숨은 원인이다. 즉, 도시가 발전하면서 인구, 특히 청·장년 인구의 유입이 증가되었고, 그에 따라 출생아 수가 증가하였다. 또, 도시가 발전함에 따라 주변에 황새를 유인할 만한 먹이가 많이 늘거나 서식처가 증가하였다. 그러므로 황새가 아기를 가져다 주는 것은 아니다. - 최제호 / 통계학 박사, 디포커스 상무이사, <통계의 미학> 저자. |