본문 바로가기
경제학 이론서

[생각에 관한 생각] #10 통계를 이해하지 못하는 시스템 1

by DWOOK 2022. 6. 5.

대니얼 카너먼의 '생각에 관한 생각'

 


"시장이 10% 이내로 하락하는 조정장은 통상 2년에 1번꼴로 나타난다."

 

문장을 보고 대게 '아 그렇구나'라고 의심의 여지 없이 수긍할 것이다. 경제 관련 소식을 보면 통계자료를 통해 해석하는 경우가 많다. 우리는 통계 결과를 어떻게 받아들일까?

 

인간의 직관은 통계 자료에 대해 올바른 판단을 내리는지 아니면 엉망진창인지 알아볼 것이다. 첫 문장 사실 여부와 상관없이 문장을 읽고 본인이 어떤 반응을 보였는지 꼭 기억하고, 우리의 직관이 통계에 얼마나 취약한지 알아보자. 이번 챕터에서는 3가지 근거를 제시하며 시스템 1이 통계에 취약하다고 알려준다.

 

 

[ 소수 법칙 요약 ]

 

1. 통계 표본이 적으면 결과는 극단적으로 나타나며 오류를 발생시킨다.

 

2. 시스템 1은 통계 신뢰성은 따지지 않은 채 결과값을 받아드린다. 나아가 다른 정보들로 연상작용을 통해 결과를 더 견고히 한다.

 

3. 계는 우연의 표본들을 해석한 결과이지만, 우리의 직관은 통계를 인과관계로 해석하여 어림짐작 오류가 발생한다.

 

 


 

 

1. 통계 표본이 적으면 결과는 극단적으로 나타나며 오류를 발생시킨다.

 

 일반적으로 통계의 표본이 커야 결과가 정확하다고 이해할 것이다. 하지만 직관적으로 표본이 적으면 결과가 어떻게 부정확한지 자세히 모를 수 있다.아래 두 문장은 같은 의미이며, 어떻게 같은지 설명할 것이다.

 

  • 큰 표본은 작은 표본보다 정확도가 높다. 
  • 큰 표본보다 작은 표본에서 극단적인 결과가 빈번히 나온다.

 책의 예시를 통해 이해해보자.

 구슬이 가득한 주머니가 있고, 절반의 빨간 구슬과 나머지 절반의 하얀 구슬이 들어있다. 무작위로 구슬 네 개를 꺼내는 행위를 무수히 반복하면 '빨간 구슬 2개, 하얀 구슬 2개' 가 나오는 횟수는 '빨간 구슬 4개 혹은 하얀 구슬 4개'가 나오는 횟수보다 6배 많을 것이다. 이 결과는 누구나 쉽게 예측할 수 있다.

 

 이제 시험 방법을 조금 바꿔서 진행하겠다. 찰리는 매번 구슬을 4개씩 꺼내고, 엘리스는 구슬을 7개씩 꺼낸다. 이때 꺼낸 구슬이 같은 색일 확률은 7개를 뽑는 엘리스의 경우가 8배 낮다. 반대로 찰리의 경우 같은 색의 구슬이 나올 확률이 8배 높으며, 4개의 표본의 경우 극단적인 결과가 나올 확률이 8배가 높은 것이다. 아주 많은 빨간, 하얀 구슬이 반반 들어있는 주머니를 해석하는 결과가 극단적으로 달라질 수 있다.

 그리고 또 하나 중요한 점은, 표본을 뽑는 행위는 인과관계로 추정할 수 없으며, 독립적으로 행해지며 수학적 사실에 따라 결과가 나온다.

 

 재밌는 사실은 통계 전문가도 표본에 의한 오류를 직관적으로 판단할 수 없다는 것이다. 그렇다는 말은 일반인인 나는 얼마나 못할까 하는 호기심이 생긴다. 그렇다면 우리는 표본의 신뢰성을 어떻게 알 수 있을까. 통계 표본이 많아진다는 것은 비용과 시간을 소모하기 때문에 굉장히 번거로운 일이다. 그렇기에 전문가들도 표본의 크기를 정하는 법은 알더라도 충분한 표본을 확보하지 않는다. 이런 방식으로는 시험의 가정을 일반화할 수 없다. 결과가 터무니없는 값이 나오기 때문이다. 뻔한 대답일 수 있지만, 저자는 표본을 계산하는 방법은 매우 단순하다고 알려준다. 통계 공식을 사용하라는 것이다.

 

 정리하면, 시스템 1은 표본의 영향성을 인지하지 못한 채, 소수의 결과를 대수의 결과로 일반화 시킨다. 이는 왜곡된 결과일 가능성이 매우 높고, 우리는 직관을 믿지 말며 계산을 통해 합리적인 표본인지 여부를 검증하여 통계 신뢰성을 우선 확인해야 한다.

 

 

 

2. 시스템 1은 통계 신뢰성은 따지지 않은 채 결괏값을 받아드린다. 나아가 다른 정보들로 연상작용을 통해 결과를 더 견고히 한다.

 

'전화 여론조사를 실시한 결과 70대 이상 노인은 대통령을 지지했다.'

 

 정치에 관심이 많지 않지만 조사 결과를 보고 '70대 노인은 왜 대통령을 지지할까? 노인들을 위해 어떤 정책을 편 거지?' 라는 생각이 들 것 같다.

 

 우리는 조사 결과를 보면 신뢰성보다는 결괏값에 초점을 맞춘다. 여론조사 방법, 표본의 수, 지역 차 등은 결과에 영향을 줄 수 있는 인자는 전혀 의심하지 않았다.

 

 결과를 의심하기보다 수긍하는 방향으로 접근하는 것은 통계 결과를 이해하는데 위험한 요소이다. 시스템 1은 결과의 신뢰성 보다는 결과 자체를 편안하게 받아들이려 한다. 나아가 다른 정보를 이용하여 연산 작용, 인과관계 형성과 같은 작업을 통해 결과를 더 견고하게 한다. 왜냐하면 의심을 하기 위해선 시스템 2가 작동해야 하기 때문이다. 소수 법칙은 의심보다 확신을 편애하는 일관성을 가진 편향을 드러낸다.

 

 

 

3. 통계는 우연의 표본들을 해석한 결과이지만, 우리의 직관은 통계를 인과관계로 해석하여 어림짐작 오류가 발생한다.

 

 직관의 특징 중 하나는 인과관계를 연상하는 것이다. 원인을 찾으려는 무의식적인 직관으로 통계를 바라보면 이해하기 어려운 일들이 많으며, 반대로 통계를 직관으로 이해하면 많은 오류가 생긴다. 통계는 원인을 찾는 행위가 아닌, 사건들이 무작위로 발생하는 확률을 수학적으로 계산하는 것이다. 사례를 통해 쉽게 이해해보자.

 

 동전을 순서대로 6번 던질 때 아래와 같이 3가지 경우가 있다고 가정해보자.

 

' 앞앞앞뒤뒤뒤 '

' 뒤뒤뒤뒤뒤뒤 '

' 앞뒤앞앞뒤앞 '

 

세 경우가 일어날 확률은 모두 같을까? 번뜩 떠오르는 대답은 '아니야' 일 것이다.

 

 하지만 결과는 '모두 같다'이다. 동전을 던지는 행위는 독립적이다. 1번 동전의 결과가 2번 동전의 결과에 영향을 주지 않는다. 하지만 우리는 '앞뒤앞앞뒤앞'의 결과가 자연스러워 보이며, '뒤뒤뒤뒤뒤뒤'는 인위적인 결과라고 느낀다. 결과를 보면 한가지 결과가 여섯번 나왔다는 것이 무작위라는 행위와 연결이 되지 않기 때문이다. 수학적으로는 맞음에도 불구하고 말이다. 이렇게 인과관계를 맺으려고 하는 본성에 의해 우리는 통계를 수학적 관점으로 바라보지 못한다.

 그 이유는 생존과 관련이 있다. 무작위로 나타나는 자연 현상이나 환경을 주의 깊게 관찰하여, 결국에는 무작위에 대한 인과관계를 찾아 생존과 경계 습관을 지니게 되었기 때문이다.

 

 우리의 '직관은 통계를 이해하지 못한다.' 라고 받아들이고, 시스템 2와 계산을 통해 통계 결과의 신뢰성을 검증해야 한다. 어떤 투자자가 5년간 50% 이상의 알파 수익을 냈다. 라는 결과로 그에게 나의 자산을 맡길 수 있는가. 통계 관점에서 매년 수익은 독립적이지만 우리는 일관성 편향으로 그를 굉장한 투자가라고 판단한다.

 

 작은 표본을 지나치게 신뢰하지 말며, 세상의 많은 사건은 우연에 의해 독립적으로 일어나기에 인과관계를 맺지 말아야 한다. 냉철한 데이터 분석을 해야 하며 결과를 비합리적인 직관에 맡기지 말고 계산을 통해 결괏값을 수긍해야 한다.

 

댓글