행정

[데이터 분석의 힘], 이토 고이치로, 전선영 역, 이학배 감수, 인플루엔셜, 2018, (200427).

바람과 술 2020. 4. 27. 03:06

이 책을 추천하며 _ 빅데이터 시대를 준비하는 가장 유용한 책을 만나다 _ 이학배

한국어판 서문

프롤로그 : 여기 데이터가 있습니다. 분석할 줄 아십니까?

1장 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다

어느 회사에서 광고를 집행했고, 매출이 올랐다. 매출이 상승한 원인은 광고 때문일까? 그럴 수도 있고 아닐 수도 있다. 광고와 매출 사이에 ‘상관관계’는 있다 해도 ‘인과관계’가 반드시 있는 것은 아니라는 말이다. 그동안 당신이 속아왔던 무수한 ‘잘못된 데이터 분석’은 모두 이 지점에서 시작된다.

'X가 Y에 영향을 미쳤다'는 인과관계를 입증하기 어려운 몇 가지 이유가 있다. 우선 Y가 변화한 것은 X 이외의 다른 요인 때문일 수도 있다. X가 벌어진 것과 같은 시기에 여러 가지(X나 Y가 아닌 다른 요인을 V라고 부르자) 일이 일어날 수 있다. 


상관관계가 아니라 인과관계를 가려내는 것이 중요한 이유는 무엇일까? 비즈니스 현장이든 정책 결정 과정이든 의사 결정의 열쇠가 되는 것은 인관관계이지 상관관계가 아니다. 


경제학을 비롯한 사회과학 분야에서는 잠복변수 V를 최대한 모아 그 영향을 배제하는 통계분석 기법이 오랫동안 개발되어왔다. 그러나 1980년 무렵부터 이런 기법의 한계가 지적되기 시작했다. 현재는 인과관계를 밝혀내기 위해 잠복변수 V의 데이터를 되도록 많이 모으는 것이 좋지만 거기에는 한계가 있다고 보고 있다. 


인과관계의 문제는 통계학 용어로 '편향(bias)'이라고 부른다. 영어 '바이어스(bias)'를 직역하면 '분석으로 얻은 추정치의 치우침'이라는 뜻이다. 통상적으로 데이터 관측수가 늘어나면 장점이 많다. 그러나 안타깝게도 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다는 사실이 수학적으로 증명되었다. 그래서 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 들어맞지 않는다. 


2장 오바마 캠프는 어떻게 후원금을 ‘더’ 모았을까 : 최선의 데이터 분석법, RCT

2008년 미국 오바마 대선 캠프는 구글 출신의 데이터 분석 전문가를 영입했다. 그는 후원금 모금 웹페이지를 무려 24개의 조합으로 설계했다. 그 결과 약 6000만 달러의 후원금을 ‘추가로’ 획득했다. 가장 투명하고 가장 확실한 데이터 분석법, RCT(무작위비교시행). 최적의 전략을 이끌어내는 방법이다. 단, 비용이 많이 든다!

인과관계에 의한 효과를 지칭하는 '개입효과'는 의학계에서 유래한 말이다. 의료 현장에서는 약을 처방하거나 수술을 하는 등 다양한 '트리트먼트(treatment)'가 이루어진다. 그래서 '치료가 건강에 미치는 효과'라는 의미에서 '트리트먼트 효과'라는 개념이 만들어졌다. 


개이뵤과를 활용해 인과관계를 정의하면 두 가지가 명확해진다. 첫째, 인과관계는 'A가 개입을 받았을 때의 결과(Y1)'와 '개입을 받지 않았을 때의 결과(Y0)'의 차이로 정의해야 한다. 둘째, A의 테이테로만 인과관계를 계산하는 것이 불가능하다. 관측이 불가능한 결과를 '실제로는 일어나지 않은 잠재적 결과(counterfactual potential outcome)'라고 한다. 잠재적으로는 존재할 수 있지만 실제로는 일어나지 않았으므로 현실에서는 관측 불가능한 테이터라는 의미다. 


루빈은 한 사람에 대한 개입효과는 측정할 수 없지만 여러 사람에 대한 개입효과를 평균한 값인 '평균 개입효과(ATE)는 측정할 수 있다고 설명한다. 여기서 중요한 것은 개입집단과 비교집단을 나누는 것이다. 개입집단이란 문자 그대로 개입을 받는 집단을 가리킨다. 반대로 비교집단이란 개입을 받지 않는 집단을 가리킨다. 


RCT의 최대 약점이 빙요과 노력이 많이 들어가고 각 기관의 협력이 필요하다는 점이라는 사실만 짚고 넘어가자. RCT는 '문제의 답을 얻기 위해 데이터를 만들어간다'. 데이터를 만들려면 비용이 든다. 여기에는 각종 설비에 들어가는 비용뿐만 아니라 실험 참가자나 조력자들에게 지불하는 비용도 포함된다.  


3장 70세가 되자 병원을 많이 가기 시작했다 : 급격한 변화의 ‘경계선’을 찾는 RD디자인

장수하는 노인이 많은 일본에서는 70세를 전후로 의료서비스 이용이 급격히 점프한다. 69세와 70세 사이에 무슨 ‘경계’가 있는 것일까. 본인이 부담하는 의료비 비율이 70세부터 10%로 줄어드는 게 이유일까? 그게 이유라는 걸 어떻게 입증할 수 있을까? 급격한 변화의 ‘경계선’이 있는 데이터 분석법이 RD디자인(회귀불연속설계법)이다.

회귀불연속설계법(RD 디자인)의 키워드는 불연속과 경계선이다. 


4장 규제 때문에 자동차가 무거워졌다고? : 계단식 변화가 있는 곳엔 집군분석

각종 규제나 세금을 적용할 때는 일정 구간을 묶는 ‘계단식’ 정책이나 제도들이 많다. 이렇게 구간별로 나뉘는 데이터들은 어떻게 분석해야 할까. 특히 ‘인센티브 제도’가 이렇게 설계되어 있을 때는 어떤 현상이 벌어질까. 자동차 무게와 연비 규제의 사례를 통해, 집군분석을 알아보자.

5장 소득세를 내리면 이민자가 늘어날까 : 시간의 흐름에 따른 패널 데이터 분석

1991년 덴마크는 우수한 외국인 노동자를 유입시키기 위해 세제 개혁을 실시했다. 이로 인해 연소득 1억 이상의 외국인 노동자의 소득세가 대폭 줄어들게 되었다. 이민자수는 늘어났을까? 과연 세제 개혁 때문일까? 패널 데이터 분석은 바로 복수의 집단, 복수의 기간에 대한 데이터를 분석하기에 적합하다.

6장 구글은 41가지의 파란색을 고민했다 : 데이터는 어떻게 전략이 되는가

실리콘밸리는 그 어떤 곳보다 데이터 분석이 활발한 지역이다. 구글, 우버, 페이스북 등 많은 IT기업들이 엄청난 빅데이터를 확보하고 이를 비즈니스 모델에 활용하면서 무한한 시장과 만났다. 비단 기업만의 일이 아니다. 전 세계적으로 정부도 민간처럼 데이터를 활용해 효과적인 정책 입안을 하기 시작했다. 데이터가 막강한 전략으로 탈바꿈하고 있다.

오바마 전 대통령은 '근거 기반 정책 수립(evidence-based policy marking)'을 주장하며 정책 입안 방식을 바꾸려 했다. 오바마 전 대통령의 문제의식은 다음과 같았다. 정책 담당자는 정책에 얼마의 예산을 지출할 수 있는지, 즉 '지출의 크기'를 중심으로 정책을 입안한다. 그러나 앞으로의 정책이 얼마나 효과(고용 창출, 환경오염 개선 등)가 있는지, 즉 '정책 효과'를 잣대로 정책을 수립해야 한다. 


데이터에 대한 접근을 허용하고 정보를 공개하는 방법에는 여러 가지가 있다. 첫 번째 방법은 모든 사람에게 데이터를 공개하고 특별한 절차 없이 이용할 수 있게 하는 것이다. 두 번째 방법은 일정 절차를 거쳐 데이터에 접근하게 하는 것이다. 세 번째 방법은 전문가에게만 데이터를 공개하는 것이다. 


7장 그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법

데이터를 분석하는 과정은 초밥 장인이 초밥을 만드는 과정과 닮았다. 솜씨 좋은 장인이 초밥을 만들더라도 재료가 형편없으면 먹을 수 없는 초밥이듯이, 데이터 자체에 문제가 있다면 분석 기법이 탁월해도 신뢰할 만한 결론을 도출해낼 수 없다. 이밖에 외적 타당성 확보 문제나 출판 편향 등의 한계 등 ‘잘못된 재료’를 선택하지 않을 수 있는 방법은 무엇일까.

데이터 자체에 문제가 있으면 아무리 뛰어난 분석 기법을 써도 신뢰성 있는 결과를 내기 어렵다. 다음과 같은 경우 데이터에 문제가 있는 것이다. ① 데이터 측정에 문제가 있고 수치도 바르게 기재되어 있지 않다. ② 관측치(관측을 통해 얻은 값)에 대량의 결측치(데이터 수집 과정에서 누락되거나 실험이 잘못되어 얻지 못한 값)이 있다. ③ 데이터를 모든 세대가 아닌, 편중된 표본에서만 확보했다. 


에필로그

더 알고 싶은 이들을 위한 참고도서

부록

참고문헌