인과 추론 입문하기
<원인과 결과의 경제학>은 ‘두 개의 사실로부터 각각이 원인과 결과인지 평가하여 결론을 이끌어내는’ 인과 추론의 기본 개념을 쉽게 풀어쓴 책입니다. 책의 제목에 ‘경제학’이라는 단어가 들어가지만 경제학에 대한 배경 지식이 전혀 없어도 읽는데 지장은 전혀 없었습니다. 인과 추론의 기본적인 그림을 이해하는데 힌트를 준 고마운 책이여서, 도움이 되었던 내용을 소개해보려고 합니다.
인과 추론의 핵심
Counterfactual Outcome Framework
인과관계를 추론하는 가장 확실한 방법은 ‘현실’과 ‘반사실(Counterfactual Outcome)’을 비교하는 것입니다. 여기서 ‘반사실’이라는 말이 낯설고 어려울 수 있습니다. 반사실은 “만약에 OO을 하지 않았다면 일어났을 결과”라고 보시면 됩니다. 예를 들어 “공부를 하면 성적이 오를까?”라는 질문을 생각해봅시다.
이 때 인과관계를 밝혀내기 위해 “공부를 했을 때의 시험 성적”과 “공부를 하지 않았을 때의 시험 성적”을 비교해볼 수 있습니다. 그 성적의 차이만큼을 공부가 시험 성적에 미치는 인과효과(인과적 영향)로 보는 것입니다.
- 공부를 하지 않았을 때의 시험 성적(현실)
- 공부를 했을 때의 시험 성적(반사실)
- 인과효과 = (공부를 했을 때의 시험 성적) - (공부를 하지 않았을 때의 시험 성적)
이렇게 현실과 반사실(잠재적 결과)를 비교하여 인과효과를 파악하는 사고의 틀을 반사실적 결과 프레임워크(Counterfactual Outcome Framework) 또는 잠재결과 프레임워크(Potential Outcome Framework)라고 합니다. 복용약의 효과, 마케팅 캠페인의 효과 등을 이러한 사고의 틀을 가지고 추정할 수 있습니다.
인과 추론의 근본적 문제(Fundamental Problem of Casual Inference)
그런데 여기서 문제가 있습니다. 현실에서 “이미 현실에 일어난 사실”을 관찰할 수 있지만, “반사실”은 관찰할 수 없습니다. 예를 들어 마케팅 캠페인을 진행하여 올해 매출이 전년 동기 대비 30퍼센트 증가했다고 생각해봅시다. 마케팅 캠페인을 진행해서 매출이 올랐다고 생각할 수 있지만, 냉정하게 생각하면 광고를 내지 않았더라도 경기가 좋아지거나 다른 요인에 의해 매출이 올랐을 수 있습니다. 정확한 효과를 파악하려면 ‘해당 기간동안 마케팅 캠페인을 진행하지 않았을 때의 매출’을 알 수 있어야 하는데 현실에서는 알 수 없습니다. 이를 ‘인과추론의 근본적 문제’라고 합니다.
마케팅 캠페인 진행여부 | 캠페인 진행 시 매출 | 평소 매출 | 인과효과 |
---|---|---|---|
Y | 1300 | ? | ? |
N | ? | 1000 | ? |
Y | 1200 | ? | ? |
인과추론 기법들의 공통적인 목표
인과 추론의 다양한 기법들의 목표는 결국 물음표인 반사실의 결과를 어떻게든 타탕한 값으로 채워 인과효과를 밝히는 데 있습니다. 이중차분법(Difference in differences), 매칭법(matching), 도구변수법, 회귀 불연속 설계 등 다양한 기법들이 반사실을 비교 가능한 값으로 대체하여 인과 효과를 파악합니다. 여기서 ‘비교 가능’이라는 말은 비교하는 두 그룹이 처치(Treatment: 각각의 실험단위에 가하는 특정한 실험조건)를 제외한 모든 특징들이 매우 비슷하고, 유일한 차이가 처치(Treatment) 여부인 것을 말합니다. 예를 들면 두 개의 그룹이 있을 때 약의 복용여부를 제외하고는 모두 매우 비슷한 특성을 보여야 한다는 것입니다.
왜 비교 가능해야 할까?
왜 비교 가능해야 할까요? 비교 가능해야 하는 이유는 우리가 관심 있는 것은 어떤 처치의 순수한 효과이기 때문입니다. 예를 들어 최근 3달 이내 구매 빈도가 5회 이상인 사용자들에게 할인 이벤트를 알리는 팝업창이 노출되도록 설계해두었다고 해봅시다. 그리고 팝업창 노출여부에 따라 팝업창 노출 그룹(A), 팝업창 미노출 그룹(B)으로 나누어 “할인 이벤트 팝업 창 노출이 구매 전환에 미치는 영향”을 파악해보려고 합니다. 이 때 그저 팝업의 노출여부만을 기준으로 그룹을 분리한다면 ‘할인 이벤트 팝업 창 노출의 순수한 효과’를 얻기란 어렵습니다.
이유는 “할인 이벤트 팝업 창 노출”이 아닌 다른 요인이 구매 전환에 영향을 줄 수 있기 때문입니다.
A 그룹은 일정 수준 이상의 구매를 한 사용자들의 그룹이지만, B 그룹은 일정 수준의 구매 빈도를 넘기지 않은 사용자들의 그룹입니다. 이 경우 A 그룹에는 주기적으로 구매하는 충성 고객들이, B 그룹에는 구매를 좀처럼 하지 않는 일회성으로 방문하는 고객들이 포함될 가능성이 있습니다. 그 결과, 할인 이벤트 팝업 창 노출과 관계 없이 A 그룹은 원래 구매를 많이 하는 사용자들이기 때문에 구매를 많이 했지만 이것이 할인 이벤트 캠페인의 효과인 것으로 착각할 수 있습니다.
그래서 인과 추론의 다양한 기법들이 “ceteris paribus(다른 모든 조건이 동일한다면)” 가정을 만족하는 반사실의 대체값을 찾아 현실의 결과값과 비교하려는 것입니다. 무작위 대조 실험(Randomized Controlled Trial), 실무에서의 A/B 테스트 역시 잘 설계되었을 때 가장 이상적인 이유는 선택 편향으로 인해 두 그룹이 비교할 수 없게 되는 문제를 해결해주기 때문입니다. (선택 편향: 분석 대상자들이 처치(treatment) 여부를 직접 ‘선택’했기 때문에, 두 비교 대상 간에 관찰되지 않은 요인에 의한 체계적인 차이가 존재할 수 있는 문제)
결국 Randomized Controlled Trial이 무조건 최고인 것이 아니라 무작위 대조 실험을 하든 관찰 데이터를 분석하든 “ceteris paribus(다른 모든 조건이 동일한다면)” 가정이 지켜지도록 설계된다면 신뢰할 수 있는 결과를 얻을 수 있을 것입니다.
머리 아픈데 그냥 전후 비교하면 안 될까?
‘머리 아픈데 그냥 전후 비교하면 안 될까?’하는 생각이 들 수 있습니다. 단순히 ‘광고’를 하지 않았다가 ‘광고’를 한 다음 결과를 비교해보면 되는 것 아닌가?라고 생각할 수 있습니다.
하지만 이 경우 역시 비교 가능성이 지켜지기 힘듭니다. 이유는 첫 번째, 시간과 함께 발생하는 자연적인 변화(트렌드)의 영향을 고려할 수 없기 때문입니다. 예를 들면 작년 대비 경기가 좋아져서 매출이 올랐지만, 이것이 광고의 효과라고 착각할 수 있는 문제가 있습니다. 두 번째, ‘평균으로의 회귀’ 가능성이 있을 수 있습니다. 평균으로의 회귀는 큰 값이 나온 다음에 서서히 평소의 수준에 가까워지는 통계적 현상을 말합니다. 혈압을 여러 번 재면 평소의 혈압이 나오는 것처럼 매출도 이전 해 줄어들었다 평균으로의 회귀 때문에 다시 증가한 것일 수 있다는 것입니다.
이러한 문제 때문에 사용하는 것이 이중차분법(Difference in differences: 개입을 받는 그룹(실험군)과 그렇지 않은 그룹(대조군)의 개입 전후 결과의 차이와, 실험군과 대조군의 차이 이렇게 두 개의 차이로 효과를 추정하는 방법)입니다. 이중차분법을 사용할 때도 아래의 전제가 만족되어야 합니다.
- 실험군과 대조군은 개입 전 결과의 ‘트렌드’가 같아야 한다.
- 개입과 같은 타이밍에 결과에 영향을 줄 만한 다른 변화가 실험군과 대조군에 별개로 발생하지 않아야 한다.
결국 “ceteris paribus(다른 모든 조건이 동일한다면)”가 전제되어야 하는 것입니다.
나가며
아직 인과 추론에 대해 공부해야할 것이 참 많지만 “ceteris paribus(다른 모든 조건이 동일한다면)” 단어 하나를 알아가면 좋은 시작이 아닐까 하는 생각이 듭니다. 차분히 조금씩 공부해나가려고 합니다.
‘빠르게 의사결정해야 하는 스타트업에서 이렇게까지 인과관계 분석을 해야 하나?’라고 묻는 분도 있을 수 있다고 생각합니다. 제 대답은 ‘상황에 따라서’입니다. 인과 추론을 하는 이유는 결국 잘못된 의사결정으로 인한 시간과 비용을 줄이고, 현재 관찰한 효과가 재현 가능한 것인지 파악하는 데 있다고 생각합니다. 긴급도와 중요도에 따라 판단하면 되는 것이 아닐까 생각이 듭니다. 쉽지 않은 문제이지만, 실무에서 인과효과를 추정하고 이를 기반으로 의사결정해나갈 수 있도록 노력해보려고 합니다. 긴 글 읽어주셔서 감사합니다.