인과 추론의 가정들
근래 인과 추론(Causal Inference)에 관심을 가지고 학습하고 있습니다. 인과 추론이란 두 개의 사실로부터 각각이 원인과 결과인지 평가하여 결론을 이끌어내는 것을 말합니다. 이번 글은 Causal Inference KR 스터디 모임의 발표를 준비하며, Miguel A. Hernan의 저서 “Causal Inference: What if”의 3장까지 학습한 내용을 공유하려고 합니다.
연관관계는 인과관계가 아니다(Association is not Causation)
인과관계를 추론하기 위해서는 현실과 반사실(현실과는 반대로 어떠한 행동을 하거나 하지 않았을 때의 결과)를 비교할 수 있어야 합니다. 하지만 현실에서는 “이미 일어난 사실”만을 관찰할 수 있고, 반사실은 관찰할 수 없으므로 인과관계를 정확히 알 수 없습니다. 이러한 문제를 “인과 추론의 근본적 문제(Fundamental Problem of Casual Inference)”라고 합니다.
즉, 현실에서는 인과관계를 나타내는 데이터가 아닌 연관관계만을 나타내는 데이터에 접근할 수 있습니다. 예를 들어 사용자가 온라인 쇼핑몰에 접속한 다음 할인이벤트 팝업이 노출되었을 때, 이것이 사용자의 구매에 영향을 주는지 분석해본다고 생각해봅시다.
사용자ID | 할인이벤트 팝업노출여부 | 구매여부 |
---|---|---|
사용자1 | Yes | Yes |
사용자2 | No | Yes |
사용자3 | Yes | Yes |
사용자4 | No | No |
사용자5 | Yes | Yes |
이 때 분석가가 접근할 수 있는 데이터는 위 형태의 데이터입니다. 할인이벤트 팝업이 노출되었을 때 구매여부를 알 수 있지만, 할인이벤트 팝업 노출이 정말로 구매에 영향을 주었는지는 알 수 없습니다. 연관관계는 ‘함께 일어나는 변화’, 인과관계는 ‘하나가 다른 하나를 야기해 일어나는 변화’라는 것을 생각해봤을 때, 위 데이터는 연관관계를 말해주지만, 인과관계를 말해주지는 못합니다.
그럼 어떻게? Randomized Controlled Trial을 하자!
연관관계는 인과관계가 아니며, 현실에서 활용할 수 있는 데이터는 연관관계를 나타내는 데이터라면 어떻게 해야할까요? 방법은 무작위 대조 실험(Randomized Controlled Trial: 실험 대상에 무작위로 처치를 할당하여 결과를 비교하는 실험)을 실행하는 것입니다.(실무에서의 A/B 테스트를 생각하시면 됩니다.) 이유는 무작위 대조 실험을 통해 인과 추론에서의 “Exchangeability” 가정을 만족시킬 수 있기 때문입니다.
Exchangeability
즉, 아래의 Before와 같이 처치를 할당하였다가 After처럼 처치를 반대로 바꾸어주어도 처치에 따라 발생하는 결과는 같다는 것을 말합니다. 실제 처치와 반사실적 결과가 독립이라는 말이 되고, 처치군과 통제군을 교환할 수 있을 때, 처치(Treatment)는 외생적(exogenous)이라고 말합니다.
Before)
After)
이렇게 Exchangeability 가정이 만족되면 처치와 그에 따라 일어나는 반사실적 결과는 독립이 됩니다. 그러므로 처치군의 반사실적 결과와 전체 모집단이 처치를 받았을 때의 결과도 같아집니다. 순수하게 처치와 반사실적 결과는 독립이 되고, 순수하게 처치의 효과를 판단할 수 있게 되므로 이상적인 무작위 실험에서는 연관성(Association)이 인과성(Causation)이 됩니다.
Conditional Exchangeability
Exchangeability는 전체 모집단에서 무작위로 처치를 할당하여 처치군과 통제군을 교환해도 반사실적 결과가 같은 경우를 말합니다. 하지만 문제는 Exchangeability는 현실에서 확인할 수 없습니다. 예를 들어 Exchangeability를 확인하려면, 처치군 그룹이 처치를 받지 않았을 때, 그리고 통제군이 처치를 받았을 때를 확인할 수 있어야 합니다. 하지만 이 두 경우 모두 반사실에 해당하기 때문에 현실에서 확인할 수 없습니다.
현실은 이러하지만 만약 반사실을 확인할 수 있고, Exchangeability를 확인했을 때 Exchangeability가 성립하지 않는다면 어떻게 해야할까요? Randomized Controlled Trial도 끝이고, 인과추론도 끝인 것일까요? 그렇지 않습니다.
예를 들어 “환자의 위독여부”를 ‘L’이라는 변수를 통해 위독하다면 1, 위독하지 않다면 0으로 나타냈다고 해봅시다.
L = 0(위독하지 않음)
L = 1(위독)
그리고 이 때 심장 이식이 사망에 미치는 영향을 살펴본다고 해봅시다. 만약 의사가 위독한 사람일수록 심장 이식 수술을 진행한다면, 심장 이식이라는 처치와 관계 없이 애초에 위독한 사람이기 때문에 사망할 가능성이 높아질 수 있습니다. 이렇게 되면 공변량 L 값에 따라 사망과 생존이라는 결과가 달라질 수 있기 때문에, 순수하게 처치의 효과를 구할 수 없게 됩니다. 그러므로 공변량 L 값을 기준으로 L = 1인 그룹 그리고 L = 0인 그룹을 나누어, 각 하위 그룹내에서 처치군과 통제군을 나눈다면 하위 그룹 내에서는 Exchangeability가 성립할 수 있습니다. 이렇게 변수를 기준으로 하위 그룹에 대해 조건부로 Exchangeability가 성립하는 것을 Conditional Exchangeability라고 합니다.
Exchangeability가 성립하는 것은 쉽지 않습니다. 하지만 공변량의 값을 기준으로 나누었을 때 Exchangeability가 성립한다면 논의를 진행해나갈 수 있습니다. Exchangeability가 성립하지 않더라도 공변량 L을 기준으로 조건부로 Exchangeability가 성립할 수 있다는 것은 앞으로 살펴볼 Observational study에서의 인과 추론의 배경이 됩니다.
Observational data로 인과 추론을 하려면?
Observational data로 인과추론을 할 때의 문제점
무작위 대조 실험(Randomized Controlled Trial)이 만능이면 좋겠지만 항상 무작위 대조 실험으로 해결할 수 있는 것은 아닙니다. 무작위 대조 실험을 위해 필요한 시간과 비용도 생각해야 하고, 윤리적인 문제가 있는 경우에는 실행할 수 없습니다. 또, 지구 온난화와 같이 다루는 주제에 따라 실험을 하는 것이 불가능할 수 있습니다.
이럴 때는 관찰 연구(Observational Study)를 통해 인과관계를 추론해야 합니다. 즉, 수집한 데이터을 활용하여 인과관계를 추론해야 합니다. 하지만 관찰 연구에서의 문제점이 있는데, 바로 수집한 데이터는 처치가 무작위로 할당되어 수집된 데이터가 아니므로 연관관계를 인과관계로 해석할 수 없다는 점입니다. 그래서 Randomized Controlled Trial처럼 간주할 수 있도록 만들어 인과 추론을 하는 방식을 사용합니다. 이 때 Randomized Controlled Trial로 개념화하기 만족시켜야 하는 가정들이 있는데, 이 가정들을 “Identifiability Conditions”이라고 합니다. 인과 효과를 식별하기 위한 조건 정도가 되겠습니다.
Identifiability Conditions
Identifiability Conditions에는 크게 3가지 가정이 있습니다. 바로 Exchangeability, Positivity, Consistency 3가지 가정입니다.
Exchangeability(Ignorability)
Exchangeability는 앞서 살펴본 개념입니다. Randomized Controlled Trial을 통해 만족시킬 수 있는 가정입니다. Exchangeability은 처치군과 통제군의 분포 관점에서도 살펴볼 수 있습니다. 만약 conditional exchangeability가 있다면, 변수 L을 기준으로 결과에 대한 모든 변수들이 처치군과 통제군에서 같은 분포를 띄어야 합니다.
하지만 Exchangeability 가정에는 치명적인 문제가 있습니다. 첫 번째, 측정되지 않은 변수들에 대해서는 처치군과 통제군의 분포가 다를 수 있습니다. 두 번째, 반사실을 나타내는 데이터에 접근할 수 없기 때문에 아무리 많은 공변량을 찾아내더라도 Exchangeability 가정이 맞다는 것을 확인할 방법은 없습니다. 결국 도메인 영역의 지식이 맞다는 전제가 필요하고, 이를 바탕으로 인과 효과를 식별할 수 밖에 없습니다.
참고로 Exchangeability 가정은 인과 추론을 학습할 때 종종 등장하는 Ignorability 가정과 같은 개념입니다. 결국 두 가정이 강조하는 것은 처치와 반사실적 결과가 독립이라는 것입니다. Exchangeability는 처치군과 통제군을 교환해도 반사실적 결과가 같다는 점, Ignorability는 교란 변수가 없어 순수하게 처치의 효과를 구할 수 있다는 점을 나타낼 뿐입니다.
Positivity
Positivity 가정은 인과 효과를 비교하기 위해서는 처치군과 통제군 모두에 실험 대상이 할당되어야 한다는 것을 말합니다. 예를 들어 실험 대상을 A = 1 또는 A = 0에 모두 할당해버린다면 한 쪽에만 실험 대상이 포함되어 대조하여 비교하는 것이 애초에 불가능할 것입니다. 그러므로 각 수준에 할당할 확률이 0보다 커야 하므로 ‘Positivity’ 가정이라고 부릅니다.
만약 공변량 L이 존재하여 공변량 L을 기준으로 하위 그룹을 나누어 처치를 할당했다면, 아래 설명처럼 나누어진 하위 그룹 안에서도 처치군과 통제군 모두에 실험 대상이 할당되어야 합니다.
Positivity: Pr[A = a| L = l] > 0 for all values l with Pr[L = 1] != 0 in the population of interest.
이렇게 모든 공변량에 대해 처치군과 통제군이 할당되어야 합니다. 하지만 측정된 공변량이 많아질수록 인지한 공변량에 대해 하위그룹을 나누어 편향을 통제할 수 있지만, 공변량의 수가 많아질수록 모든 공변량에 대해 처치군과 통제군이 포함되도록 하는 것은 어렵습니다. 이를 Unconfoundedness / Positivity Trade off라고 부릅니다. 이렇게 인과 추론의 두 조건을 모두 만족시키는 것은 쉽지 않습니다.
Consistency
"다른 방식의 처치가 다른 결과를 불러온다면 문제가 생긴다.(A problem arises if different versions of treatment have different causal effects)"
What if 3장에 Consistency 가정을 설명하기 위해 등장하는 문장입니다. 조금 알쏭달쏭할 수 있지만 비유를 들어 생각하면 간단한 가정입니다. 수술의 결과는 어떤 의사가 수술을 하는지, 같은 의사이더라도 어떤 방식으로 수술을 하는지, 어떤 장비를 사용하는지에 따라 다 달라질 수 있습니다. 하지만 이 모든 것에 대해 명확히 하지 않고, 그저 ‘심장이식수술’의 효과를 측정한다면 그 효과를 명확히 파악할 수 없습니다. 만약 비만 연구라면, 비만이 어떤 상태에 속하는 것인지 기술해주어야 합니다. 만약 운동의 인과효과에 관심이 있다면 기간, 빈도, 강도, 종류 등의 정보를 정의해주어야 합니다.
하지만 여기서 주의해야 할 점은 무의미한 부분은 모호하게 남아있어도 된다는 것입니다.(no meaningful vagueness) 예를 들어 조깅을 한다면 시계 방향으로 뛰는 것과 반시계 방향으로 뛰는 것처럼 결과에 영향을 주지 않는 무의미한 것은 굳이 정의할 필요가 없다는 것입니다.
또 한 가지 주의해야할 점은 처치가 잘 정의되더라도 처치의 정의가 제한되다 보면 데이터가 충분하지 않은 문제가 생길 수 있다는 점입니다. 예를 들어 반려견이 행복도에 미치는 영향을 살펴본다고 해봅시다. 반려견을 키우는 가정의 데이터는 충분히 많지만, 치와와를 키우는 가정, 말티즈를 키우는 가정 등 견종에 따라 나누다 보면 충분한 데이터를 확보하지 못할 수 있다는 점입니다. 이러한 문제 때문에 treatment-variation irrelevance 가정을 하는 경우가 많습니다. 즉, 모든 처치가 동일하다고 가정하고 진행하는 것입니다. 그러므로 Consistency 가정 역시 도메인 영역의 지식이 중요합니다. 도메인 영역의 지식에 따라 개별 처치가 결과에 크게 영향을 미치지 않을 수 있는 경우 동일한 것으로 가정하고, 그렇지 않은 경우 구분을 지어 명확히 정의에 따라 진행하는 것입니다.
나가며
정리
정리하면 아래 3줄로 요약할 수 있을 것입니다.
- Randomized Controlled Trial을 통해 선택 편향(selection bias) 문제를 해결하고, 인과 효과를 파악할 수 있다.
- Observational data를 활용한 인과 추론은 Randomized Controlled Trial을 흉내내는 방식으로 인과 효과를 추론한다.
- Observational data로 인과 추론을 한다면 Identifiability Conditions(Exchangeability, Positivity, Consistency)를 만족시켜야 한다.
앞으로
“Randomized Controlled Trial을 하면 정말로 Exchangeability를 확보할 수 있을까?”
“Randomized Controlled Trial을 진행하며 충분한 모수가 모이면 편향은 줄어들겠지만 정말 측정되지 않은 공변량에 대해 Exchangeability가 있다는 것을 보장할 수 있을까?”
“Exchangeability는 실제로 확인할 수 없는데 어떻게 인과 추론이 설득력을 가질 수 있도록 할 수 있을까?”
What if의 3장까지 학습하며 정말 다양한 질문이 떠올랐습니다. 이렇게나 많은 가정을 어떻게 지키고, 또 실무에서는 어떻게 설득력 있는 인과 추론을 할 수 있을까하는 생각이 많이 들었습니다. 실무에 적용해볼 생각에 들떠있었는데, 갈 길이 멀구나하는 생각이 듭니다. 인과 추론은 애초에 현실에서 일어나지 않은 반사실과 비교하기 때문에 이를 위한 가정들도 엄격하고, 확인할 수 없는 경우도 많은 듯 합니다. 하지만 중요한 것은 불가능한 것으로 취급하고 아예 손을 놓아버리는 것이 아니라, 주어진 환경과 가용한 자원을 바탕으로 적절한 의사결정을 위한 최선을 다하는 것이라는 생각이 듭니다. 조급해하기보다는 숙제라는 생각으로 꾸준히 학습해나가야겠습니다.