우산을 사는 사람은 우비도 산다. 이 패턴을 발견하는 데 AI는 매우 뛰어나다. 수백만 건의 구매 데이터를 학습시키면, 우산 구매자에게 우비를 추천하는 모델을 만들 수 있다. 정확도도 높다.

문제는 이 모델이 비가 오는 이유를 모른다는 것이다.

비가 오니까 우산을 사고, 비가 오니까 우비를 산다. 우산이 우비의 원인이 아니다. 비가 원인이다. 그런데 대부분의 AI는 이 구분을 하지 않는다. "같이 일어나는 것"과 "하나가 다른 하나를 일으키는 것"을 구별하지 못한다. 상관관계와 인과관계의 차이다.

온라인 쇼핑몰에서 이것은 약간의 매출 기회를 놓치는 수준의 문제다. 그런데 이것이 병원이라면? 기업 경영이라면? 정부 정책이라면?


한 가지 예를 들어보겠다.

병원에서 외래 예약 노쇼율이 높다. 데이터를 분석해보니, 노쇼 환자의 대다수가 예약 후 2주 이상 대기한 사람들이다. 상관관계는 명확하다: 대기일이 길수록 노쇼율이 높다.

여기서 대부분의 예측 모델은 "대기일이 14일 이상인 환자는 노쇼 확률 38%"라고 알려준다. 맞는 말이다. 그런데 이 정보로 무엇을 할 수 있는가?

"대기일을 줄이면 노쇼가 줄어들 것이다"라고 결론 내리고 싶겠지만, 그것은 인과적 주장이다. 대기일 자체가 노쇼의 원인인지, 아니면 대기일이 긴 환자들이 애초에 노쇼할 가능성이 높은 특성(경증, 교통 불편, 비용 부담)을 가진 것인지, 이 데이터만으로는 알 수 없다.

만약 후자라면, 대기일을 줄이기 위해 의료진을 추가 배치해도 노쇼율은 거의 변하지 않는다. 비용만 늘어난다. 수천만 원짜리 실수가, 상관관계를 인과관계로 착각한 한 줄의 분석에서 시작된다.

이것은 예외적인 사례가 아니다. 거의 모든 조직의 데이터 기반 의사결정에 같은 구조적 문제가 있다.


예측 vs. 인과 추론

예측 모델이 알려주는 것은 "무엇이 일어날 가능성이 높은가"다. 이것은 유용한 정보이지만, 의사결정자가 실제로 필요한 것과는 다르다. 의사결정자가 필요한 것은 "내가 이 조치를 취하면 무엇이 바뀌는가"다.

전자는 예측이다. 후자는 인과 추론이다. 둘은 완전히 다른 질문이고, 완전히 다른 방법론을 필요로 한다.

예측은 패턴을 찾는다. 과거에 이런 조건이 있었을 때 이런 결과가 나왔으니, 비슷한 조건이면 비슷한 결과가 나올 것이다. 인과 추론은 메커니즘을 찾는다. A를 바꾸면 B가 바뀌는가? 바뀐다면 얼마나, 어떤 조건에서?

AI 분야에서 지난 10년간 폭발적으로 발전한 것은 거의 전부 예측 쪽이다. 대규모 언어 모델, 이미지 인식, 추천 시스템 — 전부 상관관계에 기반한 패턴 매칭이다. 놀라울 정도로 정교해졌지만, 여전히 "왜"에는 답하지 못한다.


"우리는 이미 A/B 테스트를 한다"

A/B 테스트는 인과관계를 확인하는 황금 표준(gold standard)이다. 무작위 배정을 통해 "이 변화가 실제로 효과가 있는가"를 검증할 수 있다.

문제는 현실에서 A/B 테스트를 할 수 없는 경우가 훨씬 더 많다는 것이다.

병원에서 인력 배치 모델을 바꾸는 것을 실험할 수 있는가? 환자 안전이 걸린 결정을 무작위로 배정할 수 있는가? 정부가 정책을 반만 시행해서 효과를 비교할 수 있는가? 기업이 핵심 운영 방식을 두 가지 버전으로 동시에 운영할 수 있는가?

대부분의 경우 답은 "아니오"다. 비용이 너무 크거나, 윤리적으로 불가능하거나, 물리적으로 실현 불가능하다. 그래서 가장 중요한 결정일수록 실험 없이 내려진다.

이 간극을 메우는 것이 인과추론 방법론의 핵심이다. 실험을 하지 않고도, 관찰 데이터에서 인과적 효과를 추정할 수 있는 통계적 방법들이 이미 존재한다.

경제학과 역학에서 수십 년에 걸쳐 발전해온 것들이다. 이중차분법, 회귀불연속설계, 도구변수법, 합성통제법 — 이 이름들은 익숙하지 않겠지만, 노벨 경제학상을 여러 차례 낳은 방법론이다.

문제는 이 방법론들이 학술 논문과 박사급 컨설팅 안에 갇혀 있다는 것이다. 병원 운영팀이 이중차분법을 돌리지 않는다. CEO가 도구변수를 설정하지 않는다. 도구가 없어서가 아니라, 그 도구가 현장까지 내려오지 않았기 때문이다.


이것이 왜 지금 중요한가.

AI가 더 보편화되면서, 상관관계 기반의 분석으로 내린 결정의 규모가 커지고 있기 때문이다.

10년 전에는 잘못된 데이터 분석이 잘못된 마케팅 예산 배분 정도의 결과를 낳았다. 지금은 AI가 인력 배치를 추천하고, 대출 심사를 결정하고, 의료 자원을 배분한다. 틀린 분석의 파급 효과가 기하급수적으로 커졌다.

그리고 대부분의 경우, 그 분석이 상관관계인지 인과관계인지를 구별하는 사람이 없다. 대시보드가 패턴을 보여주고, 누군가가 그 패턴에 기반해 결정을 내리고, 결과가 기대와 다르면 "데이터가 부족했다"거나 "모델을 더 학습시켜야 한다"고 결론짓는다. 실제 문제는 데이터의 양이 아니라 질문의 종류가 잘못되었다는 것인데.

내가 하버드에서 연구할 때 반복적으로 관찰한 것이 바로 이것이었다. 미국 Medicare 데이터를 사용해 병원 시장 구조가 의료 질에 미치는 영향을 분석했는데, 단순 상관관계와 인과적 효과가 방향이 반대인 경우도 있었다. 수직통합된 병원이 성과가 좋아 보였지만, 인과적 분석을 적용하면 통합 자체가 성과를 개선한 것이 아니라 원래 성과가 좋은 병원이 통합을 선택한 것이었다. 정책적 함의가 완전히 달라진다.

상관관계만 보면 "통합을 장려해야 한다"가 되고, 인과관계를 보면 "통합은 답이 아닐 수 있다"가 된다. 같은 데이터, 정반대의 결론.


첫 번째 단계

이 문제에 대한 해법은 간단하지 않다. 하지만 첫 번째 단계는 분명하다: 예측과 인과추론이 다른 질문이라는 것을 인식하는 것이다.

대시보드를 보면서 "왜?"라고 물을 때, 그 답이 정말 "왜"에 대한 답인지 확인해야 한다. 두 지표가 함께 움직인다고 해서 하나가 다른 하나의 원인이 아니다. 예측 모델이 위험 요소를 식별한다고 해서 그 요소를 제거하면 결과가 바뀌는 것이 아니다.

조직이 데이터에 더 많이 투자할수록, 이 구분은 더 중요해진다. 데이터는 도구다. 그런데 패턴을 찾는 도구와 원인을 찾는 도구는 다르다. 둘 다 필요하지만, 어느 것을 쓰고 있는지 알아야 한다.

예측이 필요한 순간이 있고, 인과 추론이 필요한 순간이 있다. 그 차이를 모르면, 더 많은 데이터가 더 나은 결정으로 이어지지 않는다. 더 확신에 찬, 그러나 여전히 틀린 결정으로 이어질 뿐이다.