<신호와 소음>을 읽고


<신호와 소음>은 다양한 분야에서 예측에 성공하며, 명성을 얻은 네이트 실버의 저서입니다. 어떻게 하면 데이터 속에서 수많은 소음을 거르고 올바른 신호를 찾아내어 더 나은 예측을 할 수 있는지를 다루는 책입니다. 이번 글에서는 책을 읽으면서 스스로에게 물었던 질문과 그에 대한 답을 정리하고 공유해보려고 합니다.

미래의 상황을 잘 설명하는 데이터가 ‘신호’, 그렇지 못하다면 ‘소음’

<신호와 소음>을 읽으며 가장 먼저 들었던 생각은 ‘그렇다면 수많은 데이터 중 무엇이 신호이고, 무엇이 소음일까?’입니다. 제 결론은 예측하려고 하는 미래의 상황과 맥락을 잘 설명하는 데이터가 ‘신호’이고, 그렇지 못한 데이터가 ‘소음’이라는 것입니다.

<신호와 소음>에서는 “out of sample(표본 외)” 문제를 소개합니다. “out of sample(표본 외)”은 말 그대로 이 때까지 경험한 표본 외의 다른 표본이라는 말입니다. 운전경력이 상당한 운전자이더라도 평소와 음주를 하고 핸들을 잡은 경우는 완전히 다른 경우로 봐야 합니다. 당연한 이야기처럼 들리지만, 2008년 금융위기 때 신용평가사들은 주택가격은 언제나 제자리를 지키거나 상승했기 때문에 한 주택 소유자의 모기지(mortgage: 주택담보대출)와 다른 주택 소유자의 모기지가 거의 상관관계가 없다고 가정했습니다. 이에 따라 CDO(부채담보부증권: 여러 개의 주택담보대출을 묶어서 만든 신용파생상품) 관련 지급불능 위험을 200배나 낮게 평가했습니다. 하지만 주택가격은 폭락하고, CDO가 연쇄적으로 채무불이행되면서 모두가 아는, 참혹한 결과를 맞이하게 됩니다.

2008년 금융위기에 사람들은 주택가격의 폭락을 경험한 적이 없었기에 “이때까지 무사고였어”라는 정보에 집중했습니다. 20년 무사고의 운전자라도 음주를 했다면 다르게 보는 것이 맞습니다. 상황은 계속 변하고, 어제 경험한 샘플이 오늘 완전히 같지 않습니다.

성공한 도박사 ‘불가리스’ 역시 모두가 NBA 농구팀 레이커스의 ‘지난 시즌 성적’과 ‘시즌 초반 부진’이라는 소음에 집중할 때, 레이커스 성공의 신호를 봅니다. 감독을 새로 맞이했다는 점, 상당히 힘든 경기 일정을 소화해야 했다는 점, 부상으로 다친 코비 브라이언트가 아직 투입되지 않았다는 점 때문입니다. ‘지난 시즌 성적’은 지난 시즌의 성적이기 때문에 소음이 아니라 지난 시즌과 이번 시즌의 상황이 다르기 때문에 소음이었던 것입니다. 지난 시즌의 레이커스와 이번 시즌의 레이커스가 크게 다르지 않았다면 ‘지난 시즌 성적’은 소음이 아닌 신호였을 것입니다.

인지 편향(Cognitive bias) 경계하기

“사람들은 자기 식대로 사물을 추론한다. 그 사물의 목적을 지워버린다.”

셰익스피어의 희곡 <율리우스 카이사르>에서의 키케로의 말입니다. 저자는 이러한 키케로의 말에 아래와 같이 덧붙입니다.

“키케로의 경고는 새롭게 발견된 풍부한 정보를 붙잡으려는 사람들이 귀담아야 할 좋은 충고다. 수많은 소음에서 올바른 신호를 가려내기란 어려운 일이다. 데이터가 우리에게 들려주는 이야기는 대개 우리가 듣고자 하는 이야기다. 우리는 보통 그 이야기가 행복한 결말로 이어지리라고 확신한다.”

<신호와 소음>에서는 다양한 분야에서 편향으로 인해 잘못된 예측을 하는 사례를 소개합니다.

“선수들은 처음 포커 게임에 발을 들여놓을 때 자기가 장기적 승자가 되리라고 가정한다.”

“투자자들을 괴롭히는 인지 편향(cognitive bias)은 여러 가지가 있다. 이 가운데 ‘자기 과신’이 가장 해로운데, 여기에는 강력한 근거가 있다. 행동경제학은 사람들이 자신이 한 예측을 지나치게 믿는다는 점을 밝혀냈다.”

대부분의 사람들이 편향적 사고에서 자유롭기란 쉽지 않을 것입니다. 하지만 이를 경계하지 않으면 예측의 결과는 완전히 잘못될 것입니다. 2008년 금융위기, 사람들은 탐욕과 자기확신으로 모델의 가정을 잘못 세웠고, 그 결과 예측도 완전히 빗나갔습니다.

책을 덮고, ‘앞으로 예측을 할 때 무엇을 가장 주의해야할까?’ 생각했을 때 가장 경계해야할 것은 인지적 오류라는 생각이 들었습니다. 특히 예측할 수 없는 것을 쉽게 예측할 수 있다고 판단하거나, 내가 가지고 있었던 생각을 강화하는 쪽으로만 증거를 받아들인다면 예측이 잘못된 방향으로 빠질 뿐더러, 쉽게 수정할 생각을 하지 못해 더욱 치명적일 것입니다.

예측은 목적이 아니라 수단이다.

“우리가 하는 모든 예측은 빗나갈 수 밖에 없다는 사실을 명심해야 합니다. 그러기에 얼마나 빗나가는지, 빗나갔을 때는 어떻게 해야 하는지 이해하고, 빗나갔을 때 발생할 수 있는 비용을 최소화하는 것이 예측과 관련해서 우리가 해야 하는 일입니다.”

책 속에 언급된 하버드대학교 보건대학원 알렉스 오조노프(Alex Ozonoff) 박사의 말입니다. 앞으로 예측을 하는 데 있어 가장 기억해야 할 말을 꼽았을 때 위의 말이 생각났습니다. 분석 업무를 하다 보면, 초기의 비즈니스에서의 목표를 중심으로 업무를 보기보다는 시간이 지날수록 모델의 성능 지표를 개선하는 데에만 집중하게 되는 경우가 많았던 것 같습니다. 예측 문제를 해결하는 것은 분석가의 당연한 업무이지만, 전체적인 비즈니스 내에서 “예측 문제를 해결하는 것의 의미”를 보지 못한다면 이 역시 적절하지 못하다는 생각이 듭니다. 예측이라는 행위 자체가 중요한 것이 아니라 사업적 목표를 위해 예측을 수행할텐데 ‘예측은 목적이 아니라 수단이다’라는 말을 기억하지 못한다면 정작 예측을 하는 이유와 큰 그림은 놓치게 될 것입니다.

“세 개 측정점을 바탕으로 예측을 한다는 건 기본적으로 어리석은 짓 아닐까요? 우리가 할 수 있는 건 어쩌면 시나리오를 여러 개 준비하고 그 대비책을 세우는 게 아닐까 합니다.”

책 속에 언급된 역학자 마크 립시치의 말입니다. 예측 수치를 그저 내놓는 것이 분석가의 일은 아닐 것입니다. 비즈니스의 목표에 맞게 분석을 설계하고, 보유 데이터와 상황에 맞게 대안을 제시할 수 있는 분석가가 되어야겠다는 반성을 하게 되는 대목이었습니다.

나가며

  • 확률적으로 생각하라.
  • 속도를 늦추고 의심하라.
  • 더 새롭고 나은 정보가 나타날 때마다 자기가 한 예측을 업데이트해야 한다.

저자의 조언의 앞에는 “불확실하기에”라는 말이 숨어 있다는 생각이 듭니다. 불확실하기에 내가 주목한 정보가 어제와 다른 out of sample은 아닌지 의심해야 하고, 편향에 주의해야 하며, 예측이 빗나갈 수 있다는 것을 인지해야 한다는 것을 배웠습니다. 책의 전반에 나오는 베이즈주의적 추론 역시 이러한 저자의 생각에 기인한 것이라는 생각이 듭니다.

“인간의 판단이 있는 곳이라면 어디든 편향이 있게 마련이다. 좀 더 객관적인 방법은 우리가 설정한 여러 가정이 우리가 하는 예측에 끼칠 수 있는 영향을 인식하고 자신에게 끊임없이 문제를 제기하는 것이다.”

저자의 말처럼 생각을 늦추고, 스스로 세운 가정과 설계에 끊임없이 의문을 제기하여 더 나은 예측을 하는 분석가로 성장해나가야겠습니다.