클릭스트림 데이터를 분석할 때 주의할 점
in Product Analytics on Web-data-analytics
클릭스트림 데이터(clickstream data)란 ‘사용자가 웹 브라우저 상에서 마우스를 클릭해 이뤄지는 행동에 대한 기록’을 말합니다. 이번 글에서는 온라인 비즈니스의 매출에 기여하기 위해 어떻게 클릭스트림 데이터를 분석할 수 있는지 설명하는 “웹 데이터 분석학”(영문제목: Web Analytics 2.0: The Art of Online Accountability and Science of Customer Centricity - Avinash Kaushik)을 읽고 인상 깊었던 내용을 정리해봤습니다. 2013년에 출판된 책이지만 여전히 유익한 내용들이 있어 여러 편에 걸쳐 정리해볼 계획입니다.
1. 클릭스트림 데이터는 ‘왜?’를 설명해주지 않는다.
클릭스트림 데이터는 ‘왜?’를 설명해주지 않습니다. 엄청난 양의 클릭스트림 데이터가 있더라도 행동 가능한 인사이트로 바꾸는 것이 쉽지 않은 이유이기도 합니다. 예를 들어 사용자가 주문 완료 단계까지 조회한 페이지 조회수 데이터를 본다면 사용자가 관심이 가는 상품이 많아 페이지 조회수가 증가했는지, 유저 인터페이스(UI: User Interface)가 혼란스러워 불필요한 페이지를 거치며 페이지 조회수가 증가했는지 파악하기 힘듭니다.
클릭스트림 데이터가 사용자의 행동에 대해서는 많은 것을 알려주지만 그 행동의 이유에 대해서는
알려주지 않아, 실행 가능한 인사이트를 거의 얻을 수 없기 때문이다. 이는 클릭스트림 데이터의
한계 중 하나다. 모든 사용자의 모든 클릭에 대해 알 수 있지만, 어떤 행동이냐에 관한 것뿐이다.
<중략>
이런 데이터는 모두 '왜'를 빠뜨리고 있다. 무엇이 일어났는지도 중요하지만, 사람들이 사이트에서
왜 그런 행동을 하는지는 대단히 중요한 사항이다. 이러한 상황은 내가 웹 분석을 다시 정의하는 가장
중요한 요인이다. 웹 데이터 분석을 통해 왜 그런지를 알아야 할뿐만 아니라, 더불어 온라인
비즈니스에 있어 현명한 결정을 내릴 수 있게 도와주는 중요한 질문들을 제기하는 일도 중요하다.
<웹 데이터 분석학> 중에서
이러한 부분을 고려하지 않으면 자칫 잘못된 해석으로 이어질 수 있습니다. 그리고 잘못된 해석은 잘못된 의사결정으로 이어질 수 있습니다.
2. 목표에 대한 성과를 나타내는 지표를 추적해야 한다.
지난 몇 년간 많은 진전이 있었다. 1992년에 히트가 의미했던 것(누군가가 페이지를 요청했다는 사실)에
대해 말하려는 것이다. 히트는 이제 아무것도 아니다.
우리의 혁신의 다음 단계는 페이지 뷰(Page view)였다.
초기 웹은 광고로 수익을 창출하는 모델이었고, 우리는 모두 페이지 뷰에 매혹되기 시작했다.
페이지 뷰는 여전히 중요한 성공 측정 지표이지만, 점점 쓸모없어지고 있으며 그게 꼭 Ajax와
플래시, 비디오 사이트 때문만은 아니다. 통합적 측정이 필요하고, 그냥 페이지 뷰는 아무것도 아니다.
최근 몇 년간은 방문 수의 세계에 살았다. 방문 수는 거시적 성공을 측정하는 데 쓰였다.
진정한 현재 상태와 성공을 측정하기 위해 성과 기반의 측정 지표로 이동할 필요가 있어 보인다.
다음은, 사이트를 얼마나 많이 방문했는지 얘기하지 말라는 것이다. 전환율을 이야기하고,
전자상거래를 한다면 매출 추이 측정 지표에 대해 말하라. 컨텐츠 사이트라면
방문 깊이(Depth of Visit)를 얘기하라. 페이스북이라면 프로파일 개수가 아닌,
방문자 충성도(Visitor Loyalty) 측정 지표에 대해 말하라.
<웹 데이터 분석학> 중에서
과거 히트(사용자가 페이지를 요청했다는 사실), 페이지 조회수에 집중하던 때가 있습니다. 초기 웹 중 광고로 수익을 창출하는 모델이 많았기 때문입니다. 하지만 히트, 페이지 조회를 진정한 현재 상태와 성공을 나타내는 성과 지표로 보긴 어렵습니다. 온라인 쇼핑몰에서 수많은 히트와 페이지 조회가 일어나더라도 구매로 이어지지 않는다면 소용이 없기 때문입니다. 온라인 쇼핑몰이라면 구매전환율과 매출, 콘텐츠 사이트라면 사용자가 콘텐츠를 얼마나 소비하는가?를 나타내는 지표가 성과 지표가 되어야 할 것입니다. 수치가 높아 그저 보면 기분 좋은 지표보다 목표와 의도에 부합하는 지표를 추적해야 합니다.
3. 지표가 계산되는 방식을 이해하도록 한다.
웹 분석 도구들이 데이터를 수집하고, 처리하는 방식을 이해하는 것이 분석에 도움이 될 수 있습니다. 예를 들어 구글 애널리틱스(Google Analytics)에서 특정 세션의 체류시간이 0으로 확인되는 경우가 있습니다. 세션이 발생하면 최소한 1초는 머무를텐데, 체류시간이 0으로 확인되는 이유는 무엇일까요? 예를 들어 하나의 세션에서 아래처럼 페이지를 이동했다고 가정해보겠습니다.
세션 A: 메인 페이지 => 상품 상세 페이지 => 장바구니 페이지
이 때 하나의 페이지만 조회한 경우에는 페이지에 머무른 시간을 계산할 수 없습니다.
세션 A: 메인 페이지
이유는 분석 도구가 페이지의 체류 시간을 알 수 있는 방법은 2개의 시점을 비교(첫 번째 페이지에 대한 요청 시점과 두 번째 페이지 요청 시점)해야 가능하기 때문입니다.
A 세션: 10:00 메인 페이지 => 10:01 상품 상세 페이지 => 10:05 장바구니 담기 페이지
위 경우 체류시간은 아래와 같습니다.
메인 페이지 체류시간: 1분
상품 상세 페이지 체류시간: 4분
두 개의 페이지 요청 시점을 비교해서 페이지 체류 시간을 계산하기 때문에 맨 마지막 페이지에서 얼마나 시간을 보냈는지는 알 수 없습니다. 이러한 문제는 모든 분석 도구에서 존재하는 문제입니다.
메인 페이지 체류시간: 1분
상품 상세 페이지 체류시간: 4분
장바구니 담기 페이지 체류시간: 0분
사이트 체류시간: 5분(세션 길이: Session Length)
그래서 체류시간은 위와 같이 계산될 수 있습니다. 이렇게 데이터가 처리되는 방식을 이해하면 클릭스트림 데이터에서 완전무결하게 정확한 데이터를 확보하는 것을 힘들 수 있다는 것을 알 수 있습니다. 웹 분석 도구들이 사용자를 파악하는 방식도 같은 맥락입니다. 대개 브라우저 쿠키를 통해 사용자를 식별하는데 사용자가 브라우저 쿠키를 삭제한다면 동일한 장치로 식별할 수 없습니다. 체류 시간 지표를 통해 사용자들의 체류시간, 방문자 수 지표로 방문자의 규모를 알 수 있지만, 그것이 완벽히 정확하지 않을 수 있다는 것을 인지하고 있어야 합니다.
4. 반송률(Bounce Rate) vs 이탈률(Exit Rate)
반송률(Bounce Rate)은 웹 사이트 방문자 세션 가운데 오직 한 페이지만 조회하고 바로 나간 세션의 비율을 말합니다. “와서 실망하고 나갔다.”는 것을 의미합니다. 방문자가 페이지를 조회하고 어떠한 행동을 하지 않고 바로 나가는 것은 어떠한 웹사이트이든 성공적인 사용자 경험이라고 볼 수 없습니다. 그래서 전체적인 사이트의 수준에서 반송률을 측정하고, 최상위 진입 페이지들에 대해 반송률을 측정하는 것이 필요합니다. 부가적으로 가장 많이 찾는 참조 주소(referrer)에 대한 반송률, 검색 키워드별 반송률을 측정하는 것도 도움이 될 수 있습니다.
반송률과 유사한 듯 하지만 다른 지표가 이탈률(Exit Rate)입니다. 이탈률은 단순히 얼마나 많은 사람이 웹사이트의 특정 페이지를 떠났는가를 측정합니다. 즉 세션이 어디서 종료되는가? 그래서 어떤 페이지에서 사용자가 떠나는 것을 막고, 페이지를 고쳐야 하는가를 살펴보는 지표입니다. 하지만 이 지표에는 문제점이 하나 있습니다. 바로 모든 사용자는 결국은 떠나야 한다는 것입니다. 사용자가 A, B, C, D 페이지를 보다가 D 페이지에서 종료했는데 이것이 D 페이지의 문제인 것으로 볼 수 있는가? 라고 생각했을 때 어떻게 해석할 것인가하는 모호함이 생깁니다.
이탈률 지표는 모든 페이지에서의 이탈을 그 페이지의 문제로 이탈하는 것을 가정하게 됩니다. 하지만 그렇게 보기 힘들기 때문에 정말 문제 있는 이탈을 추적하기 위해서는 이탈률보다 반송률을 파악하는 것이 적절합니다. 물론 예외적으로 퍼널(funnel) 단계에서의 이탈 등 사용자 경험 차원에서 복수 개의 단계로 구성된 프로세스를 완료하는지 측정하기 위해 사용하는 것은 합리적일 수 있습니다.
대부분의 사이트에서 전환율은 2% 안팎이다. 98%의 방문자는 분석가가 원하는 결과를 주지 않고
사이트를 떠난다. 사이트가 엉망이라 나가는 경우와, 웹사이트에서 거래를 원하지는 않고 무언가를
보기 위해 왔다가 나가는 경우가 있을 때, 이것을 어떻게 해석할 것인가? 어느 경우가 좋은 경우인가?
데이터가 좋은 상황을 말하는 것인지, 나쁜 상황을 말하는 것인지를 결정하기 위해 분석가의 의견과
지표 해석을 비교하면, 나쁜 지표가 남게 된다. 이탈률은 그런 지표다. 그러면 이탈에 대해서는
신경쓸 필요가 없는가? 정반대다! 데이터에 대한 분석가의 의견 없이 나쁜 이탈과 좋은 이탈을
구분할 수 있는가? 그렇지 않다. 분석가의 새로운 친구, 반송률을 활용하라. 반송률이 뭘 측정하는지
기억하라. 사이트의 특정 페이지에 들어온 사람들 중, 사이트 안에서 아무 곳도 클릭하지 않고
어떤 페이지도 보지 않고 페이지를 떠난 사람이 얼마나 되는가? 그게 '나쁜' 이탈이다.
<웹 데이터 분석학> 중에서
5. 클릭스트림 데이터는 정도만을 나타낸다는 것을 기억하도록 한다.
첫 번째로 설명한 “클릭스트림 데이터는 ‘왜?’를 설명해주지 않는다.”와 이어지는 내용입니다. 대부분의 분석 도구에서 사이트 내 체류시간을 인게이지먼트(engagment) 지표의 일종으로 봅니다. 하지만 문제는 뉴스 사이트에서 10분 동안 만족스럽게 시간을 보낸 사람과 9분 동안 머물렀지만 불만스러웠던 사람을 구분하는 것은 불가능합니다. 단순히 체류시간이 높을 때 인게이지먼트가 높다고 가정하면 둘다 인게이지먼트가 높은 경험을 한 것입니다.
기본적으로 클릭스트림 데이터를 통해서는 인게이지먼트의 정도를 측정할 수 있을 뿐, 그 종류를 측정할 수는 없습니다. 그러므로 클릭스트림 데이터로 의사결정을 한다면 데이터가 지닌 한계를 이해해야 합니다.
방문자가 더 많은 페이지를 볼수록, 방문자의 여정과 인게이지먼트의 정도가 높아진다.
그러나 이 지표가 인게이지먼트의 종류를 구별해주진 않는다.
웹 분석 데이터만으로는 방문자 인게이지먼트의 종류를 식별할 수 없다.
웹 분석 맥락에서 고객 인게이지먼트를 논의하면, 그 정도에 대해 논의하는 것이다.
따라서 경영진에게 정량적 데이터를 가져갈 때는, 인게이지먼트 지표가 정도를 다룬다는 사실을
우선적으로 언급해야 한다.
<웹 데이터 분석학> 중에서
나가며
클릭스트림 데이터를 분석할 때의 주의점을 살펴봤습니다. 그러다 보니 클릭스트림 데이터의 한계에 대해 주로 언급했습니다. 하지만 이 글에서 다루고자 하는 내용은 클릭스트림 데이터는 문제가 많은 데이터여서 쓸 수 없다는 것이 아닙니다. 수많은 기업들이 이미 데이터 수집 도구를 통해 클릭스트림 데이터를 수집하고, 이를 비즈니스에 활용하고 있습니다. 클릭스트림 데이터의 한계점을 더욱 잘 이해하고 있어야 더욱 올바른 방향으로 분석하고, 더 나은 의사결정으로 이어질 수 있을 것입니다. 도움이 되었으면 좋겠습니다.