데이터 정합성

[믹스패널] 데이터 정합성을 진짜루 PA Tool 없이 해보려했었습니다 !

It’s a True Story

최근 컨설팅 업무를 진행하면서 작지 않은 규모의 온라인 교육 플랫폼의 데이터 관련 프로젝트를 진행하면서, 첫 번째로 놀란 내용은 그들이 모으고 있는 데이터를 실제로 까봤더니 정합성 체크를 했을 때 어떤 데이터를 믿을 수 있는지 그들 스스로도 확신을 할 수 없는 상황이었고, 광고는 META와 Google, 데이터는 MySQL, 분석툴은 GA4, Amplitude를 사용하고 있었다. 

그들의 요청은 우선 CAC과 LTV를 계산하는 것이었고, 어떤 데이터를 믿을 수 없는 상황에서 처음으로 시도한 것은 우선 데이터의 Centralization이었다. 즉 가장 신뢰도가 높을 서버 데이터 중 고객 정보 Data Set의 Key값들과 이들이 갖고 있는 GA4의 계정이 아닌 새로운 GA4를 생성하여 Sign Up Data만을 간단하고 빠르게 맞춰보는 일이었다. 이를 위해 클라이언트에게 MySQL <> BigQuery Integration을 요청하였고, Key값들의 Lexicon과 Sample Data를 요청 GA4 새롭게 생성 및 GTM을 통한 이벤트 생성 및 서버 데이터에서 user id, created timestamp등 값과 같은 Identical한 Key값등을 생성 이후 GA4 <> BigQuery를 연동 후 서버 데이터와 클라이언트 데이터 값들에서 쓸모없는 데이터들을 제외한 결과 값들이 들어오는 Key값들만으로 Query를 짜서 Summary Table을 만들었다.

참고로, 여기서 서버 데이터와 클라이언트 데이터를 비교한 이유는 예를 들어 페이스북 픽셀은 클라이언트 사이드 데이터로 브라우저 등 에서의 정보로 얻는 부분이고, 서버 데이터는 페이스북의 CAPI(Conversion API)로 올리게 되는, 말 그대로 실제 서버의 정보를 의미하며, 이 두 데이터의 정합성이 높으면 높을 수록 클라이언트 사이드, 즉 PA Tool과 같은 3rd Party의 데이터를 신뢰할 수 있게 됩니다. 두 데이터를 비교하는 방법으로는 클라이언트 사이드와 서버 사이드에서 공통 Key값인 ID값을 사용합니다. Timestamp가 있는 경우에는 어떤 데이터가 누락되었는지를 파악하는데 도움이 되기도 합니다.

이글을 읽는 분들도 대부분 한 번은 경험 해보셨을 데이터 정합성 문제! 

데이터의 정합성 회손의 예, “술은 마셨지만, 음주운전은 하지 않았다.” (이미지 출처 : Google)

*데이터 정합성은 데이터가 서로 모순 없이 일치해야 함을 의미하고 중복 데이터가 많으면 정합성을 맞추기 어렵습니다. 특히 GDPR 개인정보 이슈로 인해 써드파티 데이터 없이도 고객 여정을 깊게 이해하는데 필요 하다는 점에 있어서 데이터 정합성의 중요성은 더 강조되고 있습니다.

그들의 요청은 우선 CAC과 LTV를 계산하는 것이었고, 어떤 데이터를 믿을 수 없는 상황에서 처음으로 시도한 것은 우선 데이터의 Centralization이었다. 즉 가장 신뢰도가 높을 서버 데이터 중 고객 정보 Data Set의 Key값들과 이들이 갖고 있는 GA4의 계정이 아닌 새로운 GA4를 생성하여 Sign up data만을 간단하고 빠르게 맞춰보는 일이었다. 

이를 위해 클라이언트에게 MySQL <> BigQuery Integration을 요청하였고, Key값들의 Lexicon과 Sample Data를 요청 GA4 새롭게 생성및 GTM을 통한 이벤트 생성 및 서버 데이터에서 user id, created timestamp등값과 같은 Identical한 Key값등을 생성 이후 GA4 <> BigQuery를 연동 후 서버 데이터와 클라이언트 데이터값들에서 쓸모없는 데이터들을 제외한 결과값들이 들어오는 Key값들만으로 Query를 짜서 Summary Table을 만들었다

두 개의 Summay Table이 만들어진 후, Looker Data Studio와 연동하여 바로 보기 쉽게 두 개의 Table Chart 생성하여 User Id값과 Timestamp 를 비교함 두 개의 Data Source를 이용하여 Blend Data를 통해 User Id을 통해 Inner Joint를 이용해 Table Chart 생성 양쪽의 데이터에서 공통적으로 갖고 있는 User Id값들을 제외하고 나머지 User Id값, 즉 한쪽에만 있는 데이터들을 분석하여 어떤 특성들이 있는지를 비교하여 원인 분석을 통해 정합성을 3% 이하로 차이를 줄이게 되었다. 

물론 데이터 분석가들은 좀더 쉽게 할 수 있는 방법들이 있겠지만, 비전문분야로서 “마케터”로 할 수 있는 개발자들에게 부탁하기 싫어 할 수 있는 최선이라고 생각한게 이 방법이었고, 차후 서버 사이드와 클라이언트 사이드의 Purchase Event를 비교하면서 몇 차례의 시도를 통해 Purchase 이벤트 정합성을 Sign Up 데이터 수준으로 끌어올릴 수 있었고, 이제 남은 건 광고 데이터 ! 비슷한 패턴으로 META Ads 데이터와 Google Ads 데이터를 Supermetrics 를 이용해 BigQuery로 연동후 Raw Data에서 필요한 데이터들로만 Trim한 Summary Table을 만들고, 두 다른 Data Set에서 YYYY-MM-DD HH:mm:ss에서 YYYY-MM-DD로만 짜른 후 Date로 두 광고 데이터의 Reach, Impression, Click, CPC, CTR, Amount등을 갖고오게 하였다.

이제는 Purchase Amount등을 통해 LTV와 광고 데이터의 Spend Amount를 통해 CAC을 한 눈에 알 수 있었다.

여러분은 이게 아름다운 모습이라고 생각하시나요?

컨설팅을 과거했던 또다른 클라이언트는 믹스패널 스칼러쉽을 통해 도입을 진행했던 케이스로, Tracking Plan, Taxonomy부터 대쉬보드까지 그림을 그려 비개발자들이 쉽고 빠르게 데이터를 보면서 Data Driven적인 의사 결정으로 할 수 있게 도움을 드렸었고, 그때의 경험은 일단 “너무 빠르다“였다.

로딩 속도의 빠름도 의미하지만, 개발자를 귀찮게 하지 않고 몇 번의 클릭만으로 내가 원하는 데이터를 볼 수 있는 것에 큰 Wow를 느낄 수 있었고, 이때부터 Photoshop 처음 배웠을 때처럼, Zapier를 끄적이면서 시간 가는 줄 몰랐던 때와 같이 Depth 있는 것들을 도전하게 되었다.

Why Mixpanel ? 여기 더 자세한 설명을 참고하시면 되고, 이 글에서도 PA Tool을 사용할 이유를 모르겠다면 “조금 더 고생하세요”.

GDPR등의 이유로 개인 정보가 강화되었고 이에 Google과 META에서는 쿠키 및 픽셀을 이용한 광고를 하지 않겠다고 선언하였고, META에서는 CAPI (Conversion API)를 광고 상품으로서 앞에 내세울 수 밖에 없는 상황이 되었고, 이 말은 즉 1st Party의 Server Data 및 CRM Data를 META쪽으로 밀어 넣어야 날카로운 타게팅이 된다는 이야기가 된다.

그럼 방법은 Cafe24를 사용하고 있는 Ecommerce의 경우, 개발자가 아닌 마케터가 작정하고 공격형 CRM 진행을 한다면 아래와 같은 흐름이 될 것이다.

Zapier등과 같은 Application을 통해 Cafe24 API를 통해 Sign Up 또는 Cart 담은 사람의 고객 정보를 Google Sheets 또는 BigQuery등 데이터 저장 후 이메일이나 메세지를 쏘고 FB Ads를 CAPI 잠재고객 등으로 이벤트로 저장한 후 5일간 기다린 후 Order 정보를 Cafe24를 통해 API를 통해 Look Up후 주문을 하지 않은 사람에게는 메세지를 보낼 수 있다.

이런 경우도 Mixpanel 사용시 Cohort 생성을 통해 FB Ads로 바로 찍어줄 수 있고 다름 CRM SaaS와 연결을 하여 보다 간단히 진행할 수 있다. 통합가능한 이 SaaS 리스트를 보라 !

위 BigQuery를 이용한다거나 Zapier등을 이용하면, 빠르게 스스로 모든 것을 컨트롤 할 수 있다는 점에서 큰 장점이 있지만 복잡한 프로세스, 개발자에게의 Dependency, 오랜 시간 소요 및 정합성 체크를 위한 정합성 체크등으로 오히려 장기적으로는 방해 요소가 될 수 있다.

Mixpanel 사용시 이 긴 프로세스를 클릭 몇번만으로 내가 원하는 LTV나 CAC를 한눈에 볼수 있고,  Mixpanel을 통해 페이스북과 CRM을 연결시 코호트를 통해 더 고도화된 타게팅 및 높은 전환율을 올릴 수 있습니다.

여기서 Mixpanel은 더 돋보이게 된다. 한 번 제대로 세팅된 PA Tool을 이용하면

  • 빠르게
  • 빠르게
  • 빠르게
  • 데이터로부터의 인사이트를 뽑고, 그 데이터를 Integration을 통해 CRM, 광고등과 연결하여 더 견고한 Leverage를 올릴 수 있다

이상 삽질 오브 삽질을 통해 Short Cut을 찾기위한 여정을 Short Cut으로 알려드렸습니다

믹스패널 웨비나 받아보기

* 필수 항목
이름을 입력해주세요.
이메일을 입력해주세요.

이 글은 직접 삽질오브 삽질을 통해 얻은 인사이트입니다. 

에디터 : 한네스

글이 마음에 드셨나요? 아래 공유하기 버튼을 눌러주세요.🙌