Mobile Attribution in The Privacy-First Era

개요

개인정보 보호의 중요성이 대두되면서 모바일 어트리뷰선의 패러다임은 크게 변화하였다. 과거에는 IDFA, GAID 등의 광고 식별자를 통해 명확한 측정이 가능하였으나, 사용자의 개인정보 보호를 최우선으로 하는 현대에는 더이상 Deterministic한 사용자 식별이 불가능하다.

이 글에서는 Apple의 SKAdNetwork(SKAN)와 Google의 Privacy Sandbox로 대표하는 모바일 환경의 개인정보 보호 프레임워크에 대해 설명하고, 어떻게 확률론적으로 모바일 어트리뷰선을 획득하는지에 대해 알아보겠다.

어떻게 알고 오셨어요?

1970년대, 미국 디트로이트의 자동차 판매원 '조 지라드(Joe Girard)'는 15년간 13,001대의 차를 팔아 '세계에서 가장 위대한 세일즈맨'으로 기네스북에 올랐다.

그의 성공 비결은 차를 파는 기술이 아니라, 고객을 끊임없이 만들어내는 '시스템'에 있었다. 그는 자신의 고객이 될 만한 사람을 소개해 주는 사람들을 '버드 도그(Bird Dogs, 사냥개)' 라고 불렀다. 이발사, 식당 주인, 은행원 등 주변의 모든 사람이 그의 '버드 도그'가 될 수 있었다.
그의 규칙은 간단했다. "저에게 손님을 보내주십시오. 그 손님이 차를 사면, 제가 바로 당신에게 25달러를 보내드리겠습니다."
이 시스템이 완벽하게 돌아가려면 가장 중요한 전제 조건이 있었다. 바로 "이 고객을 누가 보냈는가?" 를 한 치의 오차도 없이 파악하는 것이었다.
조 지라드는 새로운 고객이 오면 가장 먼저 "누가 당신을 제게 보냈습니까?"라고 물었다. 그리고 판매가 성사되면 장부에 꼼꼼히 기록해 두었다가, 약속한 25달러를 소개자에게 반드시 보냈다.

조 지라드의 일화와 마찬가지로 모바일 앱 서비스 생태계에서는 어떤 광고활동이나 마케팅이 고객의 유입이나 결제로 이어졌는지 추적하고 그 공로를 찾아내는데, 그 과정을 Mobile Attribution 이라고 한다.

Deterministic Attribution

Attribution을 정확히 측정하는 것은 매우 중요하다. 이 손님이 이발사의 소개를 받고 왔는지, 은행원의 소개를 받고 왔는지를 알아야 누구에게 얼마의 광고료를 줄지 판단할 수 있기 때문이다.
'이 손님은 누구의 소개를 받고 왔는가?' 이 질문에 답하기 위해 모바일 플랫폼은 Ad Network에게 다음 정보를 전달하였다.

IDFA (Identifier for Advertisers): Apple이 iOS 기기를 위해 제공하는, 사용자가 재설정할 수 있는 광고 식별자
GAID (Google Advertising ID): Google이 Google Play 서비스가 설치된 Android 기기를 위해 제공하는 광고 식별자

IDFA, GAID는 모두 사용자의 기기를 정확히 식별할 수 있는 고유의 값이다. 따라서 IDFA 와 GAID 를 알면 정확한 Mobile Attribution을 획득할 수 있다.

사용자가 광고를 클릭
Ad Network는 해당 기기의 IDFA / GAID를 캡처 후 저장
사용자가 앱을 설치, 처음으로 실행
100% 정확한 사용자 유입 경로를 알 수 있는 Attribution 획득

이러한 Deterministic 한 Attribution 획득 방식으로 인해, 광고주들은 어떤 광고가 어떤 사용자를 유입시켰는지에 대한 명확한 데이터를 확보할 수 있었고, 이는 모바일 광고 생태계를 성장시키는 기반이었다. 하지만 이제 공짜점심은 끝났다. 모바일 플랫폼의 개인정보 보호 강화 기조 아래, 사용자 동의 없이 Deterministic Attribution 획득은 불가능하다. 이 글을 읽고 있는 당신도 그러겠지만, 사용자들은 더 이상 나를 특정할 수 있는 개인정보 제공에 동의하지 않는다.

Probabilistic Attribution

Apple의 ATT(AppTrackingTransparency)와 SKAN(SKAdNetwork) Framework

상술하였듯, 애플은 더 이상 사용자 동의 없이 IDFA를 제공하지 않는다.(정확히 말하면 '명시적인' 사용자 동의 없이).

따라서 iOS14+ 이후부터는 기기의 IDFA 값을 가져오려면 ATT(AppTrackingTransparency) 프레임워크를 통해 반드시 명시적으로 사용자의 권한을 획득하여야 한다. 사용자가 동의를 거부하면 상기 스샷과 같이 IDFA 값은 000000~ 으로 비워진다.

이는 광고주 및 Ad Network 모두에게 치명적인 문제다. 내 광고가 누구에 의해 노출이 되었는지 명확히 알지 못하기 때문에 어느 경로를 통해 고객이 유입되었는지 파악할 수 없고, 광고 비즈니스의 대전제(어떻게 알고 오셨어요?)가 무너지게 된다.

대안으로, 애플은 개인을 특정할 수는 없는 제한된 정보를 제공하는 광고 식별자 획득 방식을 제공하는데, 그것이 SKAN(SKAdNetwork)이다.

SKAN 의 데이터 흐름은 다음과 같다.

Ad Network: 광고를 개제
Ad Network: 제한된 Attribution(Postback) 수집 URL 등록
사용자: 광고를 클릭 -> 앱 설치
Apple: 광고사업자가 개인 추적이 어렵도록 일정 기간 지연(~최대 144시간)
Ad Network: 일정시간 경과 후 Postback 으로 캠페인 ID 및 제한된 사용자 정보(Conversion Value) 수신(IDFA 없음)

여기서 유일하게 사용자 정보를 얻어낼 수단은 CV(Conversion Value) 뿐이다. CV는 0~63 사이의 정수로 표현되는 6bit 값으로, 광고주는 64 가지 값에 매핑하여 사용자의 앱 설치 후 행동을 수집할 수 있다. 예를 들어 CV가 1이면 튜토리얼 완료, CV가 2이면 최초 인앱 구매 완료 등의 값을 사전에 정의, Postback 시점에 획득하여 사용자를 분석할 수 있다. 알고 있겠지만 6bit 는 메우 제한된 값으로, CV를 단독으로 이용하여 사용자를 특정할 방법은 없다.

말하자면 Apple 은 데이터 측정의 심판이자 유일한 처리자 역할을 자처한다. 광고주, Ad Network 는 모두 Apple 이 정해둔 엄격한 규칙 안에서 Apple이 제공하는 최종 결과물을 수동적으로 받아 해석해야 한다.

Android 의 Privacy Sandbox와 Attribution Reporting API

앞서 Apple이 모든 Attribution 획득 경로에 관여, 통제하면서 결과만 전달하는 방식과는 대조적으로, Google은 광고 생태계 참여자들이 개인정보 보호 기술을 기반으로 자체적인 프라이버시 보호 솔루션을 구축할 수 있도록 빌딩블록을 제공한다. 그 핵심 빌딩블록이 바로 Privacy Sandbox 이다.

Privacy Sandbox는 다음 3가지 핵심 목표를 갖는다.

기존의 추적 메커니즘을 대체할 새로운 개인정보 보호기술을 구축하는 것.
퍼블리셔와 개발자가 침해적인 추적 없이도 무료 온라인 컨텐츠를 계속 제공할 수 있도록 지원하는 것.
업계와의 협력을 통해 새로운 인터넷 개인정보 보호 표준을 구축하는 것.

요약하면, 개인정보를 보호하면서도 퍼블리셔와 개발자가 광고 기반 비즈니스를 지속할 수 있도록 하는 업계 표준을 만드는 것이다.

Google의 Privacy Sandbox가 기존의 Attribution 획득방식과 기술적으로 가장 크게 구별되는 부분은 사용자 디바이스 안에서 Ad Network 정보와 매칭되는 Attribution을 만들어낸다는 점이다.

디바이스 안에서 Attribution을 획득하기 때문에 광고 비즈니스 사업자는 사용자의 개인정보를 디바이스 밖으로 빼내지 넘기지 않고도 유의미한 사용자 전환 정보를 얻을 수 있다.

이렇게 사용자 단말에서 생성된 익명화된 Attribution은 Attribution Reporting API(줄여서 ARA)를 통해 수집된다.

ARA를 통해 수집되는 리포트는 크게 2가지 유형이 존재한다.

Event-Level Report: "어떤 광고가 전환을 유도했는가?"와 같이 제한적이지만 세분화된 정보
Summary Reports: "캠페인의 총매출액과 ROI는 얼마인가?"와 같이 구매 금액 등 상세한 전환 데이터를 암호화 및 집계된 형태로 제공

Event Level Report는 익명화된 개별 정보이다. 개별정보이지만 익명화 되어 있기 때문에 많은 정보가 담겨있지는 않다. Attribution 정보와 사용자 클릭, 조회 등의 이벤트를 매핑한 데이터를 제공한다. 이 리포트는 캠페인 도달율 측정이나 Attribution 집계 등의 용도로 적합하다.

반면, Summary Report는 사용자 데이터를 집계한 통계 결과물이다. 개별화된 정보는 없지만 전환가치, ROI, 사용자 세그먼트 별 캠페인 성과분석 등 깊이있는 리포트를 제공한다.

이 데이터들은 암호화된 형태(=encrypted aggregatable report)로 Ad tech platform(Appsflyer, Meta, Applovin 등등..)에게 전달되며, 이 암호화된 데이터를 기반으로 필요한 쿼리를 Cloud Trusted Execution Environment에 위치한 Aggregation Service 에 질의한다.

Cloud Trusted Execution Environment(TEE)?
TEE란 구글에서 제안하는 보안 기준을 충족하는 & 신뢰할만한 클라우드 제공자의 인프라 위에서 동작하는 격리된 환경이다. TEE의 보안 기준을 충족하면 Ad Tech Platform 기업에서 자체적으로 구축, 운영할 수 있다.

Executive Summary

지금까지 개인정보 보호의 시대에 어떻게 Mobile Attribution 을 획득할 것인가에 대한 내용을 알아보았다. 과거처럼 Deterministic하게 Attribution을 획득하던 시대는 끝났으며, 각 이해관계자들은 개인정보 보호의 시대의 Attribution 획득 방식을 준비해야 한다.

결정론적 시대의 종말: 개인정보 보호 강화로 IDFA, GAID 기반의 1:1 사용자 추적이 불가능해졌다.

확률론적 시대로의 전환: 이제는 명확한 데이터 대신, 제한된 데이터를 바탕으로 성과를 '추론'해야 한다.

Apple (SKAN)의 접근: Apple이 모든 과정을 통제하는 '블랙박스' 방식이다.

Google (샌드박스)의 접근: '온디바이스 매칭' 을 핵심으로, 광고 생태계가 활용할 수 있는 '빌딩 블록' 을 제공한다.

Ad Tech의 역할 변화: MMP, 광고 네트워크 등 Ad Tech는 암호화된 리포트를 받아, 직접 클라우드 보안 환경(TEE)에 'Aggregation Service' 를 구축하고 운영하여 데이터를 처리해야 한다.

Syntax	Description	Examples
`"` keyword `"`	Finds the string within quotes, including spaces. Case-insensitive. (Escape quotes inside with `\"`)	`"Hackers' Pub"`
`from:` handle	Finds content written by the specified user.	`from:hongminhee` `from:hongminhee@hollo.social`
`lang:` ISO 639-1	Finds content written in the specified language.	`lang:en`
`#` tag	Finds content with the specified tag. Case-insensitive.	`#HackersPub`
condition condition	Finds content that satisfies both conditions on either side of the space (logical AND).	`"Hackers' Pub" lang:en`
condition `OR` condition	Finds content that satisfies at least one of the conditions on either side of the OR operator (logical OR).	`#HackersPub OR "Hackers' Pub" lang:en`
`(` condition `)`	Combines the operators within the parentheses first.	`(#HackersPub OR "Hackers' Pub" OR "Hackers Pub") lang:en`