넥슨 코리아는 게임 이벤트와 프로모션의 효과를 정교하게 측정하고 분석할 수 있는 자동화 솔루션을 개발해 사용하고 있다. 24일 개최된 NDC(Nexon Developers Conference) 2025에서 넥슨 코리아 인텔리전스 랩스 분석실의 오진석, 김유진 분석가가 '효과 분석 솔루션 개발기'를 주제로 발표를 진행했다.
이번 발표는 단순히 이론적인 분석 방법론을 소개하는 것이 아니라, 실제 현업에서 분석가들이 겪는 문제점과 이를 해결하기 위한 실용적인 접근법에 초점을 맞췄다. 넥슨이 40개 이상의 라이브 게임을 운영하면서 축적한 노하우를 바탕으로, 효과 분석의 표준화와 자동화를 통해 전 직군이 활용할 수 있는 솔루션을 구축한 과정을 상세히 공개했다.


넥슨의 효과 분석 솔루션 개발은 현실적인 문제에서 출발했다. 오진석 분석가는 "입사 초반 팀장님으로부터 이벤트 효과 분석 업무를 받았을 때, 처음에는 단순하게 이벤트 전후의 유저 변화만 비교하면 될 것이라고 생각했다"고 회상했다. 예를 들어 이벤트 참여 후 플레이 타임이 30분 증가했다면, 이를 이벤트의 긍정적 효과로 해석할 수 있을 것이라는 단순한 접근이었다.
하지만 현실은 그렇게 간단하지 않았다. 이벤트 시기가 방학 시즌과 겹치면서 자연스럽게 게임 플레이 시간이 늘어날 수 있고, 동시에 진행된 게임 업데이트로 인해 콘텐츠가 추가되면서 플레이가 증가했을 가능성도 있었다. 즉, 측정된 30분의 증가에는 이벤트 효과뿐만 아니라 다른 외부 요인들의 영향도 포함되어 있을 수 있다는 것이다.


이러한 잘못된 측정이 의사결정의 근거가 된다면 오히려 게임 운영에 악영향을 줄 수 있다는 우려가 제기됐다. 오 분석가는 "좀 더 정교하게 효과를 측정할 방법을 고민하게 되었고, 자연스럽게 AB 테스트 방식에 가까운 접근법을 떠올렸다"고 설명했다. 비록 사전 설계된 AB 테스트는 아니지만, 유사한 방식으로 비교 그룹을 만들어 측정하면 보다 신뢰할 수 있는 결과를 얻을 수 있을 것이라는 판단이었다.
이러한 문제 인식은 단순히 이론적인 고민에 그치지 않았다. 넥슨처럼 다양한 게임을 동시에 운영하는 환경에서는 크고 작은 이벤트와 프로모션이 지속적으로 진행되며, 각각의 효과를 정확히 측정하는 것이 게임의 성공적인 운영을 위해 필수적이기 때문이다.


효과 분석에서 두 번째로 대두된 문제는 업무의 반복성과 비효율성이었다. 넥슨은 현재 40개가 넘는 게임을 라이브 서비스하고 있으며, 각 게임마다 다양한 팀들이 크고 작은 이벤트와 프로모션을 지속적으로 진행하고 있다. 게임 수가 늘어나고 플랫폼과 채널이 다양해지면서 효과 분석 요청도 기하급수적으로 증가할 수밖에 없는 상황이었다.
오진석 분석가는 "처음에는 하나하나 대응하는 것도 괜찮았지만, 어느 순간부터는 분석 요청이 늘어날수록 제 야근도 따라 늘어나고 있는 걸 뼈저리게 느끼게 되었다"고 토로했다. 겉으로는 비슷한 분석처럼 보여도 하루나 몇 시간 안에 완료할 수 없는 경우가 대부분이었는데, 그 이유는 이벤트 성격마다 측정 기준이 달랐고 사용하는 데이터의 위치나 정의도 모두 달랐기 때문이다.


특히 실무자와의 커뮤니케이션 과정에서 발생하는 시간 소모가 심각했다. 메일이나 메신저를 통해 요구사항을 파악하고 분석 기준을 조정하는 과정에서 하루 이틀이 금방 지나가는 경우가 빈번했다. 결국 실무자와 반복적인 커뮤니케이션을 거쳐 기준을 다시 조정하고 분석을 다시 해야 하는 상황이 자주 발생했다.
분석 요청이 늘어나면서 분석이 연기되는 경우도 종종 발생했다. 실무자들은 "효과가 있는지 빨리 보고 싶다", "데이터를 직접 확인해 볼 수는 없는지", "직접 효과 분석할 수는 없는지"에 대한 목소리를 점점 높였다. 하지만 데이터 접근 권한 등의 인프라 문제와 데이터 집계 및 처리, 통계적 해석 등의 전문성 요구사항 때문에 가이드가 있더라도 쉽지 않은 상황이었다.


이러한 문제들을 해결하기 위해 넥슨은 세 가지 목표를 설정했다. 첫 번째는 다양한 실험 효과를 일관되게 측정하고 비교할 수 있도록 표준화된 분석 방법을 선정하는 것이었다. 이를 위해 채택한 방법론이 바로 '이중차분법(Difference-in-Differences)'이다.
이중차분법은 효과 분석과 인과추론 분야에서 널리 사용되는 기법으로, 이벤트에 참여하지 않은 유저들을 비교 그룹으로 설정하여 자연스러운 플레이 변화를 확인하는 방식이다. 예를 들어, 비교 그룹의 플레이 시간이 방학이나 대규모 업데이트 등으로 자연스럽게 증가했다면, 이벤트 참여 그룹도 그와 유사하게 증가했을 가능성이 높다고 가정한다. 따라서 실제로 확인된 지표 변화에서 이런 자연적 변화를 제외하면 순수한 이벤트 효과를 측정할 수 있다는 논리다.


넥슨이 이 방법을 표준 분석 방식으로 채택한 이유는 정교한 측정 외에도 두 가지 실무적 장점 때문이었다. 첫째, 비교 구조를 통해 결과를 쉽게 해석할 수 있다는 점이다. 두 그룹의 변화를 나란히 보면 효과의 차이가 눈에 보이기 때문에 실무자나 의사결정자에게 설명하기 용이하다. 둘째, 시간의 흐름에 따른 지표 변화를 반영할 수 있다는 점이다.
게임에서는 유저의 몰입도(인게이지먼트)와 리텐션을 파악하는 것이 매우 중요한데, 전후 차이만 본다면 이런 변화의 흐름을 놓칠 가능성이 높다. 반면 이중차분법은 두 그룹 각각의 변화 추세를 비교하고 그 차이를 바탕으로 효과를 측정하기 때문에 시간의 흐름에 따른 변화 패턴을 해석할 수 있다는 것이다.


표준화된 분석 방법론을 도입했지만, 여전히 핵심적인 문제가 남아있었다. 바로 비교 그룹을 얼마나 유사하게 구성하느냐의 문제였다. 오진석 분석가는 "비교 그룹이 효과 측정 그룹과 다르게 행동하는 집단이라면, 그 차이는 이벤트 효과가 아니라 기존 행동 차이일 수 있다"고 지적했다.
예를 들어, 효과를 측정하고자 하는 대상이 게임을 적극적으로 즐기는 헤비 유저인데, 비교 그룹이 평소 게임을 가볍게 즐기는 라이트 유저라면 문제가 된다. 이 경우 두 그룹 간 지표의 차이는 이벤트 때문이 아니라 유저 특성 차이 때문일 가능성이 높기 때문이다. 따라서 실험군과 유사한 유저들로 구성된 비교 그룹이 반드시 필요했다.


넥슨은 이 문제를 해결하기 위해 딥러닝 기술을 활용한 유사 유저 탐색 시스템을 개발했다. 이 시스템은 총 3단계로 구성된다. 첫 번째는 유저 간의 비슷함을 계산할 수 있는 데이터 구성 단계다. 두 번째는 구성된 데이터를 딥러닝 모델을 사용하여 임베딩 벡터로 변환하는 단계다. 마지막으로 유저의 임베딩 벡터를 기반으로 거리를 계산하고 가까운 유저를 선별하여 최종 유사 비교 그룹을 구성하는 단계다.
오 분석가는 "마치 나와 똑같은 MBTI를 가진 사람을 주변에서 찾을 수 있는 것처럼, 데이터 기반으로 넥슨의 수백만 유저 중에서 비슷한 플레이 성향을 가진 유저들을 찾아낼 수 있다"고 설명했다. 실제로 이렇게 구성한 그룹이 훨씬 해석과 추적이 가능하여 신뢰도 있는 비교 그룹이 될 수 있었다고 덧붙였다.


정교한 측정 방법론과 유사 유저 매칭 시스템을 구축했지만, 여전히 "이렇게 측정된 결과가 정말 믿을 만한가?"라는 질문이 남아있었다. 유사 유저를 탐색하고 정교하게 측정하더라도 그 결과가 우연인지 아닌지, 통계적으로 의미가 있는지 확인하지 않으면 신뢰하기 어렵기 때문이다.
넥슨은 이를 해결하기 위해 3단계 통계적 검증 절차를 설계했다. 첫 번째는 두 그룹이 이벤트 전에도 게임 플레이 흐름이 비슷했는지 확인하는 단계다. 이 과정을 통해 두 그룹이 과거에 비슷하게 게임을 플레이했는지 통계적으로 확인할 수 있으며, 미래에도 두 그룹이 비슷하게 플레이했을 것이라고 충분히 추정할 수 있다. 즉, 이중차분법을 적용할 수 있는 조건을 확인하는 것이다.


두 번째는 두 그룹이 얼마나 유사했는지 확인하는 단계다. 두 그룹이 같은 흐름으로 플레이하고 있더라도 정말로 행동 수준이 유사한지는 또 다른 문제였다. 그래서 데이터 분포를 비교해 실제로 얼마나 가까운 유저들로 비교군이 구성되었는지, 비교 가능할 정도의 유사성을 갖췄는지 확인했다.
마지막은 측정된 효과가 통계적으로 유의미한 변화인지 검증하는 변화량 검증 단계다. 유사한 비교 그룹이 형성되고 이중차분법을 통해 효과를 측정했을 때, 측정된 효과가 단순한 수치상의 차이인지 아니면 실질적인 변화인지 확인이 필요했다. 통계적 유의성 검증을 통해 이 효과가 우연히 발생할 수 있는 수준인지, 혹은 신뢰할 수 있는 변화인지를 검토하는 것이다.


기술적인 정교함을 갖춘 분석 시스템이 완성되었지만, 여전히 실무자들이 쉽게 사용할 수 있는 환경 구축이 과제였다. 김유진 분석가는 "분석이 익숙하지 않거나 인프라 접근이 어려워서 시도조차 힘들었던 분들도 '나도 이거 해볼 수 있겠다'라고 말할 수 있는 환경을 만드는 게 마지막 과제였다"고 설명했다.
넥슨은 이를 위해 기존의 통합 분석 환경에서 사용할 수 있는 노트북 템플릿 형태로 솔루션을 제공했다. 효과를 측정하고 싶은 유저 목록만 있다면 약 10분 안에 분석 결과가 나오도록 시스템을 구축했다. 노트북에서 필요한 설정과 데이터를 입력하면 전처리부터 비교 그룹 만들기, 분석 검증, 리포트 생성까지 전체 과정이 자동으로 수행된다.


최종 결과물은 두 종류의 리포트를 통해 제공된다. 측정한 효과와 통계적으로 검증한 사항들이 시각화되어 나타나며, 특히 핵심 지표들과 시간에 따른 변화가 표현되어 있어서 실제 게임 플레이의 맥락을 직관적으로 확인할 수 있다. 단순히 수치만 보여주는 것이 아니라 AB 테스트처럼 대조군 대비 실험군의 지표 변화를 시각적으로 확인할 수 있고, 플레이 타임이나 구매 금액의 증감도 한눈에 파악할 수 있다.
또한 넥슨은 단순히 분석을 자동화하는 데서 끝나지 않고, 사용자가 분석 목적에 따라 필요한 데이터를 직접 선택할 수 있도록 기능을 확장했다.
예를 들어 신규 유저 대상 이벤트 효과를 본다면 가입일이나 튜토리얼 완료 여부 같은 초기 적응 데이터가 중요할 것이고, 길드 시스템 도입 같은 소셜 기능 관련 효과를 보려면 채팅 횟수나 파티 플레이 경험, 친구 수 같은 사회적 활동 데이터가 중요할 것이다. 이처럼 분석 목적에 따라 유저 특성을 다르게 고려할 수 있도록 데이터 선택의 유연성을 보장했다.

예를 들어 신규 유저 대상 이벤트 효과를 본다면 가입일이나 튜토리얼 완료 여부 같은 초기 적응 데이터가 중요할 것이고, 길드 시스템 도입 같은 소셜 기능 관련 효과를 보려면 채팅 횟수나 파티 플레이 경험, 친구 수 같은 사회적 활동 데이터가 중요할 것이다. 이처럼 분석 목적에 따라 유저 특성을 다르게 고려할 수 있도록 데이터 선택의 유연성을 보장했다.

현재 이 자동 분석 시스템은 넥슨의 PC, 모바일, 멀티 플랫폼 게임 40종 이상에 적용되어 있다. 김유진 분석가는 "아직 100% 자동화라고 말하기는 어렵지만, 이제는 데이터 분석가가 아니어도 분석 과정에 참여할 수 있는 기반이 마련되었다"고 평가했다.
이 솔루션의 도입으로 가장 큰 변화는 실무자가 직접 분석을 수행할 수 있게 되었다는 점이다. 과거에는 분석가에게 요청하고 결과를 기다려야 했던 과정이 이제는 실무자가 직접 데이터를 확인하고 효과를 측정할 수 있게 되었다. 이는 의사결정 속도를 크게 향상시키는 효과를 가져왔다.


또한 표준화된 분석 방법론을 통해 서로 다른 이벤트나 프로모션의 효과를 일관된 기준으로 비교할 수 있게 되었다. 과거에는 분석가마다, 이벤트마다 다른 기준으로 효과를 측정해서 결과를 비교하기 어려웠지만, 이제는 동일한 프레임워크를 통해 객관적인 비교가 가능해졌다.
넥슨의 이번 발표는 데이터 분석의 민주화라는 측면에서 시사하는 바가 크다. 전문적인 분석 역량이 없어도 누구나 쉽게 정교한 효과 분석을 수행할 수 있는 환경을 구축함으로써, 데이터 기반 의사결정이 조직 전반에 확산될 수 있는 기반을 마련했기 때문이다.


