구글 웹로그 분석(Google Analytics) 스팸/쓰레기 데이터 걸러내기 기술 이야기 2015.11.25 00:47

구글 웹로그 분석(Google Analytics)에 스팸/쓰레기 데이터를 걸러내는 방법을 정리했습니다. 실제 방문하지도 않으면서 불순한 의도로 분석 데이터를 더럽히는 일을 막는 방법 입니다.

어느날 우연히 이상한 접속 데이터를 확인하고, 구글 웹로그 분석(Google Analytics)의 데이터에도 스팸/쓰레기 데이터가 발생한다는 것을 알게되었습니다. 폭풍 검색해 봤는데 한글 자료는 별로 없지만 요즘 이슈가 많이 되는 것 같습니다. 찾아본 내용들을 바탕으로 직접 적용해보고 정리했습니다. 도움되시길!

쓰레기 데이터가 있다!

블로그 개설하고 얼마 안되었을때 요상한 곳에서 제 블로그에 들어왔더라구요. 그냥 그려러니 했는데, 스팸 봇이 만들어낸 쓰레기 데이터네요!


모두 같은 사이트로 연결되는 링크다.

스킨을 수정하다가 실수로 구글 웹로그 분석 코드를 누락해서 구글 웹로그 분석 코드를 안 넣었는데, 구글 웹로그 분석 보고서에 해당 방문기록이 주기적으로 기록되어있어서 확신했습니다.


referral site들을 한번 확인해 보세요! 구글 웹분석 -> 획득 -> 채널

다른 웹마스터들도 비슷한 일로 골머리를 앓고 있다는 것을 검색을 통해서 알게 되었습니다. (근데, 한글 검색으로는 별로 없네요;;)

쓰레기 데이터란?

스팸 봇이 구글 웹로그 분석 추적 코드를 수집한 뒤, 실제 블로그에는 방문 안하고 추적 코드 스크립트만 실행해서 구글 웹로그 분석 데이터만 더럽히는 것입니다. 여러가지 봇이 있고, 피해가 많이 있지만 이 포스팅에선 이것만 다룹니다.

보통 http header 의 referrer 데이터를 조작해서 구글 웹로그 분석 데이터에서 referral site로 떡하니 자리 잡는 방식입니다.

"오, 이건 뭐지? 여기서 내 블로그에 접속했네? 한번 들어가 봐야지." 라고 반응하길 바라면서 referral site 정보를 더럽히려는 수작! 접속해 보면, 사이트 홍보 또는 악성코드 배포!


출처: Stop Ghost Spam in Google Analytics with One Filter

걸러내는 방법

구글 웹로그 분석에서 필터를 설정해서 해당 데이터를 걸러내는 방법입니다. 필터를 어떻게 설정하는 것이 좋을지에 대한 글도 많은데, 호스트이름과 화면 해상도를 이용한 방법이 좋은것 같습니다.

스팸 데이터가 호스트이름이 제 블로그 도메인의 호스트 네임이 아니고, 해상도 정보가 없는 것에 착안한 방식!


아래 글을 참고 해서 제가 적용 해봤습니다.
Quick Fix for Referral Spam in Google Analytics

호스트 네임 필터

본인 사이트의 호스트 네임의 정보만을 데이터에 포함하도록 하는 필터를 설정합니다. 접속 도메인이 여러개인 경우는 조심해야 합니다. 필터를 설정하고 꼭 테스트 해보세요!


필터 추가 메뉴에서 사진과 같이 설정

사용자 화면 해상도 필터

화면 해상도 정보가 없는 데이터는 배제하는 필터를 설정합니다. 필터 패턴의 ^(not set)$는 정규 표현식입니다.


필터 추가 메뉴에서 사진과 같이 설정


필터가 모두 설정된 모습입니다.

적용 후기

두개의 필터를 적용하고 나니 기존에 문제가 되던 스팸 데이터가 더이상 내 보고서에 들어오지 않았다. 좀 더 정확한 분석을 할 수 있어서 좋았다. 스팸이 많다면 꼭 적용해 보길 권한다. 필터를 잘 못 설정할 경우 정상적인 데이터도 차단되니 적용 후 확인이 꼭 필요하다!

티스토리 툴바