Spam w Google Analytics staje się poważnym problemem. Z powodu zalewającego nas tzw. referral spam, ludzie w pocie czoła zakładają przeróżne filtry, aby ich analityczne dane nie były bezużyteczne. Dobra wiadomością jest to, że nie ma powodów do paniki. W tym poście mam zamiar skupić się na błędach, które popełniacie, walcząc ze spamem oraz wyjaśnię, w jaki sposób skutecznie pozbyć się spamu w Google Analytics. Na początek, jak działa spam atakujący nasze strony internetowe?
Typy spamu
Spam w Google Analytics może być podzielony na dwa typy: ghosts i crawlers.
Ghosts (duchy)
Jest to zdecydowana większość spamu w Google Analytics. Nazywane są ghosts, ponieważ tak naprawdę nigdy nie mają dostępu do naszej witryny internetowej. Jest to bardzo ważna informacja i istotne jest to, aby o niej pamiętać. Później przekonasz się, że jest to kluczem do tego, aby skutecznie pozbyć się spamu w Google Analytics.
Spamerzy uprzykrzają nam życie za pomocą Measurement Protocol, który pozwala przesyłać dane o odwiedzinach naszej strony internetowej do serwerów Google Analytics. Korzystając z tej metody, prawdopodobnie jest generowany losowo kod śledzenia (UA-XXXXX-1) i zostawiany jest tylko „ślad cyfrowy”, aby nasze statystyki witryny były przekłamane.
Crawlers (roboty indeksujące)
To rodzaj spamu, który jest przeciwieństwem ghosts. Odwiedza naszą stronę jak zwykły użytkownik. Jak sama nazwa wskazuje, są to spamerskie roboty do indeksowania stron www, które ignorują nasz plik robots.txt. Kiedy opuszczają naszą witrynę, dane zostają zapisane w naszych statystykach.
Roboty indeksujące są trudniejsze do określenia, ponieważ znają swoje cele i używają prawdziwych danych. Jednakże rzadko pojawiają się nowe, więc wykrywając crawlera możesz go zbadać, czy jest to rzeczywiście spam i dodać go do listy, która wykluczy jego odwiedziny z naszych raportów.
Najczęściej popełniane błędy podczas walki ze spamem:
Po przejrzeniu kilku artykułów na temat spamu w Google Analytics oraz po przeczytaniu paru komentarzy zauważyłem, że użytkownicy popełniają trzy błędy próbując pozbyć się spamu w Google Analytics.
1. Blokowanie spam ghosts w pliku .htaccess.
Jest to jeden z największych błędów popełnianych przy próbach zablokowania spam ghosts.
Dla tych, którzy jeszcze nie wiedzą, co to jest za plik: jedną z głównych jego możliwości jest blokowanie dostępu do naszej witryny. Wobec tego, czemu by nie zablokować od razu spam ghosts z poziomu .htaccess, zamiast bawić się ustawieniami w Google Analytics? Jak już wcześniej wspomniałem, ten typ spam nigdy nie odwiedza fizycznie naszej strony internetowej i .htaccess w niczym tutaj nie pomoże.
Fragment pliku .htaccess.
Spam ghosts zwykle pojawiają się co kilka dni, a następnie znikają. W rezultacie użytkownicy myślą, że udało im się to zablokować, podczas gdy jest to zwykły zbieg okoliczności. Następnie spam wraca i martwią się, że ich rozwiązanie już magicznie przestało działać i spamerzy zdołali je ominąć.
Prawdą jest to, że plik .htaccess może skutecznie blokować tylko roboty indeksujące takie jak success-seo.com oraz wszystko to, co może uzyskać dostęp do naszej witryny. Jak sam widzisz, większości spamu nie da się zablokować, używając tej metody i konieczne będzie użycie kilku filtrów, aby pozbyć się spamu w Google Analytics.
2. Wykluczanie witryn odsyłających (referral exclusions), aby zatrzymać spam.
Kolejnym, często popełnianym błędem jest użycie opcji wykluczania witryn odsyłających, aby zatrzymać spam. Nazwa może mylić, prawda? Jednakże ta lista nie ma na celu wykluczenia spamu w taki sposób, jakiego oczekujemy. Ma to zupełnie inny cel.
Na przykład, gdy klient kupuje coś w naszym sklepie, czasami jest przekierowany do płatności online, czyli do zupełnie innej strony internetowej niż nasza. Po dokonaniu płatności, strona przekierowuje z powrotem na naszą witrynę, a Google Analytics odnotowuje to, że ktoś rzekomo wszedł do naszego serwisu z tej przekierowanej strony. W tym celu właśnie trzeba użyć opcji wykluczania witryn odsyłających.
Jeżeli spróbujesz użyć wykluczania witryn odsyłających, aby uporać się ze spamem, odesłania zostaną usunięte z raportów, ale sesja nadal będzie liczona. W rezultacie zostanie zarejestrowana bezpośrednia wizyta i problem będzie jeszcze większy niż przedtem. Dlaczego? Ponieważ spam nadal będzie obecny w statystykach, z kolei wizyty bezpośrednie będzie zdecydowanie trudniej śledzić.
3. Wysoki współczynnik odrzuceń wpływa na pozycję strony www.
Kiedy użytkownicy widzą, że współczynnik odrzuceń drastycznie rośnie ze względu na spam, zaczynają martwić się o jego wpływ na ranking w wyszukiwarkach.
Jest to kolejny, często popełniany błąd. Ze spamem lub bez niego, Google nie bierze pod uwagę metryki z Google Analytics jako czynnika wpływającego na pozycjonowanie strony internetowej. Jednakże, wysoki współczynnik odrzuceń (nie licząc spamu) daje do myślenia. Dlaczego użytkownicy nie chcą zostać na naszej stronie dłużej niż przez dziesięć sekund… Może coś jest nie tak z naszą stroną pod względem treści lub designu? Tego typu wątpliwości mają wtedy miejsce. Wracając do tematu, Matt Cutts, były szef zespołu Google Spam Web, stanowczo powiedział, że „współczynnik odrzuceń nie ma wpływu na pozycję stron internetowych”.
A może witryna padła ofiarą cyberprzestępców?
Innym częstym problem jest to, gdy administratorzy widzą dziwne strony docelowe w swoich raportach, pochodzące ze spamu. Myślą wtedy, że ktoś włamał się na ich witrynę.
Raport pokazuje, że nasza strona internetowa posiada dziwne podstrony, ale gdy je otworzymy, w przeglądarce pojawia się błąd 404. Tak więc keep calm, witryna nie padła ofiarą cyberprzestępców.
Czy powinniśmy martwić się spamem?
Teraz gdy możemy odrzucić kwestię bezpieczeństwa i ranking strony internetowej w wyszukiwarkach, pozostaje martwić się tylko o fałszywe dane, które zanieczyszczają nasze raporty w Google Analytics.
Może to być większy lub mniejszy wpływ (w zależności od ruchu na stronie internetowej), ale i tak każdy jest podatny na spam.
Małe i średniej wielkości witryny są najbardziej podatne na spam. Nie tylko dlatego, że duża część ich ruchu może być po prostu czystym spamem, ale również dlatego, że zazwyczaj takie strony internetowe są zarządzane własnoręcznie. Bez ingerencji analityka lub webmastera.
Większe serwisy internetowe, o dużym natężeniu ruchu, również mogą być podatne na spam. Mimo że wpływ na raporty może być nieznaczny, to nieprawidłowości w statystykach mogą być problemem.
Jak pozbyć się spamu w Google Analytics, używając tylko dwóch filtrów:
Wystarczy połączenie jedynie dwóch filtrów, aby pozbyć się spamu w Google Analytics. Ghosts oraz crawlers, po jednym dla każdego typu.
1. Ghost spam.
- Przejdź do zakładki Raportowanie.
- Na bocznym pasku wybierz Odbiorców.
- Rozwiń zakładkę Technologia i wybierz Sieć.
- Następnie przejdź do Nazwy hosta.
Zobaczysz taką tabelkę jak ta pokazana wyżej.
- Znajdź i skopiuj wszystkie poprawne nazwy hostów
Twoja tabelka będzie zawierać przynajmniej jedną ważną nazwę hosta. Reszta będzie zależeć od konfiguracji witryny oraz wszystkich usług, do których jest zastosowany kod śledzenia. Możliwe poprawne nazwy hostów:
- Twoja domena: domena.pl
- Twoje subdomeny: blog.domena.pl
- adres IP Twojej strony internetowej
Upewnij się, że skopiowałeś wszystkie poprawne nazwy hostów i domen, w przeciwnym razie możesz stracić część statystyk witryny, które są zupełnie poprawne.
Po zebraniu wszystkich poprawnych nazw hostów należy utworzyć wyrażenie [REGEX], które wykluczy wszystko oprócz naszych danych. Dla przykładowej witryny będzie to tylko:
domena\.pl
Gdy chcemy dodać inne adresy, będziemy musieli rozbudować nasze wyrażenie. Przykład:
domena\.pl|translatingservice\.com|webcacheservice\.com|videoservice\.com
Więcej na temat wyrażeń regularnych [REGEX] przeczytasz w poradniku Google.
- Przejdź teraz do górnej zakładki Administracja.
- Wybierz w zakładce Widok Filtry.
- Kliknij Dodaj filtr.
- Wybierz Typ Filtru Niestandardowy, a nazwę filtru np. Poprawne hosty.
- Upewnij się, że zaznaczyłeś pole Uwzględnij oraz w polu filtrów wybierz Nazwa hosta.
- W polu Wzorzec filtru umieść własne wyrażenie regularne.
- Po dodaniu wyrażenia kliknij pole Zweryfikuj wybrany filtr, a następnie zapisz zmiany. Czasami weryfikacja jest ograniczona, ponieważ przykładowe wyrażenia są zbyt proste.
Uwaga! Ten filtr nie wymaga konserwacji. Ważne jest tylko to, aby za każdym razem, gdy dodasz kod śledzenia do nowej usługi na stronie, umieścić hosta na końcu wyrażenia regularnego.
2. Crawler spam.
Ten typ spamu należy wykluczyć. Za pomocą tego sposobu można blokować również ghost spam, ale nie jest to zbyt wydajny sposób na to, aby pozbyć się spamu w Google Analytics.
W wolnej chwili możesz rzucić okiem na aktualną listę crawlers.
Tak jak poprzednio, przechodzimy do zakładki Administracja i wybieramy pole Filtry. Dodajemy nowy filtr.
- Teraz nazwa filtru, np. Referral spam.
- Zaznaczamy typ filtru Niestandardowy.
- Upewniamy się, że weszliśmy w opcję Wyklucz i wybieramy w polu filtru Odesłanie.
- Uzupełniamy Wzorzec filtru kolejnym wyrażeniem regularnym.
(best|100dollars|success)\-seo|(videos|buttons)\-for|anticrawler|musica\-gratis|forum69|7makemoney|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|video\-|profit\.xyz|rankings\-|dbutton|\-crew
Jest to gotowy wzorzec z najpopularniejszymi crawlersami. Możesz też dodać swoje, ale pamiętaj, że wyrażenie może mieć maksymalnie 255 znaków.
- Weryfikujemy filtr i klikamy zapisz.
Mam nadzieję, że ten poradnik pomoże Ci skutecznie pozbyć się spamu w Google Analytics. Na pewno istnieją jeszcze inne sposoby walki ze spamem, ale te dwa, które opisałem, pomogły mi uporać się z nieprawdziwymi raportami zarówno na naszej stronie, jak i na stronach klientów. Zamieszczam także sposób od kolegów z Loganix. Ceną takiego rozwiązania są subskrypcja i podanie własnego maila. Jest to dosyć dobre rozwiązanie, które nie potrzebuje wykluczać niczego z naszych raportów. A jakie Ty masz przygody ze spamem? Jak udało Ci się rozwiązać tę kwestię? Podziel się swoją historią w komentarzach.
Bądź pierwszą osobą, która skomentuje ten artykuł! 😉