Zacznijmy od krótkiej definicji:
robots.txt – plik tekstowy umieszczany na serwerze, który odpowiada za komunikację z robotami indeksującymi. Główną funkcją robots.txt jest nadanie lub odebranie dostępu do plików w folderze strony internetowej.
Poznaj niektóre typowe konfiguracje robots.txt, które poniżej wyjaśnię bardziej szczegółowo:
# Dostęp do całej witryny.
User-agent: *
Disallow:
# Brak dostępu do witryny.
User-agent: *
Disallow: /
# Wykluczenie jednego folderu.
User-agent: *
Disallow: /folder/
# Wykluczenie jednej podstrony.
User-agent: *
Disallow: /file.html
Dlaczego powinniśmy wiedzieć, co to jest robots.txt?
- Brak wiedzy na temat tego, co to jest robots.txt oraz niewłaściwe jego użycie, mogą mieć negatywny wpływ na ranking Twojej strony internetowej.
- Plik robots.txt kontroluje sposób, w jaki roboty indeksujące postrzegają Twoją witrynę.
- Robots.txt jest wymieniony w kilku wytycznych przekazanych przez samo Google.
- Ten plik oraz roboty indeksujące są podstawowymi elementami, które wpływają na działanie wszystkich wyszukiwarek internetowych.
Internetowe roboty indeksujące
Pierwszą rzeczą, którą zrobi taki robot, kiedy odwiedzi Twoją stronę internetową, będzie złożenie wizyty plikowi robots.txt. W jakim celu? Robot chce wiedzieć, czy ma uprawienia, aby uzyskać dostęp do danej strony czy pliku. Jeżeli plik robots.txt stwierdzi, że może wejść, wtedy będzie kontynuował swoją pracę. Jeżeli nie, to wtedy opuści daną witrynę. Wobec tego, jeżeli masz jakieś instrukcje dla robotów indeksujących, to właśnie robots.txt jest odpowiednim do tego plikiem.
Uwaga! Istnieją dwie ważne kwestie, które każdy webmaster powinien zrobić, jeżeli chodzi o plik robots.txt:
- określić, czy plik robots.txt w ogóle istnieje
- jeżeli istnieje, to upewnić się, że nie szkodzi pozycji witryny w wyszukiwarkach internetowych
W jaki sposób sprawdzić, czy strona posiada plik robots.txt?
Robots.txt można sprawdzić z poziomu dowolnej przeglądarki internetowej. Plik powinien być umieszczony w głównym folderze każdej strony internetowej, dzięki czemu możemy ustalić, czy witryna posiada robots.txt, czy też nie. Wystarczy dodać „robots.txt” na końcu nazwy swojej domeny, tak jak w przykładzie poniżej:
www.domena.pl/robots.txt
Jeżeli plik istnieje lub jest pusty, to przeglądarka wyświetli jego zawartość. Jeżeli nie istnieje, to otrzymamy błąd 404.
Czy potrzebujemy pliku robots.txt?
Jeżeli wiesz już, co to jest robots.txt, to być może w ogóle nie potrzebujesz go na swojej stronie.
Powody, dla których plik robots.txt powinien znajdować się na Twojej stronie:
- Posiadasz dane, których nie chcesz udostępniać wyszukiwarkom internetowym.
- Używasz płatnych linków lub reklam, które wymagają specyficznych instrukcji dla robotów indeksujących.
- Chcesz, aby dostęp do witryny miały tylko renomowane roboty typu Googlebot.
- Tworzysz stronę internetową i zmieniasz ją „na żywo”, wobec tego nie chcesz, aby roboty indeksowały jej niedokończoną wersję.
- Robots.txt pomaga podążać za wytycznymi, które publikuje Google.
Powody, dla których plik robots.txt nie musi znajdować się na Twojej stronie:
- Brak pliku robots.txt to wyeliminowanie potencjalnych błędów, które mogą negatywnie wpływać na pozycję strony w wyszukiwarkach internetowych.
- Nie posiadasz żadnych plików, które chcesz ukryć przed wyszukiwarką.
Wobec tego, jeżeli nie posiadasz pliku robots.txt, to wyszukiwarki mają pełny dostęp do Twojej witryny internetowej. Jest to oczywiście normalne i w rzeczywistości często spotykane, więc nie ma się czym martwić.
Jak stworzyć plik robots.txt?
Stworzenie pliku robots.txt jest dziecinne proste.
Taki plik jest zwykłym plikiem tekstowym, co oznacza, że możesz skorzystać z najzwyczajniejszego notatnika w swoim systemie lub z jakiegokolwiek innego edytora tekstu. Zatem można spojrzeć na to tak: nie tworzę pliku robots.txt, ja po prostu piszę zwykłą notatkę.
Instrukcje robots.txt oraz ich znacznie
Skoro już wiesz, co to jest robots.txt, to teraz musisz się dowiedzieć, jak go poprawnie używać.
User-agent
User-agent:
#lub
User-agent: *
#lub
User-agent: Googlebot
Opis:
- Składnia User-agent określa kierunek podążania robotów indeksujących – oczywiście, jeżeli jest to konieczne. Istnieją na to dwa sposoby. Jeżeli chcesz poinformować wszystkie roboty, to dopisz „*” (gwiazdkę)
- User-agent: * – taki sposób zapisu mówi, że: „każdy robot ma podążać w tym kierunku”. Jeżeli chcesz poinformować o czymś konkretnego robota, np. Googlebota, to zapis wygląda tak, jak poniżej
- User-agent: Googlebot – ta linia mówi: „te wskazówki dotyczą tylko i wyłącznie Googlebota”
Disallow
Instrukcja „Disallow” jest po to, aby powiedzieć robotom, aby nie wchodziły do danych folderów czy plików. Oznacza to, że jeżeli nie chcesz, aby np. Google indeksowało zdjęcia na Twojej stronie internetowej, to wrzucasz wszystkie do jednego folderu i wykluczasz go.
Jak to zrobić? Powiedzmy, że przeniosłeś już wszystkie zdjęcia do folderu o nazwie „fotki”. Teraz musisz poinformować roboty o zakazie odwiedzania tego folderu w celu indeksacji.
Oto co plik robots.txt w tej sytuacji musi zawierać:
User-agent: *
Disallow: /fotki
Powyższe dwie linie tekstu w pliku robots.txt utrzymają roboty z dala od folderu ze zdjęciami.
Uwaga! Jeżeli zapomnisz o znaku „/” po instrukcji Disallow tak jak tutaj…
User-agent: *
Disallow:
…to robot indeksujący wejdzie na Twoją stronę internetową, spojrzy na pierwszą linię, po czym odczyta drugą (czyli „Disallow:”). Co się stanie? Robot poczuje się wtedy jak ryba w wodzie, ponieważ zabroniłeś mu… niczego. Wobec tego zacznie indeksację wszystkich stron oraz plików.
Allow
Ta specyficzna instrukcja jest rozumiana tylko przez kilka robotów indeksujących, a jednym z nich jest np. Googlebot.
Allow:
Instrukcja „Allow” pozwala stwierdzić robotowi, czy może obejrzeć plik w folderze, który jest zablokowany przez „Disallow”. Aby to zilustrować, rzućmy okiem na wcześniejszy przykład.
User-agent: *
Disallow: /fotki
Zapisaliśmy wszystkie zdjęcia do jednego folderu o nazwie „fotki” i dzięki „Disallow: /fotki” zablokowaliśmy całkowity dostęp do jego zawartości. Jednakże po jakimś czasie doszliśmy do wniosku, że chcemy udostępnić wyszukiwarce tylko jedno zdjęcie, które znajduje się właśnie w folderze „fotki”. Zapis „Allow” pozwala nam na wskazanie Googlebotowi, że pomimo zablokowania dostępu do folderu, może go przeszukać i zaindeksować zdjęcie o nazwie np. „rower.jpg”. Wobec tego musimy stworzyć mu instrukcję, która będzie wyglądać tak:
User-agent: *
Disallow: /fotki
Allow: /fotki/rower.jpg
Taka instrukcja mówi Googlebotowi, że może odnaleźć plik „rower.jpg” w wykluczonym folderze „fotki”.
Jak określić, które strony zablokować?
Jeżeli już wiemy, jak poprawnie używać robots.txt, to prawdopodobnie chcemy go do czegoś wykorzystać. Wobec tego, jakiego typu strony powinniśmy wyłączyć z indeksacji?
- Strony, które pokazują wyniki wyszukiwania.
- Strony, które są automatycznie generowane.
- Kiepskie miejsca w rankingu uzyskują również nieunikalne treści, więc warto po prostu je wykluczyć.
- Strony, gdzie generowane są jakieś informacje pochodzące z afiliacyjnych baz danych lub jakiekolwiek informacje, które są generowane w innym miejscu niż Twoja witryna internetowa.
Co to jest robots.txt i jak go używać? – podsumowanie
Pamiętaj o tym, aby przesłać plik robots.txt do katalogu głównego (oczywiście, jeżeli jest taka konieczność). Musisz mieć też pewność, że jest on odpowiednio skonfigurowany. Poprawność swojego pliku robots.txt możesz sprawdzić w testerze Google Search Console. Pod tym linkiem znajduje się instrukcja na temat tego, jak należy to zrobić.
Bądź pierwszą osobą, która skomentuje ten artykuł! 😉