Co to jest robots.txt i jak go poprawnie używać?

Zacznijmy od krótkiej definicji:

robots.txt – plik tekstowy umieszczany na serwerze, który odpowiada za komunikację z robotami indeksującymi. Główną funkcją robots.txt jest nadanie lub odebranie dostępu do plików w folderze strony internetowej.

Poznaj niektóre typowe konfiguracje robots.txt, które poniżej wyjaśnię bardziej szczegółowo:

# Dostęp do całej witryny. User-agent: * Disallow: # Brak dostępu do witryny. User-agent: * Disallow: / # Wykluczenie jednego folderu. User-agent: * Disallow: /folder/ # Wykluczenie jednej podstrony. User-agent: * Disallow: /file.html

Spis treści ukryj

Dlaczego powinniśmy wiedzieć, co to jest robots.txt?

Internetowe roboty indeksujące

W jaki sposób sprawdzić, czy strona posiada plik robots.txt?

Czy potrzebujemy pliku robots.txt?

Powody, dla których plik robots.txt powinien znajdować się na Twojej stronie:

Powody, dla których plik robots.txt nie musi znajdować się na Twojej stronie:

Jak stworzyć plik robots.txt?

Instrukcje robots.txt oraz ich znacznie

User-agent

Disallow

Allow

Jak określić, które strony zablokować?

Co to jest robots.txt i jak go używać? – podsumowanie

Dlaczego powinniśmy wiedzieć, co to jest robots.txt?

Brak wiedzy na temat tego, co to jest robots.txt oraz niewłaściwe jego użycie, mogą mieć negatywny wpływ na ranking Twojej strony internetowej.
Plik robots.txt kontroluje sposób, w jaki roboty indeksujące postrzegają Twoją witrynę.
Robots.txt jest wymieniony w kilku wytycznych przekazanych przez samo Google.
Ten plik oraz roboty indeksujące są podstawowymi elementami, które wpływają na działanie wszystkich wyszukiwarek internetowych.

Internetowe roboty indeksujące

Pierwszą rzeczą, którą zrobi taki robot, kiedy odwiedzi Twoją stronę internetową, będzie złożenie wizyty plikowi robots.txt. W jakim celu? Robot chce wiedzieć, czy ma uprawienia, aby uzyskać dostęp do danej strony czy pliku. Jeżeli plik robots.txt stwierdzi, że może wejść, wtedy będzie kontynuował swoją pracę. Jeżeli nie, to wtedy opuści daną witrynę. Wobec tego, jeżeli masz jakieś instrukcje dla robotów indeksujących, to właśnie robots.txt jest odpowiednim do tego plikiem.

Uwaga! Istnieją dwie ważne kwestie, które każdy webmaster powinien zrobić, jeżeli chodzi o plik robots.txt:

określić, czy plik robots.txt w ogóle istnieje
jeżeli istnieje, to upewnić się, że nie szkodzi pozycji witryny w wyszukiwarkach internetowych

W jaki sposób sprawdzić, czy strona posiada plik robots.txt?

Robots.txt można sprawdzić z poziomu dowolnej przeglądarki internetowej. Plik powinien być umieszczony w głównym folderze każdej strony internetowej, dzięki czemu możemy ustalić, czy witryna posiada robots.txt, czy też nie. Wystarczy dodać „robots.txt” na końcu nazwy swojej domeny, tak jak w przykładzie poniżej:

www.domena.pl/robots.txt

Jeżeli plik istnieje lub jest pusty, to przeglądarka wyświetli jego zawartość. Jeżeli nie istnieje, to otrzymamy błąd 404.

Czy potrzebujemy pliku robots.txt?

Jeżeli wiesz już, co to jest robots.txt, to być może w ogóle nie potrzebujesz go na swojej stronie.

Powody, dla których plik robots.txt powinien znajdować się na Twojej stronie:

Posiadasz dane, których nie chcesz udostępniać wyszukiwarkom internetowym.
Używasz płatnych linków lub reklam, które wymagają specyficznych instrukcji dla robotów indeksujących.
Chcesz, aby dostęp do witryny miały tylko renomowane roboty typu Googlebot.
Tworzysz stronę internetową i zmieniasz ją „na żywo”, wobec tego nie chcesz, aby roboty indeksowały jej niedokończoną wersję.
Robots.txt pomaga podążać za wytycznymi, które publikuje Google.

Powody, dla których plik robots.txt nie musi znajdować się na Twojej stronie:

Brak pliku robots.txt to wyeliminowanie potencjalnych błędów, które mogą negatywnie wpływać na pozycję strony w wyszukiwarkach internetowych.
Nie posiadasz żadnych plików, które chcesz ukryć przed wyszukiwarką.

Wobec tego, jeżeli nie posiadasz pliku robots.txt, to wyszukiwarki mają pełny dostęp do Twojej witryny internetowej. Jest to oczywiście normalne i w rzeczywistości często spotykane, więc nie ma się czym martwić.

Jak stworzyć plik robots.txt?

Stworzenie pliku robots.txt jest dziecinne proste.

Taki plik jest zwykłym plikiem tekstowym, co oznacza, że możesz skorzystać z najzwyczajniejszego notatnika w swoim systemie lub z jakiegokolwiek innego edytora tekstu. Zatem można spojrzeć na to tak: nie tworzę pliku robots.txt, ja po prostu piszę zwykłą notatkę.

Instrukcje robots.txt oraz ich znacznie

Skoro już wiesz, co to jest robots.txt, to teraz musisz się dowiedzieć, jak go poprawnie używać.

User-agent

User-agent: #lub User-agent: * #lub User-agent: Googlebot

Opis:

Składnia User-agent określa kierunek podążania robotów indeksujących – oczywiście, jeżeli jest to konieczne. Istnieją na to dwa sposoby. Jeżeli chcesz poinformować wszystkie roboty, to dopisz „*” (gwiazdkę)
User-agent: * – taki sposób zapisu mówi, że: „każdy robot ma podążać w tym kierunku”. Jeżeli chcesz poinformować o czymś konkretnego robota, np. Googlebota, to zapis wygląda tak, jak poniżej
User-agent: Googlebot – ta linia mówi: „te wskazówki dotyczą tylko i wyłącznie Googlebota”

Disallow

Instrukcja „Disallow” jest po to, aby powiedzieć robotom, aby nie wchodziły do danych folderów czy plików. Oznacza to, że jeżeli nie chcesz, aby np. Google indeksowało zdjęcia na Twojej stronie internetowej, to wrzucasz wszystkie do jednego folderu i wykluczasz go.

Jak to zrobić? Powiedzmy, że przeniosłeś już wszystkie zdjęcia do folderu o nazwie „fotki”. Teraz musisz poinformować roboty o zakazie odwiedzania tego folderu w celu indeksacji.

Oto co plik robots.txt w tej sytuacji musi zawierać:

User-agent: * Disallow: /fotki

Powyższe dwie linie tekstu w pliku robots.txt utrzymają roboty z dala od folderu ze zdjęciami.

Uwaga! Jeżeli zapomnisz o znaku „/” po instrukcji Disallow tak jak tutaj…

User-agent: * Disallow:

…to robot indeksujący wejdzie na Twoją stronę internetową, spojrzy na pierwszą linię, po czym odczyta drugą (czyli „Disallow:”). Co się stanie? Robot poczuje się wtedy jak ryba w wodzie, ponieważ zabroniłeś mu… niczego. Wobec tego zacznie indeksację wszystkich stron oraz plików.

Allow

Ta specyficzna instrukcja jest rozumiana tylko przez kilka robotów indeksujących, a jednym z nich jest np. Googlebot.

Allow:

Instrukcja „Allow” pozwala stwierdzić robotowi, czy może obejrzeć plik w folderze, który jest zablokowany przez „Disallow”. Aby to zilustrować, rzućmy okiem na wcześniejszy przykład.

User-agent: * Disallow: /fotki

Zapisaliśmy wszystkie zdjęcia do jednego folderu o nazwie „fotki” i dzięki „Disallow: /fotki” zablokowaliśmy całkowity dostęp do jego zawartości. Jednakże po jakimś czasie doszliśmy do wniosku, że chcemy udostępnić wyszukiwarce tylko jedno zdjęcie, które znajduje się właśnie w folderze „fotki”. Zapis „Allow” pozwala nam na wskazanie Googlebotowi, że pomimo zablokowania dostępu do folderu, może go przeszukać i zaindeksować zdjęcie o nazwie np. „rower.jpg”. Wobec tego musimy stworzyć mu instrukcję, która będzie wyglądać tak:

User-agent: * Disallow: /fotki Allow: /fotki/rower.jpg

Taka instrukcja mówi Googlebotowi, że może odnaleźć plik „rower.jpg” w wykluczonym folderze „fotki”.

Jak określić, które strony zablokować?

Jeżeli już wiemy, jak poprawnie używać robots.txt, to prawdopodobnie chcemy go do czegoś wykorzystać. Wobec tego, jakiego typu strony powinniśmy wyłączyć z indeksacji?

Strony, które pokazują wyniki wyszukiwania.
Strony, które są automatycznie generowane.
Kiepskie miejsca w rankingu uzyskują również nieunikalne treści, więc warto po prostu je wykluczyć.
Strony, gdzie generowane są jakieś informacje pochodzące z afiliacyjnych baz danych lub jakiekolwiek informacje, które są generowane w innym miejscu niż Twoja witryna internetowa.

Co to jest robots.txt i jak go używać? – podsumowanie

Pamiętaj o tym, aby przesłać plik robots.txt do katalogu głównego (oczywiście, jeżeli jest taka konieczność). Musisz mieć też pewność, że jest on odpowiednio skonfigurowany. Poprawność swojego pliku robots.txt możesz sprawdzić w testerze Google Search Console. Pod tym linkiem znajduje się instrukcja na temat tego, jak należy to zrobić.

Tagi: Bezpieczeństwo, Domeny, Google, Google Search Console

Co to jest robots.txt i jak go poprawnie używać?

Dlaczego powinniśmy wiedzieć, co to jest robots.txt?

Internetowe roboty indeksujące

W jaki sposób sprawdzić, czy strona posiada plik robots.txt?

Czy potrzebujemy pliku robots.txt?

Powody, dla których plik robots.txt powinien znajdować się na Twojej stronie:

Powody, dla których plik robots.txt nie musi znajdować się na Twojej stronie:

Jak stworzyć plik robots.txt?

Instrukcje robots.txt oraz ich znacznie

User-agent

Disallow

Allow

Jak określić, które strony zablokować?

Co to jest robots.txt i jak go używać? – podsumowanie

Sprawdź inne teksty powiązane z tym artykułem

Proces tworzenia strony internetowej – na czym polega?

Aktualizacja strony internetowej – kiedy najlepiej ją przeprowadzić?

Co warto wiedzieć przed zleceniem pozycjonowania? – 12 porad

Jak mierzyć skuteczność strony internetowej? – 5 metryk

Z jakich źródeł pozyskiwać odwiedzających bloga? – 13 propozycji

Czy dany temat na wpis blogowy jest odpowiedni? – 7 podpowiedzi