Robots.txt

Robots.txt (Robots Exclusion Protocol) to prosty plik tekstowy, który umieszcza się w katalogu głównym domeny. Jego zadanie: przekazać robotom indeksującym jasne instrukcje, które zasoby serwisu mogą odwiedzać, a które mają omijać. Każdy ma do niego dostęp pod adresem twojadomena.pl/robots.txt – to podstawowe narzędzie do zarządzania ruchem crawlerów na stronie.

Czym jest robots.txt

Robots.txt nie zawiera żadnych znaczników HTML. Działa w oparciu o Robots Exclusion Protocol, który – od września 2022 roku, gdy opublikowano RFC 9309 – zyskał oficjalny status standardu internetowego.

Martijn Koster stworzył ten plik w 1994 roku. Przez prawie trzydzieści lat robots.txt funkcjonował jako nieformalna umowa między administratorami stron a twórcami botów. Dopiero później doczekał się formalnej standaryzacji – długo wyczekiwanej przez branżę SEO.

Jak działa plik robots.txt

Każdy crawler, zanim rozpocznie skanowanie witryny, sprawdza zawartość robots.txt i interpretuje zapisane tam dyrektywy. Przestrzeganie tych zasad to kwestia dobrej woli – legalne boty typu Googlebot czy Bingbot stosują się do reguł, ale złośliwe roboty często je ignorują.

Robots.txt działa wyłącznie w obrębie jednego originu – subdomeny, inne porty czy protokoły wymagają osobnych plików. To ważny detal, który często umyka początkującym specjalistom.

Kluczowe dyrektywy

Dyrektywa User-agent określa, do którego bota odnoszą się kolejne reguły (np. Googlebot lub symbol * dla wszystkich). Disallow i Allow wskazują odpowiednio, które ścieżki crawler ma omijać, a które są dla niego dostępne.

Możesz też użyć Crawl-delay, by narzucić minimalny odstęp między żądaniami bota – to chroni serwer przed przeciążeniem. Dyrektywa Sitemap informuje roboty o lokalizacji mapy strony, co przyspiesza indeksację.

Zastosowania robots.txt w SEO

Najważniejsze zastosowanie w SEO? Zarządzanie crawl budget – limitem zasobów, które Googlebot poświęca na skanowanie witryny. Blokując nieistotne strony (np. panele administracyjne, duplikaty, raporty wewnętrzne czy pliki techniczne), możesz przekierować crawlery na wartościowe podstrony.

Ostatnio coraz częściej robots.txt blokuje boty zbierające dane do trenowania modeli AI. Reguły dla agentów takich jak GPTBot czy Google-Extended – wpisane w pliku – ograniczają scraping treści na potrzeby sztucznej inteligencji. Czy to wystarcza, by chronić zawartość? To pytanie, na które branża wciąż szuka odpowiedzi.

Ograniczenia i błędne przekonania

Blokowanie crawlowania przez robots.txt nie oznacza automatycznego wykluczenia adresu z indeksu wyszukiwarki. Jeśli zablokowany URL pojawi się w linkach zewnętrznych, nadal może trafić do wyników wyszukiwania.

Plik robots.txt jest zawsze publiczny – każdy może go zobaczyć. Nie chroni poufnych danych. Jeśli chcesz ukryć wrażliwe treści przed indeksacją, sięgnij po meta tag noindex, nagłówek HTTP X-Robots-Tag lub zabezpiecz stronę hasłem. Warto o tym pamiętać – wielu właścicieli stron błędnie traktuje robots.txt jako barierę dla niepowołanych oczu.

Najczęściej zadawane pytania

Do czego służy plik robots.txt

Informuje crawlery, które zasoby serwisu mogą skanować. Pozwala zarządzać ruchem botów i optymalizować crawl budget – szczególnie przy rozbudowanych witrynach.

Czy robots.txt blokuje indeksowanie strony

Nie; blokuje wyłącznie crawlowanie. Zablokowany URL może jednak znaleźć się w wynikach wyszukiwania, jeśli prowadzą do niego linki z zewnętrznych źródeł.

Czy robots.txt jest prawnie wiążący

Nie jest dokumentem prawnym. Mimo to – w sprawie eBay v. Bidder’s Edge – sąd uznał łamanie reguł robots.txt za podstawę do roszczeń. Dla prawników to ciekawy precedens.

Jak sprawdzić plik robots.txt swojej strony

Wpisz w przeglądarce adres twojadomena.pl/robots.txt. Zobaczysz aktualną zawartość pliku – to Twoje okno na komunikację z botami.

Kiedy robots.txt nie jest potrzebny

Jeśli chcesz, by wyszukiwarki indeksowały wszystkie zasoby strony bez żadnych ograniczeń, możesz zrezygnować z pliku robots.txt. Proste rozwiązanie – czasem właśnie tego potrzeba.

Wiemy, co działa.
Dlatego dzielimy się wiedzą.

Chcesz realnego wzrostu?
Porozmawiajmy.

Skontaktuj się

Robots.txt

Czym jest robots.txt

Jak działa plik robots.txt

Kluczowe dyrektywy

Zastosowania robots.txt w SEO

Ograniczenia i błędne przekonania

Najczęściej zadawane pytania

Wiemy, co działa.
Dlatego dzielimy się wiedzą.

Aukro

Nagłówek HTML

Google Helpful Content Update

Chcesz realnego wzrostu?
Porozmawiajmy.

Audyt Google Ads

Bezpłatna konsultacja Google Ads

Bezpłatna konsultacja

Precyzyjna wycena Google Ads

Precyzyjna oferta
Google Ads

Profesjonalne prowadzenie
kampanii Google Ads

Chcesz powtórzyć
takie wyniki?

Chcesz lepszych wyników?

Zbudujmy SEO, które działa w erze AI

Zbudujmy strategię, która robi różnicę.

Sprawdźmy, co blokuje Twoje konwersje.

Widoczność SEO dla:
buty do biegania damskie

Najważniejsze wnioski

Odbierz do 9000 PLN na kampanię Google Ads

Analiza AI pod konkretną frazę.
W mniej niż minutę.

Uruchom Google CSS.
Płać mniej za kliknięcia.