Robots.txt
Robots.txt (Robots Exclusion Protocol) to prosty plik tekstowy, który umieszcza się w katalogu głównym domeny. Jego zadanie: przekazać robotom indeksującym jasne instrukcje, które zasoby serwisu mogą odwiedzać, a które mają omijać. Każdy ma do niego dostęp pod adresem twojadomena.pl/robots.txt – to podstawowe narzędzie do zarządzania ruchem crawlerów na stronie.
Czym jest robots.txt
Robots.txt nie zawiera żadnych znaczników HTML. Działa w oparciu o Robots Exclusion Protocol, który – od września 2022 roku, gdy opublikowano RFC 9309 – zyskał oficjalny status standardu internetowego.
Martijn Koster stworzył ten plik w 1994 roku. Przez prawie trzydzieści lat robots.txt funkcjonował jako nieformalna umowa między administratorami stron a twórcami botów. Dopiero później doczekał się formalnej standaryzacji – długo wyczekiwanej przez branżę SEO.
Jak działa plik robots.txt
Każdy crawler, zanim rozpocznie skanowanie witryny, sprawdza zawartość robots.txt i interpretuje zapisane tam dyrektywy. Przestrzeganie tych zasad to kwestia dobrej woli – legalne boty typu Googlebot czy Bingbot stosują się do reguł, ale złośliwe roboty często je ignorują.
Robots.txt działa wyłącznie w obrębie jednego originu – subdomeny, inne porty czy protokoły wymagają osobnych plików. To ważny detal, który często umyka początkującym specjalistom.
Kluczowe dyrektywy
Dyrektywa User-agent określa, do którego bota odnoszą się kolejne reguły (np. Googlebot lub symbol * dla wszystkich). Disallow i Allow wskazują odpowiednio, które ścieżki crawler ma omijać, a które są dla niego dostępne.
Możesz też użyć Crawl-delay, by narzucić minimalny odstęp między żądaniami bota – to chroni serwer przed przeciążeniem. Dyrektywa Sitemap informuje roboty o lokalizacji mapy strony, co przyspiesza indeksację.
Zastosowania robots.txt w SEO
Najważniejsze zastosowanie w SEO? Zarządzanie crawl budget – limitem zasobów, które Googlebot poświęca na skanowanie witryny. Blokując nieistotne strony (np. panele administracyjne, duplikaty, raporty wewnętrzne czy pliki techniczne), możesz przekierować crawlery na wartościowe podstrony.
Ostatnio coraz częściej robots.txt blokuje boty zbierające dane do trenowania modeli AI. Reguły dla agentów takich jak GPTBot czy Google-Extended – wpisane w pliku – ograniczają scraping treści na potrzeby sztucznej inteligencji. Czy to wystarcza, by chronić zawartość? To pytanie, na które branża wciąż szuka odpowiedzi.
Ograniczenia i błędne przekonania
Blokowanie crawlowania przez robots.txt nie oznacza automatycznego wykluczenia adresu z indeksu wyszukiwarki. Jeśli zablokowany URL pojawi się w linkach zewnętrznych, nadal może trafić do wyników wyszukiwania.
Plik robots.txt jest zawsze publiczny – każdy może go zobaczyć. Nie chroni poufnych danych. Jeśli chcesz ukryć wrażliwe treści przed indeksacją, sięgnij po meta tag noindex, nagłówek HTTP X-Robots-Tag lub zabezpiecz stronę hasłem. Warto o tym pamiętać – wielu właścicieli stron błędnie traktuje robots.txt jako barierę dla niepowołanych oczu.
Najczęściej zadawane pytania
Informuje crawlery, które zasoby serwisu mogą skanować. Pozwala zarządzać ruchem botów i optymalizować crawl budget – szczególnie przy rozbudowanych witrynach.
Nie; blokuje wyłącznie crawlowanie. Zablokowany URL może jednak znaleźć się w wynikach wyszukiwania, jeśli prowadzą do niego linki z zewnętrznych źródeł.
Nie jest dokumentem prawnym. Mimo to – w sprawie eBay v. Bidder’s Edge – sąd uznał łamanie reguł robots.txt za podstawę do roszczeń. Dla prawników to ciekawy precedens.
Wpisz w przeglądarce adres twojadomena.pl/robots.txt. Zobaczysz aktualną zawartość pliku – to Twoje okno na komunikację z botami.
Jeśli chcesz, by wyszukiwarki indeksowały wszystkie zasoby strony bez żadnych ograniczeń, możesz zrezygnować z pliku robots.txt. Proste rozwiązanie – czasem właśnie tego potrzeba.