Posledních pár týdnů trávím víc času v Google Analytics, než je zdrávo. A víte proč? Protože mi tam lítají čísla, že by jeden brečel. Míra opuštění (Bounce Rate) letí ke stropu (měli jsme průměr okolo 32% a teď jsme po půl roce skoro na 60%), průměrná doba na webu padá k nule z průměru 2:43 pod 2 minuty. A moje první myšlenka? Aha, to budou určitě různí boti, scrapeři a crawleři, kteří lezou po webu jako mravenci na zmrlinu.

Moje první, instinktivní reakce byla jasná: Vzít sekeru a v souboru robots.txt jim všem natvrdo zakázat vstup. Chci mít přece v GA čistá data! Chci vidět, co dělají skuteční lidé, ne boti.

Jenže… pak jsem hledat a pátrat. Zjistil jsem víceméně jen to, že je to celé zatraceně složitější. Ukazuje se, že pokud dnes plošně zablokujete všechny tyhle nové boty, možná si vyčistíte statistiky, ale taky si tím můžete podepsat ortel pro budoucnost vašeho byznysu.

Konec éry klikání, vítejte v éře citací

Celé roky jsme se všichni honili za tím, abychom byli první v těch deseti odkazech na Google. Dělali jsme SEO. Jenže tahle hra pomalu a jistě bohužel končí. Lidé čím dál častěji dostávají odpovědi přímo ve vyhledávači v podobě generovaných souhrnů.

V květnu jsme v čechách rovnou škočili do nové éry, které se říká GEO (Generative Engine Optimization). A bohužel pro nás všechny majitele webu, v téhle nové hře už není hlavním cílem proklik ná náš web, ale hlavním cílem je:

  1. Být citován jako zdroj v té strojové Google AI odpovědi.
  2. Být vidět a budovat povědomí o značce, i když uživatel neklikne.

A teď si představte, že zablokujete roboty, kteří tyhle odpovědi vytvářejí. Přesně tak. Stanete se zcela neviditelnými. Zmizíte z nové generace vyhledávání jak na Google, Bingu, tak třeba na Perplexity. Proto ten plošný zákaz není řešením. Řešením je postupně rozlišovat co má a co nemá smysl.

Alza

Není bot jako bot: Naučil jsem se je rozeznávat

Házet všechny roboty a scrapery do jednoho pytle je ta největší chyba, kterou můžete udělat. Abych mohl vůbec začít přemýšlet o nějaké strategii, musel jsem si je rozdělit do šuplíků. Každý má totiž úplně jiný cíl.

Skupina 1: Sběrači dat (Ti, co vám kradou oběd)

  • Kdo to je: Boti jako GPTBot (od tvůrců ChatGPT) nebo Google-Extended od Google (Google AI Overview – mimochodem zde je můj navod jak ho vypnout)
  • Co dělají: Sají obrovské množství dat z vašeho webu, aby na nich trénovali své budoucí modely. Neposílají vám žádnou návštěvnost. Prostě si berou vaše unikátní texty, nápady a know-how, aby mohli postavit systém, který s vámi bude jednou soutěžit.
  • Hodnota pro vás: Nulová.
  • Riziko: Obrovské. Tohle jsou jen pijavice.
Koukni...  Jak smazat svá osobní data z GROKu xAI? Můj pokus o výmaz

Skupina 2: Dárci viditelnosti (Nová SEO šance)

  • Kdo to je: Boti jako PerplexityBot nebo ChatGPT-User.
  • Co dělají: Přicházejí na váš web v reálném čase, aby našli odpověď na konkrétní dotaz, který jim položil uživatel.
  • Hodnota pro vás: Extrémně vysoká! Tohle je váš kanál do éry GEO. Když je povolíte, můžou váš obsah použít v odpovědi a co je klíčové – uvést vás jako zdroj, často i s proklikem.
  • Riziko: Střední. Pořád zatěžují server a kazí statistiky, ale ta potenciální viditelnost za to stojí.

Skupina 3: Stará garda (Nezbytní)

  • Kdo to je: Googlebot a Bingbot atd.
  • Co dělají: Indexují váš web pro klasické vyhledávání. Bez nich neexistujete.
  • Hodnota pro vás: Absolutně kritická.
  • Riziko: Jediné riziko je je zablokovat. To je digitální SEO sebevražda.

Skupina 4: Šmejdi a scrapeři

  • Kdo to je: Hromada neidentifikovaných botů, agresivní scrapeři cen od konkurence, spamovací boti.
  • Co dělají: Kradou data, hledají díry v zabezpečení, kopírují váš obsah 1:1.
  • Hodnota pro vás: Záporná.
  • Riziko: Extrémní.

A tady se mi vždycky propojí svět webové bezpečnosti s tím mým každodenním obor kyberbezpečnosti. To, co dělají scrapeři webům, dělají poskytovatelé internetu i vám uživatelům. Vidí úplně všechno, odkud jste, kam jdete i co čtete.

Proto mám VPN spuštěnou prakticky pořád! Ne z paranoie, ale prostě ze zásady a bezpečnosti o své soukromí. Když testuju weby, logy, nebo se připojuju z jiných sítí, VPNka mi jede nonstop.

Dlouhodobě mi nejlépe vychází NordVPN 77% sleva + 3 měsíce zdarma a Surfshark 87% sleva + 3 měsíce zdarma. Obě mám otestované do posledního detailu, rychlé i při zátěži a ideální na běžnou práci i testování z různých regionů. Nord používám soukromě a SurfShark v práci (pro neomezený počet připojených zařízení).

Paradox návštěvnosti aneb Proč pouštět zloděje do domu

Tady jsem se zasekl nejdýl. Proč bych měl, sakra, pouštět dovnitř roboty (i ty ze Skupiny 2), když mi data jasně říkají, že mi kradou prokliky? A ta data jsou fakt brutální.

Četl jsem zprávu od TollBit, která někdy letos v létě ukázala, že všechny tyhle nové chytré aplikace posílají dohromady jen 0,102 % veškeré referenční návštěvnosti. Pro srovnání, starý dobrý Google posílá 831 krát více návštěvníků. A co hůř, aby vám tyhle nové systémy poslaly jednoho jediného člověka, musí si váš web „přečíst“ (scrape) asi 135 krát.

A aby toho nebylo málo, samotný Google a jeho nové „souhrny“ (AI Overviews) aktivně požírají kliky. Studie Pew Research Center potvrdila, že lidi jsou méně náchylní klikat na tradiční odkazy, když se jim ukáže souhrn. A data od Ahrefs (za celé září 2025) jsou ještě tvrdší: tyhle souhrny snižují počet kliknutí na weby o 34,5% !!!! Což +- odpovídá i tomu co já kupříkladu vidím u našich webů.

Musím říct, že jsem měl tendenci říct: „To je konec. Všechny je zablokuju!“ Ale to je právě ta past. Jasně, bitva o „klik“ je u spousty dotazů prohraná. Ale začala právě ta nová bitva.

Bitva o „citaci“. Vstupujeme do „ekonomiky nulových kliknutí“. Novým cílem není jen proklik, ale viditelnost značky a autoritativní citace. Být zmíněn v té odpovědi, i bez prokliku, buduje vaši pověst experta v daném segmentu. Je to nová forma E-E-A-T. A když tyhle boty zablokujete, stanete se v téhle nové ekonomice zcela neviditelní.

Můj velký objev: Mýtus okolo „Google-Extended“

A teď bacha. Přišel jsem na největší a nejnebezpečnější mýtus, který teď po netu koluje. Taky vás štvou ty nové souhrny v Google vyhledávání, které se cpou nad váš web a kradou vám prokliky? Jasně že jo, koho by ne, že …

Koukni...  Jak vypnout Google AI overview: 9 ověřených triků + Návod

Tak jsem si chvíli myslel: „Super! Zablokuju robota Google-Extended a budu mít klid. Google můj obsah v těch souhrnech prostě nepoužije, ale….“

Bacha! OMYL. Jeden velký, obří omyl

Po tom co jsem pár hodin pátral je to naprosto jasné: Google-Extended je jen token, který Googlu pouze říká, aby nepoužíval váš obsah pro trénování svých budoucích modelů (jako je Gemini) a pro použití v produktech mimo vyhledávání (jako je Gemini aplikace nebo Vertex).

Jenže ty otravné souhrny (AI Overviews) BOHUŽEL nejsou „mimo vyhledávání„. Dočetl jsem se, že Google říká, že jsou integrální součástí Google Search (Vyhledávání) a proto se na ně vztahuje jediné pravidlo: Googlebot.

To nás všechny tohle staví do nechtěného šachu. Jediný technický způsob, jak zaručeně nebýt v těch AI souhrnech, je zablokovat Googlebot. A to, jak všichni víme, je SEO sebevražda. Takže nám nezbývá, než se s nimi smířit a optimalizovat náš obsah pro ně.

Proč je robot.txt jen cár papíru aneb Kauza Perplexity

Můj původní plán na „tvrdý zákaz“ měl ještě jednu trhlinu. Spoléhal jsem na robots.txt. Ale ukázalo se, že robots.txt není zeď. Je to jen „džentlmenská dohoda“. Slušní boti ji respektují. Šmejdi ji absolutně ignorují.

A co je na tom úplně nejhorší, i někteří „slušní“ hrají falešnou hru. Zářným příkladem třčeba je kauza Perplexity ze srpna 2025. Cloudflare vydal zprávu, kde je obvinil, že používají „stealth crawlery“ (tzv. neviditelné boty). I když jste PerplexityBot zablokovali na úrovni robots.txt a ZÁROVEŇ zablokovali jejich známé IP adresy ve firewallu, oni si pro váš obsah stejně přišli.

A jak? No, jednoduše. Použili bota, který se tvářil jako běžný prohlížeč Chrome na Macu a lezl na web z úplně jiných, nedeklarovaných IP adres.

A co víc, Perplexity to má i ve svých podmínkách. Mají dva boty:

  1. PerplexityBot: Ten prý robots.txt respektuje.
  2. Perplexity-User: Ten se aktivuje, když se uživatel zeptá na konkrétní URL. A ten prý robots.txt „obecně ignoruje“.

Takže spoléhat se jen na robots.txt je jako zamykat dům a nechat klíče pod rohožkou u vchodových dveří.

NordVPN

Takže: Blokovat, nebo neblokovat boty na úrovni robots.txt? Záleží, kdo jste!

Z toho všeho co jsem nastudoval kolem a kolem, bohužel neexistuje jedna správná odpověď pro všechny. Strategie musí vycházet z toho, co je váš byznys.

Typ webuCo chcete?Moje doporučená strategie
Eshop / ProdejceAby lidi objevili vaše produkty.Povolit skoro vše. Chcete, aby vás „Dárci viditelnosti“ (PerplexityBot) doporučovali. Dokonce chcete, aby se „Sběrači dat“ (GPTBot) učili o vaší značce a produktech.
Vydavatel / BlogerChránit svůj unikátní obsah.Blokovat Sběrače. Zablokujte GPTBot a Google-Extended. Nedávejte jim své know-how zadarmo. Je to taky páka pro případné budoucí licenční smlouvy.
Expert / B2B firmaBudovat autoritu a důvěru.Povolit (ale řídit). Každá citace ve strojové odpovědi, i bez prokliku, buduje vaši autoritu. Dokazuje to, že jste expert ve svém oboru.

Speciální poznámka pro eshopy

Pro vás platí ještě jedna zásadní věc. Většina těch nových botů (až na ty největší) neumí zpracovat JavaScript. Pokud máte ceny, popisy produktů a klíčové informace nahrané dynamicky až na straně klienta, jste pro ně neviditelní. Musíte mít tyhle klíčové věci vykreslené na serveru (Server-Side Rendering, SSR), jinak jako byste nebyli.

Speciální poznámka pro vydavatele, magazíny, blogery

Ptáte se, proč blokovat, když je to „symbolické gesto“? Protože přesně to je. Analýza webů ukázala, že víc než polovina (54,2 %) blokuje alespoň jednoho bota. Dělají to jako páku pro vyjednávání. Je to způsob, jak říct: „Naše data nejsou zadarmo. Pojďme se bavit o licenční smlouvě.“ A funguje to – viz nedávná dohoda mezi Associated Press a OpenAI.

Koukni...  Recenze Incogni: Jak smazat vaše osobní údaje z internetu?

Moje nová strategie: Jak konečně řídím celý ten bordel okolo botů

Měl jsem původní plán „všechny zakázat“ a nechat jen GoogleBota, Bing atd.. Můj nový plán tedy je „povolit, ale všechny kontrolovat a řídit“. A bacha robots.txt je jen začátek!

Krok 1: Robots.txt (Džentlmenská dohoda)

Tenhle soubor je jen „začátek“. Slušní boti (jako Googlebot nebo GPTBot) ho většinou poslechnou. Ti špatní (Šmejdi ze Skupiny 4) ho budou ignorovat.

Můj robots.txt co teď už 2 týdny testuju vypadá nějak „z části“ takto (mám web zaměřený na téma kyberbezpečnosti, ale nemám eshop, takže si chráním můj tězce vytvořený E-E-A-T obsah ):

# Boti pro běr dat z mého webu do citací AI - zakázáno
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

# Klíčový boti pro SEO - povoleno
User-agent: Googlebot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ChatGPT-User
Allow: /

Prosím berte toto jako „ukázku“ nikoli, že přesně takto to mám 1:1 (ve skutečnosti mám v robots.txt vyscpecifikováno přes 40 botů co scrapují obsah). Pro váš web se předem domluvte si tím kdo vám ho spravuje!

Krok 2: Omezení rychlosti (Řešení pro mé zničené GA statistiky)

Tohle je ta nejdůležitější věc, kterou jsem zjistil. I když boty povolím, nemusím je nechat, aby mi tisíci požadavky za minutu shodili server a totálně zničili právě tu GA analytiku o kterou mi v první řadě šlo. Někde jsem četl (myslím, že to bylo zde na Fastly), že boti dokážou způsobit 10x až 20x násobný nárůst provozu během pár minut, což se v podstatě rovná DDoS útoku!

Moje řešení? Na úrovni serveru nebo CDN (Cloudflare) jsem nastavil „Rate Limiting“ (omezení rychlosti). Tím jim v podstatě „utáhnu kohoutky“. Povolím jim lézt na web, ale třeba jen 10 stránek za minutu.

Tím řeším dva problémy najednou:

  1. Jsem vidět v nových nástrojích (GEO).
  2. Nezahltí mi server a přestanou mi tak masivně kazit Bounce Rate, protože jejich aktivita bude rozumná.

Krok 3: WAF – Webový Aplikační Firewall (Ta digitální sekera)

No a co nakonec s těmi „Šmejdy“, kteří robots.txt zcela ignorují? Nebo co udělat s těmi „stealth crawlery“ od Perplexity? Na ty platí jednoduše jen hrubá síla. WAF (Web Application Firewall) je filtr, který stojí před mým webem a aktivně blokuje provoz na základě chování, IP adresy nebo dalších znaků.

Tohle je ten skutečný tvrdý zákaz. Tímhle blokuju všechny ty neidentifikované potvory ze Skupiny 4, které mi kradou data a hledají díry v systému. A hlavně, u WAF si musím dát pozor na jednu věc: explicitně povolit ověřené boty jako Googlebot, abych si omylem nezablokoval i je, takže bacha na to!

No a na závěr?

Takže, abych to nějak slušně shrnul. Plošně zakázat všechny nové roboty je chyba. Připravíte se o viditelnost v budoucnosti vyhledávání GEO. Na druhou stranu, nechat otevřená vrata a neřešit to, je cesta k přetíženým serverům, zničeným statistikám na GA a totálně rozkradenému obsahu.

Řešením je přestat být pasivní a o tohle téma se zajímat. Musíte aktivně řídit, koho pustíte dovnitř na váš web. Je to jako s návštěvou u vás doma – někoho pozvete do obýváku třeba GoogleBot, někomu dáte jen kafčo na chodbě (PerplexityBot s omezením rychlosti) a někoho prostě vyhodíte ze dveří (WAF).

Snad vám tenhle můj ponor ohledně této problematiky ušetřil trochu času a nervů a máte už lepší ponětí o čem to je a jak to funguje.

Moje doporučení

Pokud vás tohle téma baví a řešíte nejen AI boty, ale i to, kdo všechno na váš web kouká, doporučuju mít VPN ve vaší základní výbavě.

Obě používám denně, střídám je podle situace a mají jednu věc společnou. Když běží, vím, že se můžu soustředit na práci a ne na to, kdo mě zrovna po netu a kde sleduje.

Alza

Vaše komentáře k tématu nastavení robots.txt a AI boti

Zatím nejsou žádné komentáře… Buďte první, kdo ho napíše.


Přispějte svým komentářem

author avatar
Petr Venclik Tech & VPN & Cybersecurity Blogger
Píšu o technologiích, VPNkách, ochraně soukromí a bezpečnosti na internetu. Všechno, o čem mluvím, si sám testuju - doma, v práci i na cestách. Sdílím tipy a triky, které opravdu fungují, a hodnotím služby podle reálných zkušeností, ne podle reklamních řečí. Baví mě propojovat IT, umělou inteligenci, cestování, marketing a moderní životní styl do jednoho funkčního celku. Věřím, že technologie mají život usnadňovat, ne komplikovat a právě o tom jsou mé články na tomto webu.