Případová studie

Nahrál jsem llms.txt a počkal, kdo si pro něj přijde. AI boti nedorazili

Nahrál jsem llms.txt a počkal, kdo si pro něj přijde. AI boti nedorazili 1

V roce 2024 navrhl Jeremy Howard formát llms.txt. Myšlenka je elegantní: textový soubor v rootu webu, který jazykovým modelům nabídne čistý rozcestník obsahu. Obdoba robots.txt, ale mířená na AI. Web řekne modelu, kde má to podstatné, a model si ušetří procházení balastu. Funguje to tak už v praxi?

Standard si od té doby získal pozornost. Píše se o něm na konferencích, doplňky ho generují jedním klikem, agentury ho přidávají do nabídek, v Česku jsem dříve zahlédl i cenovku 10 tisíc Kč za vytvoření souboru. Méně často ale někdo ukáže, jestli si ten soubor reálně někdo stahuje. Nahrál jsem proto /llms.txt na web jednoho z klientů, B2B e-shop s ložisky, kterému dělám SEO, a po čase jsem si prošel access logy. Na soubor současně nikde neodkazuji. Zajímalo mě jediné: jestli a kdo jej čte.

Jak jsem to měřil

Testík je zatím krátký. Měřil jsem 16 dní, od 9. do 24. června 2026. Za tu dobu web obsloužil 1 854 439 requestů. To je dost velký vzorek na to, aby se v něm projevil i okrajový provoz.

Metoda byla prostá. Vzal jsem access logy a vyfiltroval každý request, který směřoval na /llms.txt. U každého jsem si pak rozklíčoval user-agent, abych věděl, kdo soubor stáhl. Paralelně jsem napočítal, kolik requestů na webu udělali velcí generativní AI boti, abych měl srovnání:

  • chodí na web vůbec?
  • a když ano, sahají na ten soubor, který je jim určen?
  • měli by se chovat podobně, jako s robots.txt, tedy volat si na něj?

Kolik stažení llms.txt dostal

Za 16 dní a téměř dva miliony requestů na /llms.txt proběhlo 24 reálných stažení. Z toho 22× metodou GET se stavem 200 a 2× metodou HEAD se stavem 200.

K tomu připočtěte 5 takzvaných probe requestů na špatné cesty: /.well-known/llms.txt, /api/llms.txt, /docs/llms.txt a /static/llms.txt. To jsou discovery boti, kteří zkoušejí, kde soubor leží, protože jednotná konvence umístění zatím není pevně daná.

Těch 24 stažení je 0,0013 % všech requestů. Zhruba jeden request ze 77 000. Číslo, které by se v žádném reportu neztratilo, protože je prakticky neviditelné.

AI boti na web chodí. Jen ne na llms.txt

Někdo by mohl namítnout, že na ten web AI prostě neleze, a soubor tím pádem nemá komu sloužit. Data říkají opak. Generativní AI boti dohromady udělali zhruba 106 200 requestů, což je 5,7 % veškerého provozu. Každý osmnáctý request na webu pochází od AI crawleru.

Tady je rozpad podle user-agentů, včetně toho, kolikrát každý z nich sáhl na llms.txt:

Bot Requestů Z toho na llms.txt
GPTBot (OpenAI, training) 84 794 0
Meta-ExternalAgent 10 273 0
OAI-SearchBot (ChatGPT search) 4 730 0
ClaudeBot (Anthropic) 3 345 0
Amazonbot 965 0
CCBot (Common Crawl) 705 0
ChatGPT-User (živé dotazy lidí) 705 0
Bytespider (ByteDance) 596 0
Applebot 31 0
PerplexityBot 1 0
Google-Extended 0 0

Pro úplnost dodávám klasické search boty, které také nesáhly na soubor ani jednou: Googlebot 120 590 requestů, Bingbot 15 111, YandexBot 4 305.

Z tabulky čtu tři věci. GPTBot od OpenAI je s 84 794 requesty zdaleka nejaktivnější návštěvník a llms.txt ignoroval do jednoho. Ani jeden velký generativní crawler si soubor nestáhl ani jednou, přestože po webu lezou intenzivně. A Google-Extended, opt-in user-agent pro trénink Gemini, se za celé okno neukázal vůbec.

Stojí za pozornost i ChatGPT-User se 705 requesty. To nejsou plánované crawly, ale situace, kdy se člověk něco zeptá v ChatGPT a model si jde danou stránku načíst živě, v reálném čase. Tohle je z celého seznamu nejpřímější AI interakce s webem. Ani ona na llms.txt nesáhla.

Čtou robots.txt, llms.txt ignorují

Mohlo by se zdát, že tihle boti meta-soubory v rootu prostě neřeší. Neřeší. Tytéž user-agenty si totiž robots.txt aktivně a opakovaně tahají.

  • ClaudeBot si za okno stáhl robots.txt 333×.
  • OAI-SearchBot 417×.
  • YandexBot 324×.

Mechanika čtení rootu tedy funguje a boti ji používají. Soubor pojmenovaný přímo po nich si ale nevyžádali. Prostě není na seznamu věcí, které mají navštívit. robots.txt tam je, llms.txt ne.

Kdo si llms.txt reálně stáhl

Zbývá nejzajímavější otázka. Když to nebyly modely, kdo tedy těch 24 stažení udělal? Rozklíčoval jsem každý user-agent a rozpadá se to do čtyř skupin.

  • Scannery měřící rozšíření llms.txt napříč weby (5 stažení). Sem patří crawler z llmstxtscan.org, LLMS-Txt-Scanner/1.0 Research, TheWebReport a CMSSurvey. Tyto nástroje nedělají nic jiného, než že obcházejí weby a zjišťují, kolik z nich už soubor nasadilo.
  • SEO a profilovací nástroje (4 stažení). BuiltWith dvakrát, dále Semrush SiteAuditBot a Dataprovider.com. prodavači dat hledají krmivo pro své produkty. 🙂
  • WebPageTest a synthetic monitoring (8 stažení). User-agenty s řetězcem „PTST” a HeadlessChrome. S vysokou pravděpodobností moje vlastní testování a měřáky, které jsem na web pustil.
  • Generické browsery a probe-bot (7 stažení). Neidentifikovaný bot, který systematicky zkoušel různé cesty, plus pár anonymních prohlížečů.

Pointa toho rozpadu je jednoduchá. Ani jeden z těch 24 návštěvníků nebyl LLM, kterému je soubor určen. Byly to nástroje, které llms.txt katalogizují, plus moje vlastní testy.

Limity, o kterých byste měli vědět

Nepřeháněl bych dosah tohohle experimentu a chci být férový k tomu, co data neukazují.

  • 16 dní je snapshot, ne důkaz „nikdy”. Standard je mladý a boti můžou začít llms.txt číst kdykoli. Měřil jsem stav k červnu 2026, ne budoucnost.
  • Měřeno na jednom webu. B2B e-shop střední velikosti není reprezentativní vzorek internetu. Velké brandy, weby s rozsáhlou dokumentací nebo vývojářské portály můžou mít docela jiný obrázek. Právě tam, kde má rozcestník obsahu největší smysl, by se soubor mohl chytit dřív. Test dělám proto, že mám pod kontrolou jak vstup, tak access logy aniž bych potřeboval někoho dalšího.
  • Boti se identifikují podle user-agent stringu, který jde podvrhnout. Část provozu se může schovávat za cizí identitu. U oficiálních botů LLM služeb tohle nedává smysl, i když Perplexity má známou historii schovávání svého bota a Anthropic taky není lilie.

Co si z toho odnést

Konzumenti llms.txt dnes nejsou modely, kterým je formát určen. Jsou to nástroje, které měří, kolik webů ho už nasadilo. K červnu 2026 si velcí hráči ten soubor prostě netahají, ať už intenzivně web procházejí kvůli tréninku, vyhledávání nebo živým dotazům uživatelů.

Z toho ale neplyne, že byste měli llms.txt rušit nebo kvůli němu panikařit. Náklad na jeho vytvoření a údržbu je blízko nule. Žádný downside tam nevidím, a kdyby se situace za půl roku otočila a boti soubor číst začali, budete připravení. Soubor klidně mějte. Je možné, že pomůže jinde, ale ne v SEO nebo SEO pro AI, ať už mu říkáte GEO nebo AEO či jinak.

Jen od něj zatím nečekejte měřitelný efekt na to, jak vás AI cituje nebo jak rozumí vašemu webu. To je odděleně od toho, jestli je dobrý nápad ho mít. Kdo tvrdí, že llms.txt reálně mění chování modelů, ať k tomu ukáže access log.

Napište komentář

Vaše e-mailová adresa nebude zveřejněna. Povinná pole jsou označená.