Rychlý průvodce psaním souboru Robots.txt

Jak nahlížíte do obrovské učebnice? Prohledávání indexu. No: je tu jeden prvek, který je skutečným shrnutím vašeho webu…

Robots.txt: Programovací kódy musí být stále sofistikovanější
Programovací kódy jsou nastaveny tak, aby byly stále sofistikovanější

Jediný způsob, jak se dostat do kontaktu s vyhledávačem, nebo pásové, je prostřednictvím souboru s názvem robots.txt. Nebo lépe. Když společnosti Google odešlete návrh svého webu, čelí jednoduše obrovskému množství informací.

Jak nahlédnout do učebnice tak velké, že máte pocit, že nikdy nenajdete vše, co potřebujete? Poradíte se vodítko. Dobře: soubor robots.txt je index vašeho webu.

Toto je snadno vyplnitelný dokument, který říká prohledávači vyhledávače, co má hledat. Stručně řečeno: pomůžete mu pochopit, z čeho jsou vaše stránky vyrobeny, aby vám algoritmus mohl poskytnout hodnocení, které je v souladu s vaší prací.

Může kdokoli napsat soubor robots.txt?

Krátká odpověď je ano. Upřímná odpověď je ne. Přestože je gramatika souboru robots.txt extrémně jednoduchá a jeho složení se skládá z několika řádků, je lepší se spolehnout na péči zkušeného webmastera, který ví, kam dát ruce. Koneckonců stačí malá chyba, která ohrozí pozici vašeho webu, a proto zastaví veškeré SEO operace ještě před zahájením.

Než začnete, vězte jednu věc: kdokoli může nahlédnout do souboru robots.txt libovolného webu tak, že za doménu napíše /robots.txt. Můžete dokonce konzultovat Google!

Takový soubor můžete napsat bez stahování speciálního softwaru. Ve skutečnosti stačí použít váš poznámkový blok a uložit, hádejte co, ve formátu .txt.

Pojďme si společně napsat robots.txt: hlavičku

Začněme od začátku, jak je to vždy logické. Otevření souboru, nebo spíše hlavičky, je celé věnováno jménu pavouka, kterému předchází malá formulace, která je vždy stejná. Předpokládejme, že chcete, aby si vás Google všiml. Takže první řádek bude:

Uživatelský agent: Googlebot

Tento velmi krátký řetězec sděluje Googlu, že vše, co následuje, jej bude jistě zajímat. V případě, že chcete, aby všechny prohledávače, které čtou tento typ souboru, mohly nahlížet do dokumentu, nahraďte Googlebotem jednoduchý *, hvězdička.

Nyní, když jste uvedli, kterého pavouka, tj. KDO, budete muset uvést také CO bude muset číst.

Každý řádek kódu podle definice odpovídá akci stroje. Je samozřejmé, že každý příkaz v souboru robots.txt odpovídá tomu, co by stroj neměl dělat. A to je klíč, který vám umožní napsat opravdu efektivní. Mluvíme o příkazu DISALLOW.

Co je příkaz DISALLOW?

Il zakázat příkaz umožňuje uvažovat vyloučením. Jinými slovy, když se říká, že je třeba nejprve říci, co by se nemělo dělat – dobře, uvažujete vyloučením. Kromě disallow existuje také allow, což je výjimka z bloku.

Pokud chcete napsat dobrý soubor robots, budete muset přemýšlet obráceně, takže budete muset Googlu říct, co by neměl číst. Pokud napíšete:

Disallow:

Pavouk přečte celý váš web bez jakýchkoliv brzd.

Pokud za „Disallow:“ vložíte lomítko (proto Disallow: /), stránka nebude zadána do vyhledávačů, tečka.

Disallow: /adresáře/

Nahraďte adresář slov složkou, kterou chcete z pohledu pavouka zakázat. Totéž můžete udělat s konkrétním souborem.

Disallow: /myfile.html

Pozornost k interpunkce a písmena, velká nebo malá písmena. Tento typ souboru má tyto druhy "maličkostí" ve vysoké úctě, ale jsou velkým rozdílem.

Proč byste bránili Googlu ve čtení velké části vašeho webu? Když píšete soubor tohoto typu, je důležité pochopit, které soubory by se neměly objevit ve vyhledávači, ale bez jejich zneužití. Vězte však, že kdokoli, kdo zná přesnou adresu toho konkrétního souboru, k němu bude mít v každém případě přístup.

Co je příkaz ALLOW?

V souboru můžete přidat výjimku pomocí příkazu DOVOLIT. Gramatika je totožná, ale vytvoří některé výjimky z DISALLOW, které umožní pavoukovi otevřít zajímavé možnosti zkoumání.

Malý ukázkový soubor:

Uživatelský agent: Googlebot

Disallow: /images/

Povolit: /images/holidays.jpg

V podstatě jsme řekli Googlebotu, aby nezohledňoval složku obrázků, s výjimkou konkrétní fotografie v ní, konkrétně té z dovolené.

A to je, chlapi, ono. Napsali jsme náš první soubor robots.txt. Jistě, to, co uděláme pro skutečný web, se může mírně lišit, ale ne o mnoho. V případě pochybností si vždy nechte poradit od specializovaného webmastera. Doporučujeme vám, abyste to nejprve zkusili napsat sami a poslali mu to ke kontrole, abyste si osvojili základy a lépe pochopili, jak vaše stránky fungují.

Jaká je korelace mezi souborem robots.txt a soubory Sitemap?

Sitemap je soubor generovaný speciálními pluginy, který obsahuje všechny odkazy na webu. Když pavouk vstoupí na web, nejprve si přečte roboty a poté web proleze. Pokud během procházení robot najde adresu sitemap, celý proces bude mnohem jednodušší.

K výše uvedenému kódu přidejte následující:

Mapa stránek: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Na závěr

Všechny soubory robotů jsou stejné. To znamená, že soubor Robots napsaný pro Google bude také fungovat dobře pro Bing a bude dodržovat stejnou gramatiku.

Dobře organizovaný soubor robots.txt vám to umožňuje ušetřit čas prohledávače. Nenechte se odradit: toto je první krok k úspěchu!

Robots.txt: Google je nejvýkonnější vyhledávač na internetu
Google je nejvýkonnější vyhledávač na internetu