Nu permiteți fișierul txt roboți. roboți Yandex. Permite - direcționăm roboții

04.06.2020

Robots.txt- Asta fișier text, care se află la rădăcina site-ului - http://site.ru/robots.txt. Scopul său principal este de a seta anumite directive pentru motoarele de căutare - ce și când să facă pe site.

Cei mai simpli Robots.txt

Cel mai simplu robots.txt, care permite tuturor motoarelor de căutare să indexeze totul, arată astfel:

Agent utilizator: *
Nu permiteți:

Dacă directiva Disallow nu are o bară oblică finală, atunci toate paginile sunt permise pentru indexare.

Această directivă interzice complet site-ului să indexeze:

Agent utilizator: *
Nu permite: /

User-agent - indică cui sunt destinate directivele, asteriscul indică faptul că pentru toate PS, pentru Yandex indicați User-agent: Yandex.

Ajutorul Yandex spune că roboții săi de căutare procesează User-agent: * , dar dacă User-agent: Yandex este prezent, User-agent: * este ignorat.

Directivele Disallow și Allow

Există două directive principale:

Interzice - interzice

Permite - permite

Exemplu: Pe blog, am interzis indexarea folderului /wp-content/ în care se află fișierele plugin, șabloane etc. Dar există și imagini care trebuie indexate de PS pentru a putea participa la căutarea imaginilor. Pentru a face acest lucru, trebuie să utilizați următoarea schemă:

Agent utilizator: *
Permite: /wp-content/uploads/ # Permite indexarea imaginilor în folderul de încărcări
Nu permiteți: /wp-content/

Ordinea în care sunt utilizate directivele contează pentru Yandex dacă se aplică acelorași pagini sau foldere. Dacă o specificați astfel:

Agent utilizator: *
Nu permiteți: /wp-content/
Permite: /wp-content/uploads/

Imaginile nu vor fi descărcate de robotul Yandex din directorul /uploads/, deoarece se execută prima directivă, care interzice orice acces la folderul wp-content.

Google ia totul mai ușor și execută toate directivele din fișierul robots.txt, indiferent de locația lor.

De asemenea, nu uitați că directivele cu și fără bare oblice îndeplinesc roluri diferite:

Nu permite: /aproximativ Acesta va refuza accesul la întregul director site.ru/about/, iar paginile care conțin despre - site.ru/about.html, site.ru/aboutlive.html etc. nu vor fi indexate.

Nu permiteți: /despre/ Le va interzice roboților să indexeze pagini din directorul site.ru/about/ și pagini precum site.ru/about.html etc. vor fi disponibile pentru indexare.

Expresii regulate în robots.txt

Sunt acceptate două caractere, acestea sunt:

* - implică orice ordine a caracterelor.

Exemplu:

Nu permite: /despre* va refuza accesul la toate paginile care conțin despre, în principiu, o astfel de directivă va funcționa la fel fără un asterisc. Dar în unele cazuri această expresie nu este înlocuibilă. De exemplu, într-o categorie sunt pagini cu și fără .html la sfârșit, pentru a bloca toate paginile care conțin html de la indexare scriem următoarea directivă:

Nu permiteți: /about/*.html

Acum pagina site.ru/about/live.html este închisă de la indexare, iar pagina site.ru/about/live este deschisă.

Un alt exemplu prin analogie:

Agent utilizator: Yandex
Permite: /about/*.html #permite indexarea
Nu permiteți: /despre/

Toate paginile vor fi închise, cu excepția paginilor care se termină în .html

$ - decupează partea rămasă și marchează sfârșitul liniei.

Exemplu:

Nu permite: /aproximativ- Această directivă robots.txt interzice indexarea tuturor paginilor care încep cu about , și, de asemenea, interzice paginile din directorul /about/.

Adăugând un simbol dolar la sfârșit - Disallow: /about$ vom spune roboților că numai pagina /about nu poate fi indexată, ci directorul /about/, /aboutlive pagini etc. pot fi indexate.

Directiva Sitemap

Această directivă specifică calea către Harta site-ului, sub această formă:

Harta site-ului: http://site.ru/sitemap.xml

Directiva gazdă

Este indicat sub această formă:

Gazdă: site.ru

Fără http:// , bare oblice și altele asemenea. Dacă aveți un site oglindă principal cu www, atunci scrieți:

Exemplu robots.txt pentru Bitrix

Agent utilizator: *
Nu permiteți: /*index.php$
Nu permiteți: /bitrix/
Nu permiteți: /auth/
Nu permiteți: /personal/
Nu permiteți: /încărcare/
Nu permiteți: /căutare/
Nu permiteți: /*/căutare/
Nu permiteți: /*/slide_show/
Nu permiteți: /*/galerie/*comanda=*
Nu permite: /*?*
Nu permiteți: /*&print=
Nu permiteți: /*register=
Nu permiteți: /*forgot_password=
Nu permiteți: /*change_password=
Nu permiteți: /*login=
Nu permiteți: /*logout=
Nu permiteți: /*auth=
Nu permiteți: /*acțiune=*
Nu permiteți: /*bitrix_*=
Nu permiteți: /*backurl=*
Nu permiteți: /*BACKURL=*
Nu permiteți: /*back_url=*
Nu permiteți: /*BACK_URL=*
Nu permiteți: /*back_url_admin=*
Nu permiteți: /*print_course=Y
Nu permiteți: /*COURSE_ID=
Nu permiteți: /*PAGEN_*
Nu permiteți: /*PAGE_*
Nu permite: /*SHOWALL
Nu permite: /*show_all=
Gazdă: sitename.ru
Harta site-ului: https://www.sitename.ru/sitemap.xml

Exemplu robots.txt pentru WordPress

După ce au fost adăugate toate directivele necesare descrise mai sus. Ar trebui să ajungeți cu un fișier roboți cam așa:

Aceasta este, ca să spunem așa, versiunea de bază a robots.txt pentru WordPress. Există doi agenți de utilizator aici - unul pentru toată lumea și al doilea pentru Yandex, unde este specificată directiva Gazdă.

Meta-roboți etichete

Este posibil să blocați indexarea unei pagini sau a unui site web nu numai cu fișierul robots.txt, acest lucru se poate face folosind o metaetichetă.

Trebuie să fie scris într-o etichetă și această metaetichetă va împiedica indexarea site-ului. Există pluginuri în WordPress care vă permit să setați astfel de metaetichete, de exemplu – Platinum Seo Pack. Cu el puteți bloca orice pagină de la indexare, folosește metaetichete.

Directiva privind întârzierea cu crawler

Folosind această directivă, puteți seta timpul pentru care botul de căutare ar trebui să fie întrerupt între descărcarea paginilor site-ului.

Agent utilizator: *
Întârziere crawler: 5

Timpul de expirare dintre încărcarea a două pagini va fi de 5 secunde. Pentru a reduce sarcina pe server, de obicei o setează la 15-20 de secunde. Această directivă este necesară pentru site-urile mari, actualizate frecvent, unde roboții de căutare pur și simplu „trăiesc”.

Pentru site-uri/bloguri obișnuite, această directivă nu este necesară, dar în acest fel puteți limita comportamentul altor roboți de căutare irelevanți (Rambler, Yahoo, Bing) etc. La urma urmei, merg și pe site și îl indexează, creând astfel o încărcare pe server.

Majoritatea roboților sunt bine proiectați și nu provoacă probleme proprietarilor de site-uri web. Dar dacă botul a fost scris de un amator sau „ceva a mers prost”, atunci poate crea o încărcare semnificativă pe site-ul pe care îl accesează cu crawlere. Apropo, păianjenii nu intră deloc pe server ca niște viruși - pur și simplu solicită paginile de care au nevoie de la distanță (de fapt, acestea sunt analoge ale browserelor, dar fără funcția de vizualizare a paginii).

Robots.txt - directivă user-agent și roboți pentru motoarele de căutare

Robots.txt are o sintaxă foarte simplă, care este descrisă în detaliu, de exemplu, în Ajutor YandexŞi Ajutor Google. De obicei indică pentru ce bot de căutare sunt destinate următoarele directive: nume bot (" Agent utilizator"), permițând (" Permite") și interzicerea (" Nu permiteți"), iar „Sitemap” este, de asemenea, utilizat în mod activ pentru a indica motoarele de căutare exact unde se află fișierul hărții.

Standardul a fost creat cu destul de mult timp în urmă și ceva a fost adăugat mai târziu. Există directive și reguli de proiectare care vor fi înțelese doar de anumiți roboți. motoarele de căutare. În RuNet, doar Yandex și Google sunt de interes, ceea ce înseamnă că ar trebui să vă familiarizați cu ajutorul lor pentru compilarea robots.txt în detaliu (am furnizat linkurile în paragraful anterior).

De exemplu, anterior era util ca motorul de căutare Yandex să indice că proiectul dvs. web este principalul într-o directivă specială „Gazdă”, pe care doar acest motor de căutare o înțelege (ei bine, și Mail.ru, deoarece căutarea lor este de la Yandex ). Adevărat, la începutul lui 2018 Yandex a anulat în continuare Host iar acum funcțiile sale, ca și ale altor motoare de căutare, sunt îndeplinite de o redirecționare 301.

Chiar dacă resursa dvs. nu are oglinzi, va fi util să indicați care opțiune de ortografie este cea principală - .

Acum să vorbim puțin despre sintaxa acestui fișier. Directivele din robots.txt au următoarea vedere:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Codul corect ar trebui să conțină cel puțin o directivă „Disallow”. după fiecare intrare „User-agent”. Un fișier gol presupune permisiunea de a indexa întregul site.

User-agent

Directiva „User-agent”. trebuie să conțină numele botului de căutare. Folosind-o, puteți configura reguli de comportament pentru fiecare motor de căutare specific (de exemplu, creați o interdicție privind indexarea unui folder separat numai pentru Yandex). Un exemplu de scriere a „User-agent” adresat tuturor roboților care vă vizitează resursa arată astfel:

Agent utilizator: *

Dacă doriți să setați anumite condiții în „User-agent” doar pentru un bot, de exemplu, Yandex, atunci trebuie să scrieți acest lucru:

Agent utilizator: Yandex

Numele roboților motoarelor de căutare și rolul acestora în fișierul robots.txt

Botul fiecărui motor de căutare are propriul nume (de exemplu, pentru un rambler este StackRambler). Aici voi da o listă cu cele mai cunoscute dintre ele:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Motoarele de căutare majore uneori cu excepția roboților principali, există și instanțe separate pentru indexarea blogurilor, știrilor, imaginilor etc. Puteți obține o mulțime de informații despre tipurile de roboți (pentru Yandex) și (pentru Google).

Ce să faci în acest caz? Dacă trebuie să scrieți o regulă pentru interzicerea indexării, pe care trebuie să o respecte toate tipurile de roboți Google, atunci folosiți numele Googlebot și toți ceilalți păianjeni ai acestui motor de căutare se vor supune și ei. Cu toate acestea, puteți interzice numai, de exemplu, indexarea imaginilor, specificând robotul Googlebot-Image ca User-agent. Acum acest lucru nu este foarte clar, dar cu exemple, cred că va fi mai ușor.

Exemple de utilizare a directivelor Disallow și Allow în robots.txt

Îți voi oferi câteva simple. exemple de utilizare a directivelor cu o explicație a acțiunilor sale.

Codul de mai jos permite tuturor roboților (indicați printr-un asterisc în User-agent) să indexeze tot conținutul fără nicio excepție. Acesta este dat directivă goală Disallow.
Agent utilizator: * Nu permite:
Următorul cod, dimpotrivă, interzice complet tuturor motoarelor de căutare să adauge pagini din această resursă la index. Setează această opțiune la Disallow cu „/” în câmpul de valoare.
Agent utilizator: * Nu permite: /
În acest caz, tuturor roboților li se va interzice vizualizarea conținutului directorului /image/ (http://mysite.ru/image/ este calea absolută către acest director) User-agent: * Disallow: /image/
Pentru a bloca un fișier, va fi suficient să-i înregistrați calea absolută către el (citiți): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Privind puțin înainte, voi spune că este mai ușor să folosiți simbolul asterisc (*) pentru a nu scrie calea completă:
Nu permiteți: /*private_file.html În exemplul de mai jos, directorul „image” va fi interzis, precum și toate fișierele și directoarele care încep cu caracterele „image”, adică fișierele: „image.htm”, „images.htm”, directoare: „image”, „ images1”, „image34”, etc.): User-agent: * Disallow: /image Faptul este că implicit la sfârșitul intrării există un asterisc, care înlocuiește orice caractere, inclusiv absența acestora. Citiți mai jos despre asta. Prin utilizarea
Permite directive
permitem accesul. Complementele Renunță bine. De exemplu, cu această condiție, interzicem robotului de căutare Yandex să descarce (indexeze) totul, cu excepția paginilor web a căror adresă începe cu /cgi-bin: User-agent: Yandex Allow: /cgi-bin Disallow: /
Ei bine, sau acest exemplu evident de utilizare a combinației Permite și Nu permite: User-agent: * Disallow: /catalog Allow: /catalog/auto Când descrieți căile pentru directivele Allow-Disallow, puteți utiliza simbolurile
1. „*” și „$” , definind astfel anumite expresii logice. Simbol
2. "*"(stea) înseamnă orice secvență de caractere (inclusiv goală). Următorul exemplu interzice tuturor motoarelor de căutare să indexeze fișiere cu extensia „.php”: User-agent: * Disallow: *.php$ De ce este nevoie la final?
  semnul $
  ? Cert este că, conform logicii compilării fișierului robots.txt, se adaugă un asterisc implicit la sfârșitul fiecărei directive (nu este acolo, dar pare să fie acolo). De exemplu, scriem: Disallow: /images
  Dând de înțeles că acesta este același cu: Nu permiteți: /imagini* Aceste. această regulă interzice indexarea tuturor fișierelor (pagini web, imagini și alte tipuri de fișiere) a căror adresă începe cu /imagini și apoi urmează orice (vezi exemplul de mai sus). Aşa,
  simbolul $
  Previne doar indexarea fișierului /images, dar nu și /images.html sau /images/primer.html. Ei bine, în primul exemplu, am interzis indexarea doar a fișierelor care se termină în .php (având o astfel de extensie), pentru a nu prinde nimic inutil:
  Nu permite: *.php$

În multe motoare, utilizatorii (url-uri care pot fi citite de om), în timp ce adresele URL generate de sistem au un semn de întrebare „?" in adresa. Puteți profita de acest lucru și scrie următoarea regulă în robots.txt: User-agent: * Disallow: /*?

Asterisc după semnul întrebării sugerează în sine, dar, după cum am aflat puțin mai sus, este deja subînțeles la sfârșit. Astfel, vom interzice indexarea paginilor de căutare și a altor pagini de servicii create de motor, la care robotul de căutare poate ajunge. Nu va fi de prisos, deoarece semnul de întrebare este cel mai des folosit de CMS ca identificator de sesiune, ceea ce poate duce la includerea paginilor duplicate în index.

Sitemap și directive gazdă (pentru Yandex) în Robots.txt

Pentru a evita problemele neplăcute cu oglinzile site-ului, anterior a fost recomandat să adăugați o directivă Gazdă la robots.txt, care a îndreptat botul Yandex către oglinda principală.

Directiva gazdă - indică oglinda principală a site-ului pentru Yandex

De exemplu, mai devreme dacă tu nu au trecut încă la un protocol securizat, a fost necesar să se indice în Gazdă nu URL-ul complet, dar nume de domeniu(fără http://, adică ru). Dacă ați trecut deja la https, atunci va trebui să indicați adresa URL completă (cum ar fi https://myhost.ru).

Un instrument minunat pentru combaterea conținutului duplicat - motorul de căutare pur și simplu nu va indexa pagina dacă este înregistrată o adresă URL diferită în Canonical. De exemplu, pentru o astfel de pagină a blogului meu (pagină cu paginare), Canonical indică https://site și nu ar trebui să existe probleme cu duplicarea titlurilor.

Dar mă abat...
Dacă proiectul dvs. este creat pe baza oricărui motor, atunci Va apărea conținut duplicat cu o probabilitate mare, ceea ce înseamnă că trebuie să îl combateți, inclusiv cu ajutorul unui ban în robots.txt, și mai ales în metaeticheta, pentru că în primul caz Google poate ignora banul, dar nu va mai putea să-i pese de meta-etichetă (adusă în acest fel).
De exemplu, în Pagini WordPress cu conținut foarte asemănător pot fi incluse în indexul motorului de căutare dacă este permisă indexarea conținutului categoriilor, a conținutului arhivei de etichete și a conținutului arhivelor temporare. Dar dacă, folosind metaeticheta Robots descrisă mai sus, creați o interdicție a arhivei de etichete și a arhivei temporare (puteți lăsa etichetele și interzice indexarea conținutului categoriilor), atunci duplicarea conținutului nu va avea loc. Cum se face acest lucru este descris în linkul dat chiar mai sus (la pluginul OlInSeoPak)
Pentru a rezuma, voi spune că fișierul Robots este destinat stabilirii regulilor globale pentru interzicerea accesului la directoare întregi ale site-ului, sau la fișiere și foldere ale căror nume conțin caractere specificate (prin mască). Puteți vedea exemple de stabilire a unor astfel de interdicții chiar mai sus.
Acum să aruncăm o privire exemple concrete roboți proiectați pentru diferite motoare - Joomla, WordPress și SMF. Desigur, toate cele trei opțiuni create pentru diferite CMS vor diferi semnificativ (dacă nu radical) una de cealaltă. Adevărat, toate vor avea un lucru în comun, iar acest moment este legat de motorul de căutare Yandex.
Deoarece În RuNet, Yandex are o greutate destul de mare, atunci trebuie să luăm în considerare toate nuanțele muncii sale și aici Directiva gazdă vă va ajuta. Acesta va indica în mod explicit acestui motor de căutare oglinda principală a site-ului dvs.
Pentru aceasta, este recomandat să folosiți un blog separat pentru User-agent, destinat numai Yandex (User-agent: Yandex). Acest lucru se datorează faptului că alte motoare de căutare ar putea să nu înțeleagă Host și, în consecință, includerea acesteia în înregistrarea User-agent destinată tuturor motoarelor de căutare (User-agent: *) poate duce la consecințe negative și la indexare incorectă.
Este greu de spus care este situația cu adevărat, deoarece algoritmii de căutare sunt un lucru în sine, așa că este mai bine să procedați conform recomandărilor. Dar în acest caz, va trebui să duplicăm în directiva User-agent: Yandex toate regulile pe care le setăm User-agent: *. Dacă părăsiți User-agent: Yandex cu un Disallow: gol, atunci îi veți permite lui Yandex să meargă oriunde și să trageți totul în index.
Roboți pentru WordPress
Nu voi da un exemplu de fișier pe care dezvoltatorii îl recomandă. Îl poți urmări singur. Mulți bloggeri nu limitează deloc roboții Yandex și Google în plimbările lor prin conținutul motorului WordPress. Cel mai adesea pe bloguri puteți găsi roboți umpluți automat cu un plugin.
Dar, după părerea mea, ar trebui să ajutăm totuși căutarea în sarcina dificilă de a cerne grâul din pleavă. În primul rând, roboții Yandex și Google vor avea nevoie de mult timp pentru a indexa acest gunoi și este posibil să nu mai rămână timp pentru a adăuga pagini web cu noile articole la index. În al doilea rând, roboții care se accesează cu crawlere prin fișierele motorului de gunoi vor crea încărcare suplimentară pe serverul gazdei dvs., ceea ce nu este bun.
Puteți vedea singur versiunea mea a acestui fișier. Este vechi și nu a fost schimbat de mult timp, dar încerc să urmez principiul „nu repara ceea ce nu este stricat” și ține de tine să decizi: folosește-l, fă-ți singur sau furi din altcineva. De asemenea, am avut până de curând interdicție de indexare a paginilor cu paginare (Disallow: */page/), dar recent am eliminat-o, bazându-mă pe Canonical, despre care am scris mai sus.
In general, singurul fișier corect pentru WordPress probabil că nu există. Puteți, desigur, să implementați orice cerințe prealabile în ea, dar cine a spus că vor fi corecte. Există multe opțiuni pentru robots.txt ideal pe Internet.
Voi da două extreme:
puteți găsi un mega fișier cu explicații detaliate (simbolul # separă comentariile care ar fi mai bine șterse într-un fișier real): User-agent: * # reguli generale pentru roboți, cu excepția Yandex și Google, # deoarece pentru ei regulile sunt mai jos Disallow: /cgi-bin # folder on hosting Disallow: /? # toți parametrii de solicitare de pe pagina principală Disallow: /wp- # toate fișierele WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # dacă există un subdirector /wp/ unde CMS-ul este instalat (dacă nu, # regula poate fi ștearsă) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # author archive Disallow: /users/ # arhiva autorului Disallow: */ trackback # trackback-uri, notificări în comentarii despre apariția unui # link deschis către un articol Disallow: */feed # toate feedurile Disallow: */rss # rss feed Disallow: */embed # all embeddings Disallow : */wlwmanifest.xml # fișier xml manifest Windows Live Scriitor (dacă nu o utilizați, # regula poate fi ștearsă) Disallow: /xmlrpc.php # WordPress API file Disallow: *utm= # link-uri cu etichete utm Disallow: *openstat= # link-uri cu etichete openstat Permite: * /uploads # deschide folderul cu fișierele de încărcare User-agent: GoogleBot # reguli pentru Google (nu dublez comentarii) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # open js scripts inside /wp - (/*/ - pentru prioritate) Permite: /*/*.css # deschide fișiere CSS în /wp- (/*/ - pentru prioritate) Permite: /wp-*.png # imagini în pluginuri, folderul cache și etc. Permite: /wp-*.jpg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.jpeg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.gif # imagini în pluginuri, folderul cache etc. Permite: /wp-admin/admin-ajax.php # folosit de pluginuri pentru a nu bloca JS și CSS User-agent: Yandex # reguli pentru Yandex (nu dublez comentarii) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Nu permite: */embed Nepermite: */wlwmanifest.xml Permite: /xmlrpc.php Permite: */încărcări Permite: /*/*.js Permite: /*/*.css Permite: /wp-*.png Permite: /wp-*.jpg Permite: /wp-*.jpeg Permite: /wp-*.gif Permite: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex recomandă să nu blochezi # de la indexare, ci ștergerea parametrii etichetei, # Google nu acceptă astfel de reguli Clean-Param: openstat # similar # Specificați unul sau mai multe Fișiere sitemap(nu este nevoie de duplicat pentru fiecare User-agent #). Google XML Sitemap creează 2 sitemap ca exemplul de mai jos. Harta site-ului: http://site.ru/sitemap.xml Harta site-ului: http://site.ru/sitemap.xml.gz # Specificați oglinda principală a site-ului, ca în exemplul de mai jos (cu WWW / fără WWW, dacă HTTPS # apoi scrieți protocolul, dacă trebuie să specificați un port, indicați-l). Comanda Gazdă este înțeleasă de # Yandex și Mail.RU, Google nu o ia în considerare. Gazdă: www.site.ru
Dar puteți folosi un exemplu de minimalism: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Gazdă: https://site.ru Sitemap: https://site. ru/sitemap.xml

Adevărul se află probabil undeva la mijloc. De asemenea, nu uitați să adăugați metaeticheta Robots pentru paginile „extra”, de exemplu, folosind minunatul plugin - . De asemenea, vă va ajuta să configurați Canonical.
Robots.txt corect pentru Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
În principiu, aici se ia în calcul aproape totul și funcționează bine. Singurul lucru este că ar trebui să adăugați o regulă separată User-agent: Yandex pentru a introduce directiva Gazdă, care definește oglinda principală pentru Yandex și, de asemenea, specifica calea către fișierul Sitemap.
Prin urmare, în forma finală roboți corecti pentru Joomla, în opinia mea, ar trebui să arate astfel:
Agent utilizator: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Disallow: /index.php Gazdă: vash_sait.ru (sau www.vash_sait.ru) User-agent: * Permite: /*.css?*$ Permite: /*.js?*$ Permite: /* .jpg?*$ Permite: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Disallow: /*% Disallow: /index.php Sitemap: http://calea către harta în format XML
Da, rețineți că în a doua opțiune există directive Permite, permițând indexarea stilurilor, scripturilor și imaginilor. Acest lucru a fost scris special pentru Google, deoarece Googlebot-ul său se plânge uneori că indexarea acestor fișiere, de exemplu, din folderul cu tema folosită, este interzisă în roboți. Ba chiar amenință că își va coborî clasamentul pentru asta.
Prin urmare, permitem ca întregul lucru să fie indexat în avans folosind Allow. Apropo, același lucru s-a întâmplat în fișierul exemplu pentru WordPress.

Mult succes pentru tine! Ne vedem curând pe paginile site-ului blogului
S-ar putea să fiți interesat
Domenii cu și fără www - istoricul apariției lor, utilizarea redirecționărilor 301 pentru a le lipi împreună
Oglinzi, pagini duplicate și adrese URL- auditul site-ului dvs. sau ceea ce ar putea cauza eșec în timpul promovării sale SEO SEO pentru începători: 10 puncte principale ale unui audit tehnic de site
Bing webmaster - centru pentru webmasteri din motorul de căutare Bing
Google webmaster - Instrumente Search Console (Google Webmaster)
Cum să evitați greșelile comune atunci când promovați un site web
Cum să promovați singur un site web prin îmbunătățirea optimizării în pagină cuvinte cheieși eliminarea conținutului duplicat
Yandex Webmaster - indexare, link-uri, vizibilitate site-ului, selecția regiunii, autor și verificarea virușilor în Yandex Webmaster

Fișierul robot.txt este necesar pentru majoritatea site-urilor web.

Fiecare optimizator SEO trebuie să înțeleagă semnificația acestui fișier și, de asemenea, să poată scrie cele mai populare directive.

Roboții compuși corespunzător îmbunătățesc poziția site-ului în rezultatele căutării și, printre alte metode de promovare, reprezintă un instrument SEO eficient.

Pentru a înțelege ce este robot.txt și cum funcționează, să ne amintim cum funcționează motoarele de căutare.

Pentru a-l verifica, introduceți domeniul rădăcină în bara de adrese, apoi adăugați /robots.txt la sfârșitul adresei URL.

De exemplu, fișierul robot Moz se află la: moz.com/robots.txt. Intrăm și obținem pagina:

Instrucțiuni pentru „robot”

Cum se creează un fișier robots.txt?

3 tipuri de instrucțiuni pentru robots.txt.

Dacă descoperiți că fișierul dvs. robots.txt lipsește, este ușor să creați unul.

După cum sa menționat deja la începutul articolului, acesta este un fișier text obișnuit în directorul rădăcină al site-ului.

Se poate face prin panoul de administrare sau managerul de fișiere, cu care programatorul lucrează cu fișierele de pe site.

Ne vom da seama cum și ce să scriem acolo pe măsură ce articolul progresează.

Motoarele de căutare primesc trei tipuri de instrucțiuni din acest fișier:

scanează totul, adică acces complet(Permite);
nu poți scana nimic - o interdicție completă (Disallow);
scanează elemente individuale nepermise (care sunt indicate) – acces parțial.

În practică arată astfel:

Vă rugăm să rețineți că pagina poate apărea în continuare în rezultatele căutării dacă este legată de pe sau în afara acestui site.

Pentru a înțelege mai bine acest lucru, să studiem sintaxa acestui fișier.

Sintaxă Robots.Txt

Robots.txt: cum arată?

Puncte importante: ceea ce ar trebui să vă amintiți întotdeauna despre roboți.

Șapte termeni comuni care se găsesc adesea pe site-uri web.

În forma sa cea mai simplă, robotul arată astfel:

Agent utilizator: [numele sistemului pentru care scriem directive] Disallow: Sitemap: [indicați unde avem harta site-ului] # Regula 1 User agent: Googlebot Disallow: /prim1/ Sitemap: http://www.nashsite. com /sitemap.xml

Împreună, aceste trei linii sunt considerate cele mai simple robots.txt.

Aici am împiedicat bot-ul să indexeze adresa URL: http://www.nashsite.com/prim1/ și am indicat unde se află harta site-ului.

Vă rugăm să rețineți că în fișierul roboți, setul de directive pentru un agent utilizator (motor de căutare) este separat de setul de directive pentru altul printr-o întrerupere de linie.

Într-un fișier cu mai multe directive pentru motoare de căutare, fiecare interdicție sau permisiunea se aplică numai motorului de căutare specificat în acel bloc specific de rânduri.

Acesta este un punct important și nu trebuie uitat.

Dacă un fișier conține reguli care se aplică mai multor agenți de utilizator, sistemul va acorda prioritate directivelor care sunt specifice motorului de căutare specificat.

Iată un exemplu:

În ilustrația de mai sus, MSNbot, discobot și Slurp au reguli individuale care vor funcționa numai pentru aceste motoare de căutare.

Toți ceilalți agenți de utilizator urmează directivele generale din grupul de agenți de utilizator: *.

Sintaxa robots.txt nu este deloc complicată.

Există șapte termeni comuni care se găsesc adesea pe site-uri web.

User-agent: un anumit motor de căutare web (bot motor de căutare) căruia îi oferiți instrucțiuni de accesare cu crawlere. O listă cu majoritatea agenților utilizatori poate fi găsită aici. În total, are 302 de sisteme, dintre care cele două cele mai relevante sunt Google și Yandex.
Disallow: o comandă de disallow care îi spune agentului să nu viziteze adresa URL. Este permis un singur rând „dezactivare” pentru fiecare adresă URL.
Permite (aplicabil numai pentru Googlebot): comanda îi spune botului că poate accesa o pagină sau un subdosar chiar dacă pagina sau subdosarul părinte a fost închis.
Întârziere cu crawlere: Câte milisecunde ar trebui să aștepte motorul de căutare înainte de a încărca și a accesa cu crawlere conținutul paginii.

Rețineți - Googlebot nu acceptă această comandă, dar viteza de accesare cu crawlere poate fi setată manual în Google Search Console.

Harta site-ului: folosit pentru a apela locația oricăror hărți XML asociate cu această adresă URL. Această comandă este acceptată numai de Google, Ask, Bing și Yahoo.
Gazdă: această directivă indică oglinda principală a site-ului, care trebuie luată în considerare la indexare. Poate fi înregistrat o singură dată.
Clean-param: Această comandă este folosită pentru a combate conținutul duplicat în timpul adresei dinamice.

Expresii regulate

Expresii regulate: cum arată și ce înseamnă.

Cum să permiteți și să respingeți accesarea cu crawlere în robots.txt.

În practică, fișierele robots.txt pot crește și deveni destul de complexe și greoaie.

Sistemul face posibilă utilizarea expresiilor regulate pentru a oferi funcționalitatea necesară fișierului, adică pentru a lucra flexibil cu paginile și subfolderele.

* este un caracter wildcard, înseamnă că directiva funcționează pentru toți roboții de căutare;
$ se potrivește la sfârșitul unui URL sau șir;
# folosit pentru comentariile dezvoltatorilor și optimizatorilor.

Iată câteva exemple de robots.txt pentru http://www.nashsite.com

Adresa URL a fișierului Robots.txt: www.nashsite.com/robots.txt

User-agent: * (adică pentru toate motoarele de căutare) Disallow: / (slash indică directorul rădăcină al site-ului)

Tocmai am oprit toate motoarele de căutare să acceseze cu crawlere și să indexeze întregul site.

Cât de des este necesară această acțiune?

Nu de multe ori, dar există cazuri când este necesar ca o resursă să nu participe la rezultatele căutării, iar vizitele să fie efectuate prin link-uri speciale sau prin autorizare corporativă.

Așa funcționează site-urile interne ale unor companii.

În plus, o astfel de directivă este prescrisă dacă amplasamentul se află în stadiul de dezvoltare sau modernizare.

Dacă trebuie să permiteți motorului de căutare să acceseze cu crawlere tot ce este pe site, atunci trebuie să scrieți următoarele comenzi în robots.txt:

Agent utilizator: * Nu permite:

Nu există nimic în interdicție (disallow), ceea ce înseamnă că totul este posibil.

Utilizarea acestei sintaxe în fișierul robots.txt permite crawlerilor să acceseze cu crawlere toate paginile de pe http://www.nashsite.com, inclusiv pagina de start, administrator și persoane de contact.

Blocarea anumitor roboți de căutare și anumite foldere

Sintaxă pentru motorul de căutare Google (Googlebot).

Sintaxă pentru alți agenți de căutare.

User-agent: Googlebot Disallow: /example-subfolder/

Această sintaxă îi spune doar motorului de căutare Google (Googlebot) să nu acceseze cu crawlere adresa: www.nashsite.com/example-subfolder/.

Blocare pagini individuale pentru roboții specificati:

Agent de utilizator: Bingbot Disallow: /example-subfolder/blocked-page.html

Această sintaxă îi spune lui Bingbot (numele agentului de căutare Bing) doar să nu viziteze pagina de la: www.nashsite.com/example-subfolder/blocked-page.

Practic asta este.

Dacă stăpâniți aceste șapte comenzi și trei simboluri și înțelegeți logica aplicației, veți putea scrie robots.txt-ul corect.

De ce nu funcționează și ce să faci

Algoritmul acțiunii principale.

Alte metode.

Robots.txt incorect este o problemă.

La urma urmei, identificarea unei erori și apoi înțelegerea acesteia va dura timp.

Recitiți fișierul, asigurați-vă că nu ați blocat nimic inutil.

Dacă după un timp se dovedește că pagina încă se blochează în rezultate, căutați în Google Webmaster pentru a vedea dacă motorul de căutare a reindexat site-ul și verificați dacă link-uri externe la o pagină închisă.

Pentru că, dacă există, atunci va fi mai dificil să-l ascundeți de rezultatele căutării, vor fi necesare alte metode;

Ei bine, înainte de a utiliza, verificați acest fișier cu un tester gratuit de la Google.

Analiza în timp util ajută la evitarea problemelor și economisește timp.

Acest articol conține un exemplu de cod optim, după părerea mea, pentru fișierul robots.txt pentru WordPress, pe care îl puteți folosi în site-urile dvs.

Pentru început, să ne amintim de ce ai nevoie de robots.txt- fișierul robots.txt este necesar exclusiv pentru roboții de căutare pentru a le „spune” ce secțiuni/pagini ale site-ului să le viziteze și pe care nu ar trebui să le viziteze. Paginile care sunt închise de la vizitare nu vor fi incluse în indexul motorului de căutare (Yandex, Google etc.).

Opțiunea 1: Cod robots.txt optim pentru WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # toți parametrii de interogare de pe pagina principală Disallow: /wp- # toate fișierele WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Nu permiteți: /căutare # Căutare Nu permiteți: /autor/ # arhiva autor Nu permiteți: */embed # toate înglobările Nu permiteți: */page/ # toate tipurile de paginare Permite: */încărcări # încărcări deschise Permite: /*/*.js # în interiorul /wp - (/*/ - pentru prioritate) Permite: /*/*.css # în interiorul /wp- (/*/ - pentru prioritate) Permite: /wp-*.png # imagini în pluginuri, folderul cache etc. . Permite: /wp-*.jpg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.jpeg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.gif # imagini în pluginuri, folderul cache etc. Permite: /wp-*.svg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.pdf # fișiere în pluginuri, folderul cache etc. Permite: /wp-admin/admin-ajax.php #Disallow: /wp/ # când WP este instalat în subdirectorul wp Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2. xml # alt fișier #Sitemap: http://example.com/sitemap.xml.gz # versiunea comprimată (.gz) # Versiunea codului: 1.1 # Nu uitați să schimbați `site.ru` pe site-ul dvs.

Analiza codului:

ÎN Linie utilizator-agent: * indicăm că toate regulile de mai jos vor funcționa pentru toți roboții de căutare * . Dacă aveți nevoie de aceste reguli să funcționeze doar pentru un robot specific, atunci în loc de * indicăm numele robotului (User-agent: Yandex, User-agent: Googlebot).

În linia Permite: */încărcări, permitem în mod intenționat indexarea paginilor care conțin /încărcări. Această regulă este obligatorie, deoarece mai sus interzicem indexarea paginilor care încep cu /wp- și /wp- incluse în /wp-content/uploads. Prin urmare, pentru a anula regula Disallow: /wp-, aveți nevoie de linia Allow: */uploads , deoarece pentru link-uri precum /wp-content/uploads/... Este posibil să avem imagini care trebuie indexate și pot exista și unele fișiere descărcate pe care nu este nevoie să le ascundem. Permite: poate fi „înainte” sau „după” Disallow: .

Rândurile rămase interzic roboților să „urmărească” link-uri care încep cu:

Disallow: /cgi-bin - închide directorul de scripturi de pe server
Disallow: /feed - închide fluxul RSS al blogului
Disallow: /trackback - închide notificările
Disallow: ?s= sau Disallow: *?s= - închide paginile de căutare
Disallow: */page/ - închide toate tipurile de paginare

Regula Sitemap: http://example.com/sitemap.xml indică robotul către un fișier cu un sitemap în format XML. Dacă aveți un astfel de fișier pe site-ul dvs., atunci scrieți calea completă către el. Pot exista mai multe astfel de fișiere, apoi indicăm calea către fiecare separat.

În linia Gazdă: site.ru indicăm oglinda principală a site-ului. Dacă un site are oglinzi (copii ale site-ului pe alte domenii), atunci pentru ca Yandex să le indexeze pe toate în mod egal, trebuie să specificați oglinda principală. Directiva gazdă: numai Yandex înțelege, Google nu înțelege! Dacă site-ul funcționează sub protocolul https, atunci trebuie specificat în Gazdă: Gazdă: http://example.com

Din documentația Yandex: „Gazda este o directivă independentă și funcționează oriunde în fișier (intersecțional).” Prin urmare, îl punem în partea de sus sau chiar la sfârșitul fișierului, printr-o linie goală.

Deoarece prezența fluxurilor deschise este necesară, de exemplu, pentru Yandex Zen, atunci când trebuie să conectați un site la un canal (mulțumită comentatorului „Digital”). Poate că sunt necesare fluxuri deschise în altă parte.

În același timp, feedurile au propriul lor format în anteturile de răspuns, datorită căruia motoarele de căutare înțeleg că acest lucru nu este Pagina HTML, și hrana și, evident, o procesează într-un fel diferit.

Directiva gazdă nu mai este necesară pentru Yandex

Yandex abandonează complet directiva Gazdă și a înlocuit-o cu o redirecționare 301. Gazda poate fi eliminată în siguranță de pe robots.txt. Cu toate acestea, este important ca toate oglinzile site-ului să aibă o redirecționare 301 către site-ul principal (oglindă principală).

Acest lucru este important: regulile de sortare înainte de procesare

Yandex și Google procesează directivele Allow și Disallow nu în ordinea în care sunt specificate, dar mai întâi le sortează de la regula scurtă la lungă, apoi procesează ultima regulă de potrivire:

Agent utilizator: * Permite: */încărcări Nu permite: /wp-

va fi citit ca:

User-agent: * Disallow: /wp- Allow: */uploads

Pentru a înțelege și aplica rapid funcția de sortare, amintiți-vă această regulă: „cu cât regula este mai lungă în robots.txt, cu atât are prioritate mai mare. Dacă lungimea regulilor este aceeași, atunci se acordă prioritate directivei Allow.”

Opțiunea 2: robots.txt standard pentru WordPress

Nu știu de ce, dar sunt pentru prima opțiune! Pentru că este mai logic - nu este nevoie să duplicați complet secțiunea pentru a indica directiva Gazdă pentru Yandex, care este intersecțională (înțeleasă de robot oriunde în șablon, fără a indica la ce robot se referă). În ceea ce privește directiva non-standard Allow, funcționează pentru Yandex și Google, iar dacă nu deschide folderul de încărcări pentru alți roboți care nu o înțeleg, atunci în 99% din cazuri acest lucru nu va implica nimic periculos. Încă nu am observat că primii roboți nu funcționează așa cum ar trebui.

Codul de mai sus este puțin incorect. Mulțumesc comentatorului „ ” pentru că a subliniat incorectitudinea, deși a trebuit să-mi dau seama despre ce este vorba. Și asta este ceea ce am venit (s-ar putea să greșesc):

Unii roboți (nu Yandex și Google) nu înțeleg mai mult de 2 directive: User-agent: și Disallow:

Directiva Yandex Gazdă: trebuie utilizată după Disallow:, deoarece este posibil ca unii roboți (nu Yandex și Google) să nu o înțeleagă și să respingă, în general, robots.txt. Yandex însuși, judecând după documentație, nu-i pasă de unde și cum să folosești Host:, chiar dacă în general creați robots.txt cu o singură linie Host: www.site.ru pentru a lipi toate oglinzile site-ului împreună.

3. Sitemap: o directivă intersecțională pentru Yandex și Google și, aparent, pentru mulți alți roboți, așa că o scriem la sfârșit cu o linie goală și va funcționa pentru toți roboții simultan.

Pe baza acestor modificări, codul corect ar trebui să arate astfel:

Agent de utilizator: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Gazdă: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Să-l adăugăm pentru noi înșine

Dacă trebuie să blocați orice alte pagini sau grupuri de pagini, puteți adăuga o regulă (directivă) mai jos Nu permiteți:. De exemplu, trebuie să închidem toate intrările dintr-o categorie de la indexare ştiri, apoi înainte Harta site-ului: adauga o regula:

Nu permiteți: /știri

Împiedică roboții să urmărească astfel de link-uri:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Dacă trebuie să închideți orice apariție a /news , atunci scrieți:

Nu permiteți: */știri

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Puteți studia directivele robots.txt mai detaliat pe pagina de ajutor Yandex (dar rețineți că nu toate regulile descrise acolo funcționează pentru Google).

Verificare și documentare Robots.txt

Puteți verifica dacă regulile prescrise funcționează corect folosind următoarele link-uri:

Yandex: http://webmaster.yandex.ru/robots.xml.
La Google acest lucru se face în Consolă de căutare. Ai nevoie de autorizație și de prezența site-ului în panoul webmaster...
Serviciu pentru crearea unui fișier robots.txt: http://pr-cy.ru/robots/
Serviciu pentru crearea și verificarea robots.txt: https://seolib.ru/tools/generate/robots/

L-am întrebat pe Yandex...

Am pus o întrebare în tehnologie. Asistență Yandex cu privire la utilizarea intersecțională a directivelor Gazdă și Sitemap:

Întrebare:

Buna ziua!
Scriu un articol despre robots.txt pe blogul meu. Aș dori să primesc un răspuns la această întrebare (nu am găsit un „da” clar în documentație):

Dacă trebuie să îmbin toate oglinzile și pentru aceasta folosesc directiva Host chiar la începutul fișierului robots.txt:
Gazdă: site.ru Agent utilizator: * Nu permite: /asd
Va fi în acest exemplu ar trebui să funcționeze corect gazdă: site.ru? Va indica roboților că site.ru este oglinda principală? Aceste. Folosesc această directivă nu într-o secțiune, ci separat (la începutul fișierului) fără a indica la ce User-agent se referă.

De asemenea, am vrut să știu dacă directiva Sitemap trebuie folosită în interiorul unei secțiuni sau poate fi folosită în exterior: de exemplu, printr-o linie goală, după o secțiune?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml
Va înțelege robotul directiva Sitemap din acest exemplu?

Sper să primesc de la dumneavoastră un răspuns care să-mi pună capăt îndoielilor.

Răspuns:

Buna ziua!

Directivele Gazdă și Sitemap sunt intersecționale, așa că vor fi utilizate de robot indiferent de locul din fișierul robots.txt în care sunt specificate.

--
Cu stimă, Platon Shchukin
Serviciu de asistență Yandex

Concluzie

Este important să rețineți că modificările în robots.txt pe un site deja funcțional vor fi observate numai după câteva luni (2-3 luni).

Există zvonuri că uneori Google poate ignora regulile din robots.txt și poate duce o pagină în index dacă consideră că pagina este foarte unică și utilă și pur și simplu trebuie să fie în index. Cu toate acestea, alte zvonuri infirmă această ipoteză prin faptul că optimizatorii neexperimentați pot specifica incorect regulile în robots.txt și astfel pot închide paginile necesare de la indexare și pot lăsa pe cele inutile. Sunt mai înclinat spre a doua presupunere...

Roboti dinamici.txt

În WordPress, cererea pentru fișierul robots.txt este procesată separat și nu este deloc necesară crearea fizică a unui fișier robots.txt în rădăcina site-ului, mai mult, acest lucru nu este recomandat, deoarece cu această abordare va fi este foarte dificil pentru plugin-uri să schimbe acest fișier, iar acest lucru este uneori necesar.

Citiți despre cum funcționează crearea dinamică a unui fișier robots.txt în descrierea funcției, iar mai jos voi da un exemplu despre cum puteți schimba conținutul acestui fișier din mers, printr-un cârlig.

Pentru a face acest lucru, adăugați următorul cod în fișierul functions.php:

Add_action("do_robotstxt", "my_robotstxt"); funcția my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode ("\r\ n ", $linii); die; // termina munca PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay - timeout pentru roboții nebuni (nu luați în considerare din 2018)

Yandex

După ce am analizat scrisorile din ultimii doi ani către suportul nostru cu privire la problemele de indexare, am aflat că unul dintre principalele motive pentru descărcarea lentă a documentelor este o directivă de întârziere cu crawlere configurată incorect în robots.txt […] Astfel încât proprietarii de site-uri să nu mai fie trebuie să vă faceți griji pentru acest lucru și Pentru a ne asigura că toate paginile site-ului web cu adevărat necesare apar și sunt actualizate rapid în căutare, am decis să renunțăm la directiva Crawl-delay.

Când robotul Yandex scanează site-ul ca un nebun și acest lucru creează încărcare inutilă pe server. Puteți cere robotului să „încetinească”.

Pentru a face acest lucru, trebuie să utilizați directiva Crawl-delay. Indică timpul în secunde în care robotul trebuie să stea inactiv (să aștepte) pentru a scana fiecare pagină ulterioară a site-ului.

Pentru compatibilitatea cu roboții care nu respectă bine standardul robots.txt, întârzierea cu crawlere trebuie specificată în grup (în secțiunea User-Agent) imediat după Disallow și Allow

Yandex Robot înțelege valorile fracționale, de exemplu, 0,5 (jumătate de secundă). Acest lucru nu garantează că robotul de căutare vă va vizita site-ul la fiecare jumătate de secundă, dar vă permite să accesați site-ul mai repede.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 secunde User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Întârziere accesare cu crawlere: 2 # timeout 2 secunde

Google

Googlebot nu înțelege directiva Crawl-delay. Timeout-ul pentru roboții săi poate fi specificat în panoul webmaster.

Pe serviciul avi1.ru puteți achiziționa acum promoția SMM în mai mult de 7 dintre cele mai populare rețelele sociale. În același timp, acordați atenție costului destul de scăzut al tuturor serviciilor site-ului.

Acest lucru necesită instrucțiuni pentru lucru, motoarele de căutare nu fac excepție de la regulă, motiv pentru care au venit cu un fișier special numit robots.txt. Acest fișier ar trebui să fie localizat în folderul rădăcină al site-ului dvs. sau poate fi virtual, dar trebuie deschis la cerere: www.yoursite.ru/robots.txt

Motoarele de căutare au învățat de mult să distingă fisierele necesare html, din seturile de scripturi interne sisteme CMS, sau mai degrabă, au învățat să recunoască link-uri către articole de conținut și tot felul de gunoaie. Prin urmare, mulți webmasteri uită deja să facă roboți pentru site-urile lor și cred că totul va fi bine. Da, au dreptate în proporție de 99%, pentru că dacă site-ul tău nu are acest fișier, atunci motoarele de căutare sunt nelimitate în căutarea conținutului, dar există nuanțe, ale căror erori pot fi rezolvate în prealabil.

Dacă aveți probleme cu acest fișier de pe site, scrieți comentarii la acest articol și vă voi ajuta rapid cu asta, absolut gratuit. Foarte des, webmasterii fac greșeli minore în el, ceea ce are ca rezultat o indexare slabă a site-ului sau chiar excluderea din index.

Pentru ce este robots.txt?

Fișierul robots.txt este creat pentru a configura indexarea corectă a site-ului de către motoarele de căutare. Adică, conține reguli pentru permisiuni și interdicții pe anumite căi ale site-ului dvs. sau tip de conținut. Dar acesta nu este un panaceu. Toate regulile dintr-un fișier roboți nu sunt linii directoare urmați-le întocmai, ci pur și simplu o recomandare pentru motoarele de căutare. Google, de exemplu, scrie:

Nu puteți utiliza fișierul robots.txt pentru a ascunde o pagină din rezultatele Căutării Google. Alte pagini pot fi conectate la acesta și va fi în continuare indexat.

Roboții de căutare înșiși decid ce să indexeze și ce nu și cum să se comporte pe site. Fiecare motor de căutare are propriile sarcini și funcții. Indiferent cât de mult ne-am dori, aceasta nu este o modalitate de a-i îmblânzi.

Dar există un truc care nu are legătură directă cu subiectul acestui articol. Pentru a împiedica complet roboții să indexeze și să afișeze o pagină în rezultatele căutării, trebuie să scrieți:

Să revenim la roboți. Regulile din acest fișier pot bloca sau permite accesul la următoarele tipuri de fișiere:

Fișiere non-grafice. Practic este fișiere html, care conțin orice informație. Puteți închide paginile duplicat sau paginile care nu au niciun scop. informatii utile(pagini de paginare, pagini de calendar, pagini de arhivă, pagini de profil etc.).
Fișiere grafice. Dacă doriți ca imaginile site-ului să nu fie afișate în căutări, puteți seta acest lucru în roboți.
Fișiere de resurse. De asemenea, folosind roboți poți bloca indexarea diferitelor scripturi, fișiere Stiluri CSSși alte resurse neimportante. Dar nu ar trebui să blocați resursele care sunt responsabile pentru partea vizuală a site-ului pentru vizitatori (de exemplu, dacă închideți css și js-ul site-ului care afișează blocuri sau tabele frumoase, robotul de căutare nu va vedea acest lucru și se va plânge de acest lucru. ea).

Pentru a arăta clar cum funcționează roboții, priviți imaginea de mai jos:

Un robot de căutare, urmărind un site, se uită la regulile de indexare, apoi începe indexarea conform recomandărilor fișierului.
În funcție de setările regulilor, motorul de căutare știe ce poate fi indexat și ce nu.

Din fișierul robots.txt intax

Pentru a scrie reguli pentru motoarele de căutare, în fișierul roboților sunt folosite directive cu diverși parametri, cu ajutorul cărora roboții urmează. Să începem cu prima și probabil cea mai importantă directivă:

Directiva utilizator-agent

Agent utilizator— Cu această directivă specificați numele robotului care ar trebui să folosească recomandările din fișier. Există oficial 302 dintre acești roboți în lumea internetului. Desigur, puteți scrie reguli pentru toată lumea separat, dar dacă nu aveți timp pentru asta, scrieți:

Agent utilizator: *

*-în acest exemplu înseamnă „Toți”. Aceste. fișierul dvs. robots.txt ar trebui să înceapă cu „cui exact” pentru care este destinat fișierul. Pentru a nu vă deranja cu toate numele roboților, trebuie doar să scrieți un „asterisc” în directiva user-agent.

Vă voi oferi liste detaliate de roboți ai motoarelor de căutare populare:

Google - Googlebot- robot principal

Odihnă roboți Google

Googlebot-News— robot de căutare de știri
Googlebot-Imagine— imagini cu robot
Googlebot-Video- video cu robot
Googlebot-Mobil— versiunea mobilă a robotului
AdsBot-Google— robot de verificare a calității paginii de destinație
Mediapartners-Google— Robot de serviciu AdSense

Yandex - YandexBot- robot principal de indexare;

Alți roboți Yandex

Directivele Disallow și Allow

Nu permiteți- cea mai de bază regulă în roboți, cu ajutorul acestei directive interziceți indexarea anumitor locuri de pe site-ul dvs. Directiva este scrisă astfel:

Nu permiteți:

Foarte des puteți vedea directiva Disallow: goală, adică. se presupune că îi spune robotului că nimic nu este interzis pe site, indexează orice vrei. Atenție! Dacă puneți / în disallow, veți închide complet site-ul de la indexare.

Prin urmare, cea mai standard versiune a robots.txt, care „permite indexarea întregului site pentru toate motoarele de căutare”, arată astfel:

User-Agent: * Nu permiteți:

Dacă nu știți ce să scrieți în robots.txt, dar ați auzit undeva despre asta, doar copiați codul de mai sus, salvați-l într-un fișier numit robots.txt și încărcați-l la rădăcina site-ului dvs. Sau nu creați nimic, deoarece chiar și fără el, roboții vor indexa totul pe site-ul dvs. Sau citește articolul până la sfârșit și vei înțelege ce să închizi pe site și ce nu.

Conform regulilor roboților, directiva interzicerea trebuie să fie necesară.

Această directivă poate interzice atât un folder, cât și un fișier individual.

Dacă doriți dosarul ban ar trebui sa scrii:

Nu permiteți: /folder/

Dacă doriți interziceți un anumit fișier:

Nu permiteți: /images/img.jpg

Dacă doriți interzice anumite tipuri de fișiere:

Nu permiteți: /*.png$

Expresiile regulate nu sunt acceptate de multe motoare de căutare. Google acceptă.

Permite— directiva de permitere în Robots.txt. Acesta permite robotului să indexeze o anumită cale sau un fișier într-un director interzis. Până de curând, a fost folosit doar de Yandex. Google a ajuns din urmă cu asta și a început să-l folosească și el. De exemplu:

Permite: /conținut Disallow: /

Aceste directive împiedică indexarea întregului conținut al site-ului, cu excepția folderului de conținut. Sau iată câteva alte directive populare în ultima vreme:

Allow: /template/*.js Allow: /template/*.css Disallow: /template

aceste valori permite ca toate fișierele CSS și JS de pe site să fie indexate, dar nu permit ca tot ce se află în folderul cu șablonul dvs. să fie indexat. În ultimul an, Google a trimis o mulțime de scrisori webmasterilor cu următorul conținut:

Googlebot nu poate accesa fișierele CSS și JS de pe site

Și comentariul corespunzător: Am descoperit o problemă cu site-ul dvs. care poate împiedica accesarea cu crawlere. Googlebot nu poate procesa Cod JavaScriptși/sau fișiere CSS din cauza limitărilor din fișierul robots.txt. Aceste date sunt necesare pentru a evalua performanța site-ului. Prin urmare, dacă accesul la resurse este blocat, acest lucru poate înrăutăți poziția site-ului dvs. în Căutare..

Dacă adăugați cele două directive de permis care sunt scrise în ultimul cod pe Robots.txt, atunci nu veți vedea mesaje similare de la Google.

Și utilizarea caracterelor speciale în robots.txt

Acum despre semnele din directive. Semne de bază (caractere speciale) în interzicerea sau permiterea acestui /,*,$

Despre bara oblică „/”

Bara oblică este foarte înșelătoare în robots.txt. Am observat o situație interesantă de câteva zeci de ori când, din ignoranță, a fost adăugat pe robots.txt următoarele:

Agent de utilizator: * Nu permite: /

Pentru că au citit undeva despre structura site-ului și au copiat-o pe site-ul lor. Dar în acest caz tu interzice indexarea întregului site. Pentru a interzice indexarea unui anume director, cu toate elementele interne, cu siguranță trebuie să puneți / la sfârșit. Dacă, de exemplu, scrieți Disallow: /seo, atunci absolut toate linkurile de pe site-ul dvs. care conțin cuvântul seo nu vor fi indexate. Chiar dacă va fi un folder /seo/, chiar dacă va fi o categorie /seo-tool/, chiar dacă va fi un articol /seo-best-of-the-best-soft.html, toate acestea nu vor fi indexat.

Privește totul cu atenție / în robots.txt

Pune întotdeauna / la sfârșitul directoarelor. Dacă puneți / în Disallow, veți împiedica indexarea întregului site, dar dacă nu puneți / în Allow, veți împiedica și întregul site să fie indexat. / - într-un anumit sens înseamnă „Tot ceea ce urmează directiva /”.

Despre asteriscuri * în robots.txt

Caracterul special * înseamnă orice secvență de caractere (inclusiv goală). Îl puteți folosi oriunde în roboți, astfel:

User-agent: * Disallow: /papka/*.aspx Disallow: /*old

Interzice toate fișierele cu extensia aspx din directorul papka și, de asemenea, interzice nu numai folderul /old, ci și directiva /papka/old. Complicat? Așa că nu vă recomand să vă jucați cu simbolul * din roboții dvs.

Implicit în fișierul regulilor de indexare și interzicere robots.txt este * pe toate directivele!

Despre caracterul special $

Caracterul special $ din roboți pune capăt efectului caracterului special *. De exemplu:

Nu permiteți: /meniu$

Această regulă interzice „/menu”, dar nu interzice „/menu.html”, adică. Fișierul interzice motoarele de căutare numai din directiva /menu și nu poate interzice toate fișierele cu meniul cuvânt în URL.

Directiva gazdă

Regula gazdă funcționează numai în Yandex, așadar este opțională, determină domeniul principal din oglinzile site-ului dvs., dacă există. De exemplu, aveți un domeniu dom.com, dar au fost achiziționate și configurate și următoarele domenii: dom2.com, dom3,com, dom4.com și de la acestea există o redirecționare către domeniul principal dom.com

Pentru a ajuta Yandex să determine rapid care dintre ele este site-ul principal (gazdă), scrieți directorul gazdă în robots.txt:

Gazdă: site web

Dacă site-ul dvs. nu are oglinzi, atunci nu trebuie să setați această regulă. Dar mai întâi verifica-ți site-ul după adresa IP, poate că al tău poate fi deschis de acesta pagina de start, și ar trebui să înregistrați oglinda principală. Sau poate cineva a copiat toate informațiile de pe site-ul tău și a făcut o copie exactă, o intrare în robots.txt dacă a fost și furată te va ajuta cu asta.

Ar trebui să existe o singură intrare de gazdă și, dacă este necesar, cu un port înregistrat. (Gazda: site:8080)

Directiva privind întârzierea cu crawler

Această directivă a fost creată pentru a elimina posibilitatea încărcării pe serverul dumneavoastră. Boții motoarelor de căutare pot face sute de solicitări către site-ul dvs. în același timp, iar dacă serverul dvs. este slab, acest lucru poate cauza erori minore. Pentru a preveni acest lucru, am venit cu o regulă pentru roboții cu întârziere a accesului cu crawlere - aceasta este perioada minimă dintre încărcarea unei pagini de pe site-ul dvs. Se recomandă setarea valorii standard pentru această directivă la 2 secunde. În roboți arată așa:

Întârziere crawler: 2

Această directivă funcționează pentru Yandex. În Google, puteți seta frecvența de accesare cu crawlere în panoul pentru webmasteri, în secțiunea Setări site, în colțul din dreapta sus cu „roul roată”.

Directiva Clean-param

Acest parametru este, de asemenea, numai pentru Yandex. Dacă adresele paginilor site-ului conțin parametri dinamici care nu le afectează conținutul (de exemplu: identificatori de sesiune, utilizatori, referreri etc.), le puteți descrie folosind directiva Clean-param.

Folosind aceste informații, robotul Yandex nu va reîncărca în mod repetat informațiile duplicate. Acest lucru va crește eficiența accesării cu crawlere a site-ului dvs. și va reduce sarcina pe server.
De exemplu, site-ul are pagini:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123

Parametru ref este folosit doar pentru a urmări din ce resursă a fost făcută cererea și nu modifică conținutul, aceeași pagină cu book_id=123 va fi afișată la toate cele trei adrese; Apoi, dacă specificați directiva după cum urmează:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Robotul Yandex va reduce toate adresele paginilor la una:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
Dacă pe site este disponibilă o pagină fără parametri:
www.site.com/some_dir/get_book.pl?book_id=123
atunci totul se va rezuma la asta când va fi indexat de robot. Alte pagini de pe site-ul dvs. vor fi accesate cu crawlere mai des, deoarece nu este nevoie să reîmprospătați paginile:
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

#pentru adrese precum: www.site1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243-agenttro: User Yandex Disallow: Clean-param: s /forum/showthread.php

Directiva Sitemap

Cu această directivă, pur și simplu specificați locația sitemap.xml. Robotul își amintește acest lucru, „spune mulțumesc” și îl analizează în mod constant pe o anumită cale. Arata cam asa:

Harta site-ului: http://site/sitemap.xml

Acum să ne uităm la întrebările generale care apar la crearea roboților. Există multe astfel de subiecte pe Internet, așa că le vom analiza pe cele mai relevante și mai comune.

Corectați robots.txt

Există o mulțime de „corect” în acest cuvânt, pentru că pentru un site pe un CMS va fi corect, dar pe un alt CMS va produce erori. „Configurat corect” este individual pentru fiecare site. În Robots.txt, trebuie să închideți de la indexarea acelor secțiuni și a acelor fișiere care nu sunt necesare utilizatorilor și nu oferă nicio valoare motoarelor de căutare. Cea mai simplă și corectă versiune a robots.txt

User-Agent: * Disallow: Sitemap: http://site/sitemap.xml User-agent: Yandex Disallow: Gazdă: site.com

Acest fișier conține următoarele reguli: setări pentru regulile de interdicție pentru toate motoarele de căutare (User-Agent: *), indexarea întregului site este pe deplin permisă („Disallow:” sau puteți specifica „Allow: /”), gazda de este specificată oglinda principală pentru Yandex (Gazdă: site.ncom) și locația Sitemap.xml (Sitemap: .

R obots.txt pentru WordPress

Din nou, există multe întrebări, un site ar putea fi un magazin online, altul un blog, al treilea o pagină de destinație, al patrulea un site de cărți de vizită pentru o companie și toate acestea ar putea fi pe CMS WordPress iar regulile pentru roboți vor fi complet diferite. Iată robots.txt-ul meu pentru acest blog:

User-Agent: * Permite: /wp-content/uploads/ Permite: /wp-content/*.js$ Permite: /wp-content/*.css$ Permite: /wp-includes/*.js$ Permite: / wp-includes/*.css$ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: /?feed= Disallow: /job Disallow: /?.net/sitemap.xml

Există o mulțime de setări aici, să le privim împreună.

Permite în WordPress. Primele reguli de autorizare sunt pentru conținutul de care au nevoie utilizatorii (acestea sunt imagini din folderul de încărcări) și roboți (aceștia sunt CSS și JS pentru afișarea paginilor). Google se plânge adesea de CSS și JS, așa că le-am lăsat deschise. Era posibil să se folosească metoda tuturor fișierelor prin simpla inserare a „/*.css$”, dar linia de interzicere a acestor foldere specifice în care se aflau fișierele nu permitea utilizarea lor pentru indexare, așa că a trebuit să specific calea în folderul de interzicere în întregime.

Allow indică întotdeauna calea conținutului interzis în Disallow. Dacă ceva nu este interzis pentru tine, nu ar trebui să-i scrii permis, crezând că dai un impuls motoarelor de căutare, de genul „Hai, iată o adresă URL pentru tine, indexează-l mai repede”. Nu va funcționa așa.

Nu permiteți în WordPress. Există o mulțime de lucruri care trebuie interzise într-un CMS WP. Multe plugin-uri diferite, multe diverse setariși așa, o mulțime de scenarii și diverse pagini, care nu conțin informații utile. Dar am mers mai departe și am interzis complet să indexez totul pe blogul meu, cu excepția articolelor în sine (postări) și a paginilor (despre Autor, Servicii). Am închis chiar și categoriile de pe blog, le voi deschide când vor fi optimizate pentru interogări și când există o descriere text pentru fiecare dintre ele, dar acum acestea sunt doar previzualizări duplicate ale postărilor de care motoarele de căutare nu au nevoie.

Ei bine, Gazdă și Sitemap sunt directive standard. Trebuia doar să fac gazda separat pentru Yandex, dar nu m-am deranjat. Acum probabil că vom termina cu Robots.txt pentru WP.

Cum se creează robots.txt

Nu este atât de dificil pe cât pare la prima vedere. Trebuie doar să luați un notepad obișnuit (Notepad) și să copiați acolo datele pentru site-ul dvs. conform setărilor din acest articol. Dar dacă acest lucru vă este dificil, există resurse pe Internet care vă permit să generați roboți pentru site-urile dvs.:

Nimeni nu vă va spune mai multe despre Robots.txt ca acești camarazi. La urma urmei, pentru ei vă creați „fișierul interzis”.

Acum să vorbim despre câteva erori minore care pot exista la roboți.

« Șir gol" - este inacceptabil să faci o linie goală în directiva user-agent.
La conflictîntre doi directive cu prefixe de aceeași lungime, directiva are prioritate Permite.
Pentru fiecare fișier robots.txt este procesat o singură directivă Gazdă. Dacă în fișier sunt specificate mai multe directive, robotul o folosește pe prima.
Directivă Clean-Param este transversal, deci poate fi specificat oriunde în fișierul robots.txt. Dacă sunt specificate mai multe directive, toate vor fi luate în considerare de către robot.
Șase roboți Yandex nu respectă regulile Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Pentru a preveni indexarea lor pe site, ar trebui să creați parametri user-agent separat pentru fiecare dintre ei.
Directiva utilizator-agent, trebuie întotdeauna scris deasupra directivei de interzicere.
O linie, pentru un director. Nu puteți scrie mai multe directoare pe o singură linie.
Nume de fișier ar trebui sa fie doar asa: robots.txt. Fără Robots.txt, ROBOTS.txt și așa mai departe. Doar litere mici în titlu.
În directivă gazdă ar trebui să scrieți calea către domeniu fără http și fără bare oblice. Incorect: Gazdă: http://www.site.ru/, Corect: Gazdă: www.site.ru
Când site-ul folosește un protocol securizat httpsîn directivă gazdă(pentru robotul Yandex) este necesar să specificați exact protocolul, deci Gazdă: https://www.site.ru

Acest articol va fi actualizat pe măsură ce devin disponibile întrebări și nuanțe interesante.

Am fost cu tine, leneșul Staurus.