Cum să dezactivați indexarea, astfel încât Windows să nu încetinească. Cum să dezactivați indexarea, astfel încât Windows să nu încetinească animația vestică și japoneză

Fișierul robots.txt este unul dintre cele mai importante atunci când optimizați orice site web. Absența acestuia poate duce la o încărcare mare a site-ului de la roboții de căutare și la indexarea și reindexarea lentă, iar configurarea incorectă poate duce la dispariția completă a site-ului din căutare sau pur și simplu neindexarea. Prin urmare, nu va fi căutat în Yandex, Google și altele motoare de căutare Oh. Să ne uităm la toate nuanțele setări corecte robots.txt.

Mai întâi, un scurt videoclip care vă va oferi o idee generală despre ce este un fișier robots.txt.

Cum afectează robots.txt indexarea site-urilor?

Roboții de căutare vor indexa site-ul dvs. indiferent de prezența unui fișier robots.txt. Dacă un astfel de fișier există, atunci roboții pot fi ghidați de regulile care sunt scrise în acest fișier. În același timp, unii roboți pot ignora anumite reguli sau unele reguli pot fi specifice doar unor roboți. În special, GoogleBot nu folosește directivele Gazdă și Crawl-Delay, YandexNews a început recent să ignore directiva Crawl-Delay, iar YandexDirect și YandexVideoParser ignoră directivele mai generale în roboți (dar sunt ghidate de cele specificate special pentru aceștia).

Mai multe despre excepții:
Excepții Yandex
Standard de excepție pentru robot (Wikipedia)

Sarcina maximă pe site este creată de roboții care descarcă conținut de pe site-ul tău. Prin urmare, indicând exact ce să indexați și ce să ignorați, precum și la ce intervale de timp să descărcați, puteți, pe de o parte, să reduceți semnificativ încărcarea site-ului de la roboți și, pe de altă parte, să accelerați procesul de descărcare prin interzicerea accesării cu crawlere a paginilor inutile.

Astfel de pagini inutile includ ajax, script-uri json responsabile pentru formulare pop-up, bannere, ieșire captcha etc., formulare de comandă și un coș de cumpărături cu toți pașii pentru efectuarea unei achiziții, funcționalitatea de căutare, Zona Personală, admin.

Pentru majoritatea roboților, este, de asemenea, recomandabil să dezactivați indexarea tuturor JS și CSS. Dar pentru GoogleBot și Yandex, astfel de fișiere trebuie lăsate pentru indexare, deoarece sunt folosite de motoarele de căutare pentru a analiza confortul site-ului și clasarea acestuia (dovada Google, dovada Yandex).

Directivele Robots.txt

Directivele sunt reguli pentru roboți. Există o specificație W3C din 30 ianuarie 1994 și un standard extins din 1996. Cu toate acestea, nu toate motoarele de căutare și roboții acceptă anumite directive. În acest sens, ne va fi mai util să cunoaștem nu standardul, ci modul în care roboții principali sunt ghidați de anumite directive.

Să le privim în ordine.

Agent utilizator

Aceasta este cea mai importantă directivă care determină pentru ce roboți urmează regulile.

Pentru toți roboții:
Agent utilizator: *

Pentru un anumit bot:
Agent utilizator: GoogleBot

Vă rugăm să rețineți că robots.txt nu face distincție între majuscule și minuscule. Acestea. Agentul utilizator pentru Google poate fi scris la fel de ușor după cum urmează:
user-agent: googlebot

Mai jos este un tabel cu principalii agenți de utilizator ai diferitelor motoare de căutare.

Bot Funcţie
Google
Googlebot Principalul robot de indexare al Google
Googlebot-News Stiri google
Googlebot-Imagine imagini Google
Googlebot-Video video
Mediapartners-Google
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google verificarea calității paginii de destinație
AdsBot-Google-Mobile-Apps Googlebot pentru aplicații
Yandex
YandexBot Robotul principal de indexare al lui Yandex
YandexImagini Yandex.Imagini
YandexVideo Yandex.Video
YandexMedia date multimedia
YandexBlogs robot de căutare blog
YandexAddurl un robot care accesează o pagină atunci când o adaugă prin formularul „Adăugați URL”.
YandexFavicons robot care indexează pictogramele site-ului web (favicons)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
YandexCatalog Yandex.Catalog
YandexNews Yandex.News
YandexImageResizer robot de serviciu mobil
Bing
Bingbot Robotul principal de indexare al lui Bing
Yahoo!
Slurp robotul principal de indexare Yahoo!
Mail.Ru
Mail.Ru robot principal de indexare Mail.Ru
Hoinar
StackRambler Anterior, principalul robot de indexare Rambler. Cu toate acestea, din 23 iunie 2011, Rambler nu mai susține propriul motor de căutare și acum utilizează tehnologia Yandex pentru serviciile sale. Nu mai este relevant.

Dezactivați și permiteți

Interziceți blocarea paginilor și a secțiunilor site-ului de la indexare.
Permiteți ca paginile și secțiunile site-ului să fie indexate.

Dar nu este atât de simplu.

În primul rând, trebuie să cunoașteți operatorii suplimentari și să înțelegeți cum sunt utilizați - aceștia sunt *, $ și #.

* reprezintă orice număr de caractere, inclusiv absența acestora. În acest caz, nu trebuie să puneți un asterisc la sfârșitul rândului, se presupune că este acolo în mod implicit.
$ - indică faptul că caracterul dinainte ar trebui să fie ultimul.
# este un comentariu, totul după acest caracter din rând nu este luat în considerare de robot.

Exemple de utilizare:

Nu permite: *?s=
Nu permiteți: /categorie/$

În al doilea rând, trebuie să înțelegeți cum sunt executate regulile imbricate.
Nu uitați că ordinea în care sunt scrise directivele nu este importantă. Moștenirea regulilor de deschidere sau închidere de la indexare este determinată de directoarele specificate. Să ne uităm la asta cu un exemplu.

Permite: *.css
Nu permiteți: /șablon/

http://site.ru/template/ - închis de la indexare
http://site.ru/template/style.css - închis de la indexare
http://site.ru/style.css - deschis pentru indexare
http://site.ru/theme/style.css - deschis pentru indexare

Dacă aveți nevoie ca toate fișierele .css să fie deschise pentru indexare, va trebui să înregistrați suplimentar acest lucru pentru fiecare dintre folderele închise. În cazul nostru:

Permite: *.css
Permite: /template/*.css
Nu permiteți: /șablon/

Din nou, ordinea directivelor nu este importantă.

Harta site-ului

Directivă pentru a specifica calea către Fișier XML Sitemap. URL-ul este scris în același mod ca în bara de adrese.

De exemplu,

Harta site-ului: http://site.ru/sitemap.xml

Directiva Sitemap este specificată oriunde în fișierul robots.txt fără a fi legată de un anumit user-agent. Puteți specifica mai multe reguli Sitemap.

Gazdă

Directiva pentru specificarea oglinzii principale a site-ului (de cele mai multe ori: cu www sau fara www). Vă rugăm să rețineți că oglinda principală este specificată FĂRĂ http://, dar CU https://. De asemenea, dacă este necesar, este indicat portul.
Directiva este acceptată numai de roboții Yandex și Mail.Ru. Alți roboți, în special GoogleBot, nu vor lua în considerare comanda. Gazda este înregistrată o singură dată!

Exemplul 1:
Gazdă: site.ru

Exemplul 2:
Gazdă: https://site.ru

Crawl-întârziere

Directiva pentru setarea intervalului de timp dintre robotul care descarcă paginile site-ului web. Sprijinit de roboții Yandex, Mail.Ru, Bing, Yahoo. Valoarea poate fi setată în unități întregi sau fracționale (separatorul este un punct), timpul în secunde.

Exemplul 1:
Întârziere crawler: 3

Exemplul 2:
Întârziere crawler: 0,5

Dacă site-ul are o sarcină mică, atunci nu este nevoie să setați o astfel de regulă. Cu toate acestea, dacă indexarea paginilor de către un robot duce la depășirea limitelor de către site sau la o încărcare semnificativă până la întreruperi ale serverului, atunci această directivă va ajuta la reducerea încărcării.

Cu cât valoarea este mai mare, cu atât robotul va descărca mai puține pagini într-o singură sesiune. Valoarea optimă este determinată individual pentru fiecare site. Este mai bine să începeți cu valori nu foarte mari - 0,1, 0,2, 0,5 - și să le creșteți treptat. Pentru roboții motoarelor de căutare care sunt mai puțin importanți pentru rezultatele promovării, cum ar fi Mail.Ru, Bing și Yahoo, puteți seta inițial valori mai mari decât pentru roboții Yandex.

Clean-param

Această regulă îi spune crawler-ului că adresele URL cu parametrii specificați nu trebuie indexate. Regula specifică două argumente: un parametru și adresa URL a secțiunii. Directiva este susținută de Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Alte optiuni

În specificația extinsă robots.txt puteți găsi, de asemenea, parametrii Request-rate și Visit-time. Cu toate acestea, sunt acest moment nu sunt acceptate de motoarele de căutare majore.

Sensul directivelor:
Rata de solicitare: 1/5 — nu încărcați mai mult de o pagină în cinci secunde
Timp de vizită: 0600-0845 - încărcați paginile numai între 6 a.m. și 8:45 a.m. GMT.

Se închide robots.txt

Dacă trebuie să configurați site-ul să NU fie indexat de roboții de căutare, atunci trebuie să specificați următoarele directive:

Agent utilizator: *
Nu permite: /

Asigurați-vă că aceste directive sunt scrise pe site-urile de testare ale site-ului dvs.

Setarea corectă a robots.txt

Pentru Rusia și țările CSI, unde cota Yandex este semnificativă, directivele ar trebui prescrise pentru toți roboții și separat pentru Yandex și Google.

Pentru a configura corect robots.txt, utilizați următorul algoritm:

  1. Închideți panoul de administrare a site-ului de la indexare
  2. Închideți contul personal, autorizarea și înregistrarea de la indexare
  3. Blocați-vă coșul de cumpărături, formularele de comandă, datele de livrare și comenzi de la indexare
  4. Închideți scripturile ajax și json de la indexare
  5. Închideți folderul cgi de la indexare
  6. Blocați pluginurile, temele, js, css de la indexare pentru toți roboții, cu excepția Yandex și Google
  7. Dezactivați funcționalitatea de căutare de la indexare
  8. Închideți din secțiunile serviciului de indexare care nu oferă nicio valoare pentru site-ul în căutare (eroare 404, lista autorilor)
  9. Blocați paginile duplicate tehnice de la indexare, precum și paginile pe care tot conținutul într-o formă sau alta este duplicat din alte pagini (calendare, arhive, RSS)
  10. Blocați paginile cu parametrii de filtrare, sortare, comparație din indexare
  11. Blocați paginile cu etichete UTM și parametrii de sesiune de la indexare
  12. Verificați ce este indexat de Yandex și Google folosind parametrul „site:” (tastați „site:site.ru” în bara de căutare). Dacă căutarea conține pagini care trebuie, de asemenea, închise de la indexare, adăugați-le la robots.txt
  13. Specificați Sitemap și Gazdă
  14. Dacă este necesar, introduceți Crawl-Delay și Clean-Param
  15. Verificați corectitudinea robots.txt prin instrumente Googleși Yandex (descris mai jos)
  16. După 2 săptămâni, verificați din nou pentru a vedea dacă în rezultatele căutării au apărut pagini noi care nu ar trebui să fie indexate. Dacă este necesar, repetați pașii de mai sus.

Exemplu robots.txt

# Un exemplu de fișier robots.txt pentru configurarea unui site ipotetic https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Nepermis: *sort= Nepermis: *view= Disallow: *utm= Permite: /plugins/*.css Permite: /plugins/*.js Permite: /plugins/*.png Permite: /plugins/ *.jpg Permite: /plugins/*.gif Agent utilizator: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Permite: /plugins/*.css Permite: /plugins/*.js Permite: /plugins/*.png Permite: /plugins/*.jpg Permite: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Întârziere: 0,5 Sitemap: https://site.ru/sitemap.xml Gazdă: https://site.ru

Cum se adaugă și unde se află robots.txt

După ce ați creat fișierul robots.txt, acesta trebuie plasat pe site-ul dvs. la site.ru/robots.txt - adică. în directorul rădăcină. Robotul de căutare accesează întotdeauna fișierul la adresa URL /robots.txt

Cum se verifică robots.txt

Robots.txt este verificat folosind următoarele link-uri:

  • În Yandex.Webmaster - în fila Instrumente> Analiză Robots.txt
  • ÎN Google Search Console- în fila Scanare> instrument de inspecție a fișierelor Robots.txt

Erori tipice în robots.txt

La finalul articolului voi da câteva greșeli tipice fișierul robots.txt

  • robots.txt lipsește
  • în robots.txt site-ul este închis de la indexare (Disallow: /)
  • dosarul contine doar cele mai elementare directive, nu exista o elaborare detaliata a dosarului
  • în fișier, paginile cu etichete UTM și identificatori de sesiune nu sunt blocate de la indexare
  • fisierul contine doar directive
    Permite: *.css
    Permite: *.js
    Permite: *.png
    Permite: *.jpg
    Permite: *.gif
    în timp ce fișierele css, js, png, jpg, gif sunt închise de alte directive într-un număr de directoare
  • directiva Gazdă este specificată de mai multe ori
  • protocolul HTTP nu este specificat în Gazdă
  • calea către Harta site-ului este incorectă sau este specificat un protocol sau o oglindă a site-ului greșit

P.S.

P.S.2

Video util de la Yandex (Atenție! Unele recomandări sunt potrivite numai pentru Yandex).

Este obișnuit ca Microsoft să vină cu o caracteristică grozavă care este concepută pentru a îmbunătăți semnificativ confortul lucrului pe un computer. Dar rezultatul final, ca întotdeauna, este o deteriorare semnificativă a condițiilor de lucru :) Acest lucru s-a întâmplat în cazul funcției de indexare a conținutului discurilor, inventată de Microsoft pentru a accelera căutarea informațiilor.

Acest serviciu rulează în fundal și scanează treptat fișierele. Colectarea tuturor informațiilor necesită o perioadă semnificativă de timp, dar nu ar trebui să-l observăm. NU TREBUIE, dar în practică, mai ales cu cantități mari de informații și conexiune unități externe Există un proces de frânare a întregului sistem, la care nu se vede un sfârșit. Procesul SearchFilterHost poate începe la 5-10 minute după pornirea sistemului și poate încărca computerul la limita, iar pentru cei care au un laptop, această problemă poate fi deosebit de relevantă.

Cum funcționează serviciul de indexare în Windows

Funcționează în felul următor: este scanat Sistemul de fișiereși toate informațiile sunt introduse într-o bază de date specială (index), iar apoi se face o căutare în această bază de date. Această bază de date include nume și căi de fișiere, timpul de creare, fraze cheie conținut (dacă este un document sau o pagină HTML), valorile proprietăților documentului și alte date. Astfel, la căutare mijloace standard, de exemplu din meniul „START”, sistem de operare nu iterează prin toate fișierele, ci pur și simplu accesează baza de date.

Timpul trece, instalăm programe noi, descarcăm fișiere noi, în sistem se adaugă noi tipuri de fișiere care sunt supuse indexării conținutului, iar sistemul de operare se lasă uneori prea purtat de procesul de indexare, încetinind foarte mult munca. Acest lucru poate fi observat cu ușurință dacă nu faci nimic, iar hard disk-ul geme neîncetat, în timp ce procesul searchfilterhost.exe se blochează în „Task Manager”, care consumă 30-50% din resursele procesorului.

Puteți, desigur, să așteptați până când procesul este terminat, dar ce se întâmplă dacă trebuie să așteptați 30-40 de minute? Prin urmare, este mai bine să rezolvați imediat această problemă. Avem trei moduri de a rezolva problema.

Opriți procesul SearchFilterHost și opriți complet serviciul de indexare

Puteți face acest lucru în managerul de activități. În principiu, aceasta este o opțiune bună, va adăuga stabilitate sistemului, spațiul liber de pe discul sistemului va crește, iar frânele asociate cu indexarea vor dispărea. Personal, folosesc funcția de căutare în manager de fișiere « Comandant total„și mi se pare mult mai convenabil decât cel standard Căutare Windows 7/10. Daca folosesti si program terță parteși nu ați auzit de căutare după conținutul documentului, atunci pur și simplu nu este necesară indexarea. Și dacă aveți sau mașină virtuală atunci se recomandă chiar să dezactivați indexarea. Acest lucru se face foarte simplu:


Întrerupeți serviciul de indexare

În Windows XP existau setări speciale pentru sistemul de indexare, cu care puteai scădea prioritatea serviciului în favoarea rulării programelor. Dar în Windows 7-10 nu există așa ceva și putem doar întrerupe indexarea. Acest lucru se poate face dacă procesul SearchFilterHost interferează foarte mult cu activitatea sa, dar nu doriți să opriți complet serviciul. Pentru a face acest lucru, introduceți cuvintele „Opțiuni de index” în bara de căutare a meniului Start și selectați „Opțiuni de indexare” din rezultatele căutării.

În fereastra de parametri, faceți clic pe „Pauză” și bucurați-vă de o muncă confortabilă :)

Dezactivați indexarea unităților individuale

Nu puteți dezactiva deloc serviciul, dar dezactivați indexarea pe discuri individuale. Pentru a face acest lucru, accesați „Computerul meu” și faceți clic Click dreapta De pe discul dorit, de exemplu, care are multe, multe fișiere și selectați „Proprietăți”. În fereastra de proprietăți, debifați „Permite indexarea acestui volum”

Sper că acest articol a fost interesant și util. Am revizuit posibile probleme cu munca serviciului de indexare din Windows 7/8/10 și am descoperit cum să învinge procesul nesățios SearchFilterHost. De asemenea, vă puteți simplifica și mai mult viața, iar în articole noi voi reveni la problema optimizării de mai multe ori, așa că vă sfătuiesc să vă abonați la actualizările blogului și să fiți primii care află noutățile.

Vezi cât de repede poți să-ți dai jos tricoul!

Uneori se întâmplă să doriți să descărcați un album de muzică gratuit din 2007 lansat de un artist pe care îl cunosc trei oameni și jumătate. Găsiți un fișier torrent, îl lansați, descărcarea ajunge la 14,7% și... atât. Zilele și săptămânile trec, iar descărcarea rămâne pe loc. Începi să cauți albumul pe Google, să cercetezi forumuri și, în sfârșit, să găsești link-uri către unele servicii de găzduire de fișiere, dar acestea nu au funcționat de mult.

Acest lucru se întâmplă din ce în ce mai des - deținătorii de drepturi de autor se închid în mod constant resurse utile. Și deși găsirea conținutului popular nu este încă o problemă, găsirea unui serial de televiziune de acum șapte ani în spaniolă poate fi extrem de dificilă.

Indiferent de ce ai nevoie pe internet, există mai multe moduri de a-l găsi. Oferim toate următoarele opțiuni numai pentru vizualizarea conținutului, dar în niciun caz pentru furt.

Usenet

Usenet este o rețea distribuită de servere între care datele sunt sincronizate. Structura lui Usenet seamănă cu un hibrid al unui forum și E-mail. Utilizatorii se pot conecta la grupuri speciale (grupuri de știri) și pot citi sau scrie ceva în ele. Ca și în cazul e-mailului, mesajele au o linie de subiect, care ajută la definirea subiectului grupului. Astăzi, Usenet este folosit în principal pentru partajarea fișierelor.

Până în 2008, furnizorii mari Usenet stocau fișiere doar 100-150 de zile, dar apoi fișierele au început să fie stocate pentru totdeauna. Furnizorii mai mici lasă conținut timp de 1.000 de zile sau mai mult, ceea ce este adesea suficient.

Pe la mijlocul anului 2001, Usenet a început să fie observat de deținătorii de drepturi de autor, forțând furnizorii să elimine conținutul protejat prin drepturi de autor. Dar pasionații au găsit rapid o soluție: au început să dea fișierelor nume confuze, să protejeze arhivele cu parole și să le adauge pe site-uri speciale care pot fi accesate doar prin invitație.

În Rusia, aproape nimeni nu știe despre existența Usenet, ceea ce nu se poate spune despre țările în care autoritățile luptă cu sârguință împotriva pirateriei. Spre deosebire de protocolul BitTorrent, Usenet nu poate determina adresa IP a unui utilizator fără ajutorul unui furnizor de servicii sau al unui furnizor de servicii de internet.

Cum să vă conectați la Usenet

În majoritatea cazurilor, nu vă veți putea conecta gratuit. Va trebui să vă mulțumiți fie cu un timp scurt de stocare a fișierelor, fie cu viteză redusă, fie cu acces numai la grupuri de text.

Furnizorii oferă două tipuri de acces plătit: un abonament lunar cu o cantitate nelimitată de date descărcate sau planuri de timp nelimitat cu trafic limitat. A doua opțiune este pentru cei care au nevoie doar ocazional să descarce ceva. Cei mai mari furnizori de astfel de servicii sunt Altopia, Giganews, Eweka, NewsHosting, Astraweb.

Acum trebuie să înțelegeți de unde să obțineți fișiere NZB cu metainformații - ceva de genul fișierelor torrent. În acest scop, sunt folosite motoare de căutare speciale - indexare.

Indexatori

Indexatoarele publice sunt pline de spam și , dar sunt încă bune pentru a găsi fișiere descărcate acum cinci sau mai mulți ani. Aici sunt câțiva dintre ei:

Indexatoarele gratuite care necesită înregistrare sunt mai potrivite pentru a găsi fișiere noi. Sunt bine structurate, conținutul nu are doar titluri, ci și descrieri cu imagini. Puteți încerca următoarele:

Există, de asemenea, indexare doar pentru anumite tipuri de conținut. De exemplu, anizb este potrivit pentru fanii anime-ului, iar albumsindex este potrivit pentru cei care caută muzică.

Descărcați de pe Usenet

Ca exemplu, să luăm Fraser Park (The FP), un film puțin cunoscut din 2011, a cărui versiune 1080p este aproape imposibil de găsit. Trebuie să găsiți fișierul NZB și să îl rulați printr-un program precum NZBGet sau SABnzbd.

Cum se descarcă prin IRC

Veți avea nevoie de un client IRC. Aproape oricine va face - marea majoritate sprijină DCC. Conectați-vă la serverul care vă interesează și începeți descărcarea.

Cele mai mari servere cu cărți:

  • irc.undernet.org, camera #bookz;
  • irc.irchighway.net, camera #ebooks.

Filme:

  • irc.abjects.net, camera #moviegods;
  • irc.abjects.net, camera #beast-xdcc.

Animație occidentală și japoneză:

  • irc.rizon.net, camera #știri;
  • irc.xertion.org, camera #cartoon-world.

Puteți utiliza comenzile!find sau @find pentru a căuta fișiere. Botul va trimite rezultatele ca mesaj privat. Dacă este posibil, preferați comanda @search - lansează un bot special care oferă rezultatele căutării ca un singur fișier, mai degrabă decât un flux imens de text.

Să încercăm să descarcăm How Music Got Free, o carte despre industria muzicală scrisă de Stephen Witt.


medium.com

Botul a răspuns la cererea @search și a trimis rezultatele ca fișier ZIP prin DCC.

medium.com

Trimitem o cerere de descărcare.

medium.com

Și acceptăm dosarul.


medium.com

Dacă ați găsit un fișier folosind indexerul, atunci nu trebuie să îl căutați pe canal. Pur și simplu trimiteți o solicitare de descărcare către bot folosind comanda de pe site-ul de indexare.

DC++

Într-o rețea DC, toate comunicațiile sunt efectuate printr-un server numit hub. În el puteți căuta anumite tipuri de fișiere: audio, video, arhive, documente, imagini de disc.

Partajarea fișierelor în DC++ este foarte simplă: doar bifați caseta de lângă folderul pe care doriți să-l partajați acces general. Datorită acestui fapt, poți găsi ceva complet de neimaginat - ceva despre care tu însuți ai uitat de mult, dar care poate fi dintr-o dată util cuiva.

Cum se descarcă prin DC++

Orice client va face. Pentru Windows cea mai bună opțiune este FlylinkDC++. utilizatorii Linux poate alege între și AirDC++ Web.

Căutarea și descărcarea sunt implementate convenabil: introduceți o interogare, selectați un tip de conținut, faceți clic pe „Căutare” și faceți dublu clic pe rezultat pentru a descărca fișierul. De asemenea, puteți vizualiza o listă cu toate fișierele deschise de utilizator și puteți descărca toate fișierele din folderul selectat. Pentru a face acest lucru, faceți clic dreapta pe rezultatul căutării și selectați elementul corespunzător.


medium.com

Dacă nu găsiți ceva, încercați din nou mai târziu. Adesea, oamenii pornesc clientul DC numai atunci când ei înșiși trebuie să descarce ceva.

Indexatori

Căutarea încorporată găsește numai fișiere în listele de utilizatori online. Pentru a găsi conținut rar, aveți nevoie de un indexator.

Singura opțiune cunoscută este spacelib.dlinkddns.com, precum și dcpoisk.no-ip.org. Rezultatele sunt prezentate sub formă de link-uri magnet, când se face clic pe, fișierele încep imediat să fie descărcate prin clientul DC. Merită să luați în considerare faptul că uneori indexerul este indisponibil pentru o lungă perioadă de timp - uneori până la două luni.

eDonkey2000 (ed2k), Kad

La fel ca DC++, ed2k este un protocol de transfer de date descentralizat cu un hub centralizat pentru căutarea și conectarea utilizatorilor între ei. În eDonkey2000 puteți găsi aproape același lucru ca și în DC++: seriale TV vechi cu actorie vocală diferită, muzică, programe, jocuri, jocuri vechi, precum și cărți despre matematică și biologie. Cu toate acestea, există și noi versiuni aici.

Completați în mod constant toate câmpurile obligatorii. Pe măsură ce direcționați, veți vedea Robots.txt-ul dvs. plin cu directive. Toate directivele din fișierul Robots.txt sunt descrise în detaliu mai jos.

Steag, copieși lipiți textul într-un editor de text. Salvați fișierul ca „robots.txt” în directorul rădăcină al site-ului dvs.

Descrierea formatului de fișier robots.txt

Fișierul robots.txt constă din intrări, fiecare dintre ele constând din două câmpuri: o linie cu numele aplicației client (user-agent) și una sau mai multe rânduri care încep cu directiva Disallow:

Directiva „:” sens

Robots.txt trebuie creat în format text Unix. Majoritatea editorilor de text buni știu deja cum să convertească caracterele de traducere șiruri de ferestre pe Unix. Sau clientul dvs. FTP ar trebui să poată face acest lucru. Pentru editare, nu încercați să utilizați un editor HTML, în special unul care nu are un mod text pentru afișarea codului.

Directivă Agent utilizator:

Pentru Rambler: agent utilizator: StackRambler Pentru Yandex: agent utilizator: Yandex Pentru Google: agent utilizator: googlebot

Puteți crea instrucțiuni pentru toți roboții:

Agent utilizator: *

Directivă Nu permiteți:

A doua parte a intrării constă din liniile Disallow. Aceste linii sunt directive (instrucțiuni, comenzi) pentru acest robot. Fiecare grup introdus de linia User-agent trebuie să aibă cel puțin o declarație Disallow. Numărul de instrucțiuni Disallow este nelimitat. Acestea îi spun robotului ce fișiere și/sau directoare nu are voie să indexeze. Puteți împiedica indexarea unui fișier sau director.

Următoarea directivă dezactivează indexarea directorului /cgi-bin/:

Nu permiteți: /cgi-bin/ Notați / de la sfârșitul numelui directorului! Pentru a interzice vizitarea directorului „/dir” în mod specific, instrucțiunea ar trebui să arate astfel: „Disallow: /dir/” . Și linia „Disallow: /dir” interzice vizitarea tuturor paginilor serverului al căror nume complet (de la rădăcina serverului) începe cu „/dir”. De exemplu: „/dir.html”, „/dir/index.html”, „/directory.html”.

Directiva scrisă după cum urmează interzice indexarea fișierului index.htm aflat în rădăcină:

Nu permiteți: /index.htm

Directivă Permite Doar Yandex înțelege.

User-agent: Yandex Allow: /cgi-bin Disallow: / # interzice descărcarea tuturor, cu excepția paginilor care încep cu „/cgi-bin” Pentru alte motoare de căutare, va trebui să enumerați toate documentele închise. Luați în considerare structura site-ului, astfel încât documentele închise pentru indexare să fie colectate într-un singur loc, dacă este posibil.

Dacă directiva Disallow este goală, înseamnă că robotul poate indexa TOATE fișierele. Trebuie să fie prezentă cel puțin o directivă Disallow pentru fiecare câmp User-agent pentru ca robots.txt să fie considerat valid. Un robots.txt complet gol înseamnă același lucru ca și cum nu ar exista deloc.

Robotul Rambler înțelege * ca orice simbol, așa că instrucțiunea Disallow: * înseamnă interzicerea indexării întregului site.

Allow, Disallow directive fără parametri. Absența parametrilor pentru directivele Allow și Disallow este interpretată după cum urmează: User-agent: Yandex Disallow: # la fel ca Allow: / User-agent: Yandex Allow: # la fel ca Disallow: /

Folosind caractere speciale „*” și „$”.
Când specificați căile directivelor Allow-Disallow, puteți utiliza caracterele speciale „*” și „$”, specificând astfel anumite expresii obisnuite. Caracterul special „*” înseamnă orice secvență de caractere (inclusiv goală). Exemple:

Agent utilizator: Yandex Disallow: /cgi-bin/*.aspx # interzice „/cgi-bin/example.aspx” și „/cgi-bin/private/test.aspx” Disallow: /*private # interzice nu numai „ /private”, dar și „/cgi-bin/private” Caracter special „$”.
În mod implicit, un „*” este adăugat la sfârșitul fiecărei reguli descrise în robots.txt, de exemplu: User-agent: Yandex Disallow: /cgi-bin* # blochează accesul la paginile care încep cu „/cgi-bin” Disallow : /cgi-bin # același lucru, pentru a anula „*” la sfârșitul regulii, puteți folosi caracterul special „$”, de exemplu: User-agent: Yandex Disallow: /example$ # interzice „/ exemplu", dar nu interzice "/example.html" User -agent: Yandex Disallow: /example # nu permite atât "/example" cât și "/example.html" User-agent: Yandex Disallow: /example$ # nu permite doar " /example" Disallow: /example*$ # la fel ca "Disallow: /example" nu permite atât /example.html, cât și /example

Directivă Gazdă.

Dacă site-ul dvs. are oglinzi, un robot special oglindă le va identifica și va forma un grup de oglinzi pentru site-ul dvs. Numai oglinda principală va participa la căutare. Îl puteți specifica folosind robots.txt folosind directiva „Gazdă”, specificând numele oglinzii principale ca parametru. Directiva „Gazdă” nu garantează selecția oglinzii principale specificate, totuși, algoritmul o ia în considerare cu prioritate atunci când ia o decizie. Exemplu: #Dacă www.glavnoye-zerkalo.ru este oglinda principală a site-ului, atunci robots.txt pentru #www.neglavnoye-zerkalo.ru arată astfel: User-Agent: * Disallow: /forum Disallow: /cgi-bin Gazdă: www.glavnoye -zerkalo.ru Pentru compatibilitatea cu roboții care nu respectă pe deplin standardul la procesarea robots.txt, directiva „Gazdă” trebuie adăugată în grupul care începe cu intrarea „User-Agent”, imediat după Directive „Disallow” („Permite”) . Argumentul pentru directiva „Gazdă” este un nume de domeniu urmat de un număr de port (80 în mod implicit) separat de două puncte. Parametrul directivei gazdă trebuie să fie format dintr-un nume de gazdă valid (adică unul care respectă RFC 952 și nu este o adresă IP) și un număr de port valid. Liniile „Gazdă:” compuse incorect sunt ignorate.

Exemple de directive gazdă ignorate:

Gazdă: www.myhost-.ru Gazdă: www.-myhost.ru Gazdă: www.myhost.ru:100000 Gazdă: www.my_host.ru Gazdă: .my-host.ru:8000 Gazdă: my-host.ru. Gazdă: my..host.ru Gazdă: www.myhost.ru/ Gazdă: www.myhost.ru:8080/ Gazdă: 213.180.194.129 Gazdă: www.firsthost.ru,www.secondhost.ru # într-o singură linie - una domeniu! Gazdă: www.firsthost.ru www.secondhost.ru # într-o singură linie - un domeniu!! Gazdă: crew-communication.rf # trebuie să utilizați punycode

Directivă Crawl-întârziere

Setează timpul de expirare în secunde cu care robotul de căutare descarcă pagini de pe serverul tău (Crawl-delay).

Dacă serverul este încărcat puternic și nu are timp să proceseze cererile de descărcare, utilizați directiva „Crawl-delay”. Vă permite să setați robotului de căutare o perioadă minimă de timp (în secunde) între sfârșitul descărcării unei pagini și începerea descărcării următoarei. Pentru compatibilitatea cu roboții care nu respectă pe deplin standardul la procesarea robots.txt, directiva „Crawl-delay” trebuie adăugată în grupul începând cu intrarea „User-Agent”, imediat după „Disallow” („Allow” ) directive.

Robotul de căutare Yandex acceptă valori fracționate Crawl-Delay, de exemplu, 0,5. Acest lucru nu garantează că robotul de căutare vă va vizita site-ul la fiecare jumătate de secundă, dar îi oferă robotului mai multă libertate și îi permite să acceseze cu crawlere site-ul mai repede.

User-agent: Yandex Crawl-delay: 2 # setează timeout-ul la 2 secunde User-agent: * Disallow: /search Crawl-delay: 4,5 # setează timeout-ul la 4,5 secunde

Directivă Clean-param

Directiva pentru excluderea parametrilor din bara de adrese. acestea. cererile care conțin un astfel de parametru și cele care nu le conțin vor fi considerate identice.

Rânduri goale și comentarii

Sunt permise linii goale între grupurile de instrucțiuni introduse de utilizatorul-agent.

Declarația Disallow este luată în considerare numai dacă este subordonată oricărei linii User-agent - adică dacă există o Șir utilizator-agent.

Orice text de la semnul hash „#” până la sfârșitul rândului este considerat un comentariu și este ignorat.

Exemplu:

Următorul fișier simplu robots.txt interzice tuturor roboților să indexeze toate paginile site-ului, cu excepția robotului Rambler, care, dimpotrivă, are voie să indexeze toate paginile site-ului.

# Instrucțiuni pentru toți roboții User-agent: * Disallow: / # Instrucțiuni pentru robotul Rambler User-agent: StackRambler Disallow:

Greșeli comune:

Sintaxă inversată: User-agent: / Disallow: StackRambler Și ar trebui să fie așa: User-agent: StackRambler Disallow: / Mai multe directive Disallow într-o singură linie: Disallow: /css/ /cgi-bin/ /images/ Corect așa: Disallow: / css/ Disallow: /cgi-bin/ Disallow: /images/
    Note:
  1. Este inacceptabil să existe întreruperi de linie goale între directivele „User-agent” și „Disallow” (“Allow”), precum și între directivele „Disallow” („Allow”) în sine.
  2. Conform standardului, se recomandă introducerea unui avans de linie gol înaintea fiecărei directive „User-agent”.

Recent am avut nevoie să instalez un motor de căutare pentru indexarea paginilor HTML. M-am stabilit pe mnoGoSearch. Citind documentația, am notat câteva puncte care ar putea fi utile mai târziu, pentru a nu fi nevoit să mă aprofundez din nou în manuale. Rezultatul este ceva asemănător cu o mică foaie de cheat. In caz ca este de folos cuiva, il postez aici.

indexer -E create - creează toate tabelele necesare în baza de date (presupunând că baza de date în sine a fost deja creată).

indexer -E blob - creează un index pe toate informațiile indexate (trebuie executat de fiecare dată după rularea indexerului dacă se folosește metoda de stocare blob, în ​​caz contrar căutarea se va efectua numai pe informațiile vechi aflate în baza de date pentru care indexer -E blob a fost executat anterior) .

indexer -E wordstat - creează un index al tuturor cuvintelor detectate. search.cgi îl folosește când opțiunea Sugerare este activată. Dacă activați această opțiune, atunci dacă căutarea nu produce rezultate, search.cgi va oferi sugestii pentru ortografia corectă a interogării în cazul în care utilizatorul a greșit.

Documentele sunt indexate numai atunci când sunt considerate învechite. Perioada de expirare este stabilită de opțiunea Period, care poate fi specificată în configurație de mai multe ori înainte de fiecare definiție a adresei URL care trebuie indexată. Dacă trebuie să reindexați toate documentele, ignorând această instrucțiune, ar trebui să rulați indexer -a.

Indexerul are comutatoarele -t, -g, -u, -s, -y pentru a limita munca doar cu o parte a bazei de date cu linkuri. -t corespunde unei restricții prin etichetă, -g corespunde unei restricții după categorie, -u - restricție printr-o parte a adresei URL (sunt acceptate modelele SQL LIKE cu caractere % și _), -s - restricție prin starea documentului HTTP, - y - restricții în funcție de tipul de conținut. Toate restricțiile pentru aceeași cheie sunt combinate cu operatorul SAU, iar grupurile de chei diferite sunt combinate cu operatorul AND.

Pentru a șterge întreaga bază de date, ar trebui să utilizați comanda indexer -C. De asemenea, puteți șterge doar o parte din baza de date folosind cheile de subsecțiune -t, -g, -u, -s, -y.

Statistici baze de date pentru servere SQL

Dacă rulați indexer -S, acesta va afișa statisticile bazei de date, inclusiv numărul total de documente și numărul de documente învechite pentru fiecare stare. Tastele de subsecțiune se aplică și acestei comenzi.

Semnificațiile codului de stare:

  • 0 - document nou (niciodată indexat).
  • Dacă starea nu este 0, este egală cu cod HTTP răspuns, câteva coduri de răspuns HTTP:
  • 200 - „OK” (url-ul a fost indexat cu succes)
  • 301 - „Mutat permanent” (redirecționat către o altă adresă URL)
  • 302 - „Mutat temporar” (redirecționat către o altă adresă URL)
  • 303 - „Vedeți altele” (redirecționat către o altă adresă URL)
  • 304 - „Nemodificat” (url-ul nu a fost modificat de la indexarea anterioară)
  • 401 - „Este necesară autorizarea” (autentificare/parolă necesară pentru acest document)
  • 403 - „Interzis” (fără acces la acest document)
  • 404 - "Nu a fost găsit" (documentul specificat nu există)
  • 500 - „Eroare internă a serverului” (eroare în cgi etc.)
  • 503 - „Serviciul indisponibil” (gazdă indisponibilă, expirarea conexiunii)
  • 504 - „Gateway Timeout” (timeout la primirea unui document)
Codul de răspuns HTTP 401 indică faptul că documentul este protejat prin parolă. Puteți utiliza comanda AuthBasic din indexer.conf pentru a specifica login:parolă pentru adresa URL.

Verificarea linkurilor (numai pentru serverele SQL)

Când rulează cu comutatorul -I, indexerul arată perechi de adrese URL și pagina care leagă la aceasta. Acest lucru este util pentru a găsi linkuri întrerupte în pagini. De asemenea, puteți utiliza tastele de restricție pentru subsecțiuni pentru acest mod. De exemplu, indexerul -I -s 404 va afișa adresele tuturor documentelor negăsite, împreună cu adresele paginilor care conțin link-uri către acele documente.

Indexare paralelă (numai servere SQL)

Utilizatorii MySQL și PostgreSQL pot rula mai multe indexare simultan cu același fișier de configurare indexer.conf. Indexer utilizează mecanismul de blocare MySQL și PostgreSQL pentru a evita indexarea dublă a acelorași documente de către diferiți indexatori care rulează simultan. Este posibil ca indexarea paralelă să nu funcționeze corect cu alte servere SQL acceptate. De asemenea, puteți utiliza versiunea cu mai multe fire de indexare cu orice server SQL care acceptă conexiuni paralele la baza de date. Versiunea cu mai multe fire folosește propriul mecanism de blocare.

Nu este recomandat să utilizați aceeași bază de date cu diverse fișiere configurație indexer.conf! Un proces poate adăuga unele documente în baza de date, în timp ce altul poate șterge aceleași documente și ambele pot funcționa fără oprire.

Pe de altă parte, puteți rula mai multe indexere cu fișiere de configurare diferite și baze de date diferite pentru orice server SQL acceptat.

Reacția la codurile de răspuns HTTP

Pseudo-limbaj este folosit pentru descriere:

  • 200 OK
  • 1. Dacă este specificată cheia -m ("force reindex"), atunci treceți la 4. 2. Comparați sumele de verificare a documentelor noi și cele vechi stocate în baza de date 3. Dacă sumele de control sunt egale, atunci next_index_time = Now() + Period , mergeți la 7 4. Analizarea documentului, crearea unei liste de cuvinte, adăugarea de noi legături hipertext la baza de date 5. Eliminarea vechii liste de cuvinte și secțiuni din baza de date 6. Inserarea unei noi liste de cuvinte și secțiuni 7. Sfârșit
  • 304 Nemodificat
  • 1. următorul_index_time = acum() + Perioada 2. Sfârșit
  • 301 mutat permanent
  • 302 Mutat temporar
  • 303 Vezi Altele
  • 1. Eliminarea cuvintelor a acestui document din baza de date 2. next_index_time = Now() + Period 3. Adăugarea adresei URL din antetul Locație la baza de date: 4. End
  • 300 de alegeri multiple
  • 305 Utilizați proxy (redirecționare proxy)
  • 400 Solicitare greșită
  • 401 Neautorizat
  • 402 Plata necesară
  • 403 Interzis
  • 404 Nu a fost gasit
  • 405 Metoda nu este permisă
  • 406 Inacceptabil
  • 407 Este necesară autentificarea proxy
  • 408 Termen de întrerupere al solicitării
  • 409 Conflict
  • 410 A plecat
  • 411 Lungime necesară
  • 412 Precondiție a eșuat
  • 413 Obiectul cerut este prea mare
  • 414 Solicitare-URI prea lung
  • 415 Tip media neacceptat
  • 500 Eroare internă a server-ului
  • 501 Neimplementat
  • 502 Bad Gateway
  • Versiunea protocolului 505 nu este acceptată
  • 1. Eliminarea cuvintelor documentului din baza de date 2. next_index_time=Now()+Period 3. End
  • 503 Serviciu Indisponibil
  • 504 Gateway Timeout
  • 1. next_index_time=Acum()+Perioada 2. Sfârșit
Suport pentru codificarea conținutului

Motorul de căutare mnoGoSearch acceptă comprimarea solicitărilor și răspunsurilor HTTP (codarea conținutului). Comprimarea cererilor și răspunsurilor serverului HTTP poate îmbunătăți semnificativ performanța procesării cererilor HTTP prin reducerea cantității de date transmise.

Utilizarea compresiei solicitărilor HTTP vă permite să reduceți traficul de două sau de mai multe ori.

Specificația HTTP 1.1 (RFC 2616) definește patru metode pentru codificarea conținutului răspunsurilor serverului: gzip, deflate, compress și identity.

Dacă suportul pentru codificarea conținutului este activat, indexerul trimite antetul Accept-Encoding către serverul http: gzip,deflate,compress.

Dacă serverul http acceptă oricare dintre metodele de codificare gzip, deflate sau compress, va trimite un răspuns codificat cu acea metodă.

Pentru a construi mnoGoSearch cu suport pentru compresia cererilor HTTP, trebuie să aveți biblioteca zlib.

Pentru a activa suportul pentru codificarea conținutului, trebuie să configurați mnoGoSearch cu următoarea cheie:
./configure --with-zlib

Căutare booleană

Pentru a specifica interogări complexe, puteți crea interogări de căutare booleene. Pentru a face acest lucru, trebuie să specificați modul de căutare bool în formularul de căutare.

MnoGoSearch înțelege următorii operatori booleeni:

& - AND logic De exemplu, mysql & odbc. mnoGoSearch va căuta adrese URL care conțin atât cuvintele „mysql” cât și „odbc”. Puteți folosi și semnul + pentru acest operator.

| - SAU logic. De exemplu, mysql | odbc. mnoGoSearch va căuta adrese URL care conțin fie cuvântul „mysql”, fie cuvântul „odbc”.

~ - NU logic. De exemplu, mysql & ~odbc. mnoGoSearch va căuta URL-uri care conțin cuvântul „mysql” și, în același timp, nu conțin cuvântul „odbc”. Atenţie! ~ doar exclude unele documente din rezultatul căutării. Interogarea „~odbc” nu va găsi nimic!

() - operator de grupare pentru crearea de interogări de căutare mai complexe. De exemplu, (mysql | msql) & ~postgres.

" - operator de selecție a frazei. De exemplu, „apache rusă” și „server web”. De asemenea, puteți utiliza semnul „ pentru acest operator.