Principiul de lucru al motoarele de căutare pe internet. Cum funcționează motoarele de căutare - fragmente, algoritm de căutare inversă, indexare a paginilor și funcții Yandex. Cum funcționează un motor de căutare - principii de bază

21.05.2020

21.11.2017

Orice întrebare te îngrijorează omul modern, el nu caută răspunsuri în cărți. Îi caută pe internet. Mai mult, nu trebuie să știți adresa site-ului unde se află informațiile de care aveți nevoie. Există milioane de astfel de site-uri, dar te ajută să-l găsești pe cel potrivit sistem de căutare.

Pe vastitatea internetului nostru intern, cele mai populare două motoare de căutare sunt Google și Yandex.

Te-ai întrebat vreodată cum funcționează un motor de căutare? Cum înțelege ea ce site să arate, care dintre milioanele de resurse are cu siguranță răspunsul la solicitarea ta?

Ce este un motor de căutare?

Un motor de căutare este o bază de date uriașă de documente web care este actualizată și extinsă în mod constant. Fiecare motor de căutare are păianjeni de căutare; roboții sunt roboți speciali care accesează cu crawlere site-urile, indexează conținutul postat pe acestea și apoi îi clasifică în funcție de calitatea și relevanța lor pentru interogările de căutare ale utilizatorilor.

Motoarele de căutare funcționează astfel încât oricine poate găsi orice informație. De aceea, încearcă să arate mai întâi acele documente web care conțin cel mai detaliat răspuns la întrebarea unei persoane.

În esență, un motor de căutare este un director de site-uri, un director, a cărui funcție principală este de a căuta informații chiar în acest director.

După cum am scris mai sus, avem două sisteme populare - Google (global) și Yandex (segment în limba rusă). Există însă și sisteme precum Rambler, Yahoo, Bing, Mail.Ru și altele. Principiul de funcționare este similar pentru toate, doar algoritmii de clasare diferă (și chiar și atunci nu foarte semnificativ).

Cum funcționează un motor de căutare pe Internet?

Principiul modului în care funcționează motoarele de căutare este foarte complex, dar voi încerca să-l explic în cuvinte simple.

Un robot de căutare (păianjen) accesează cu crawlere paginile site-ului, le descarcă conținutul și extrage linkuri. Apoi, indexatorul își începe munca - acesta este un program care analizează toate materialele descărcate de păianjeni, bazându-se pe propriii algoritmi.

Astfel, se creează o bază de date a motorului de căutare în care sunt stocate toate documentele procesate de algoritm.

Lucrul cu o interogare de căutare se efectuează după cum urmează:

se analizează interogarea introdusă de utilizator;
rezultatele analizei sunt transferate într-un modul special de clasare;
se prelucrează datele tuturor documentelor, se selectează cele mai relevante pentru cererea introdusă;
se generează un fragment - titlul, descrierea, cuvintele din cerere sunt evidențiate cu caractere aldine;
rezultatele căutării sunt prezentate utilizatorului sub forma unei SERP (pagină de rezultate).

Cum funcționează motoarele de căutare

Sarcina principală a oricărui motor de căutare este de a oferi utilizatorului cele mai utile și corecte informații cu privire la solicitarea acestuia. Prin urmare, robotul de căutare accesează constant site-urile. Imediat după lansare, după un anumit program, păianjenul vine să te viziteze, se târăște un număr de pagini, după care sunt indexate.

Principiul de funcționare al motoarelor de căutare se bazează pe două etape principale:

accesarea cu crawlere a paginilor prin care sunt colectate date;
atribuirea unui index, datorită căruia sistemul poate căuta rapid conținutul unei anumite pagini.

Odată ce o pagină de site este indexată, aceasta va apărea deja în rezultatele căutării pentru o anumită interogare de căutare. Verifică dacă l-ai primit pagina nouaîn indexul motorului de căutare, folosind instrumente pentru webmasteri. De exemplu, în Yandex.Webmaster puteți vedea imediat ce pagini au fost indexate și când și care pagini au căzut din index și din ce motiv.

Dar pe ce pagină va ajunge depinde de gradul de indexare și de calitatea conținutului său. Dacă pagina dvs. oferă răspunsul cel mai precis la o interogare, aceasta va fi mai mare decât toate celelalte.

Principii de clasare a site-urilor web în motoarele de căutare

Ne-am dat seama pe ce principiu funcționează roboții de căutare. Dar cum sunt clasate site-urile?

Clasamentul se bazează pe doi piloni principali - conținutul text al paginii și factori non-text.

Conținut text– acesta este contextul paginii. Cu cât este mai completă, cu atât mai precisă, cu atât mai relevantă pentru cerere, cu atât pagina va fi mai sus în rezultatele căutării. Pe lângă textul în sine, motorul de căutare acordă atenție completării etichetelor titlu (titlul paginii), descrierea (descrierea paginii), H1 (titlul textului).

Factori non-text– aceasta este o legătură internă și linkuri externe. Ideea este: dacă site-ul este interesant și util, atunci alte resurse tematice se leagă de el. Și cu cât mai multe astfel de link-uri, cu atât mai autoritară este resursa.

Dar acestea sunt cele mai de bază principii, foarte pe scurt. Să aprofundăm puțin.

De bazăfactori de clasare a site-ului web

Există o serie de factori care influențează clasarea unui site web. Principalele sunt:

1. Bfactorii interni de clasificare a site-ului web

Acesta este textul de pe site și designul acestuia - subtitluri, evidențiind punctele importante din text. Utilizarea legăturilor interne se aplică și aici. Elementele vizuale sunt și ele importante: utilizarea imaginilor, fotografiilor, videoclipurilor, graficelor. De asemenea, este importantă calitatea textului în sine, conținutul acestuia.

2. Factori externi de clasificare a site-ului web care îi determină popularitatea. Acestea sunt aceleași link-uri externe care duc la site-ul dvs. din alte resurse. Nu se determină doar numărul acestor site-uri, ci și calitatea acestora (este de dorit ca site-urile să fie pe un subiect similar cu al dvs.), precum și calitate generală profil de link (cât de repede au apărut aceste link-uri, în mod natural sau prin achiziții la bursă).

Pe baza celor de mai sus, se poate trage o concluzie: motoarele de căutare încearcă să funcționeze în așa fel încât să arate utilizatorului acele site-uri care oferă cel mai complet răspuns la cererea sa și au câștigat deja o anumită autoritate.În acest caz, sunt luați în considerare o varietate de factori: conținutul site-ului, setările acestuia și atitudinea utilizatorilor față de acesta. Un site care este bun din toate punctele de vedere va avea cu siguranță o poziție ridicată în rezultatele căutării.

Un motor de căutare sau pur și simplu „motor de căutare” este unul care caută pagini de Internet în conformitate cu solicitarea utilizatorului. Cel mai faimos motor de căutare din lume este Google, cel mai popular din Rusia este Yandex, iar unul dintre cele mai vechi motoare de căutare este Yahoo. În arhitectura motorului de căutare putem distinge motor de căutare– nucleul sistemului, reprezentat de un set de module software; baza de date sau index, care stochează informații despre toate resursele de internet cunoscute motorului de căutare; și un set de site-uri care sunt puncte de intrare utilizatorii în sistem (www.google.com, www.yandex.ru, ru.yahoo.com etc.). Toate acestea corespund arhitecturii clasice pe trei niveluri a sistemelor informatice: există o interfață cu utilizatorul, logica de afaceri, care în acest caz este reprezentată de implementarea algoritmilor de căutare și o bază de date.

Specificul căutării pe Internet

La prima vedere, căutarea pe Internet nu este mult diferită de căutarea obișnuită a informațiilor, de exemplu, de la procesare la o bază de date sau de sarcina de a căuta un fișier pe . Așa credeau și dezvoltatorii primelor motoare de căutare pe Internet, dar cu timpul și-au dat seama că s-au înșelat...

Prima diferență între căutarea pe Internet și căutarea obișnuită este că algoritmul de căutare pentru aceeași bază de date presupune că structura sa este cunoscută în prealabil de motorul de căutare și de autorul interogării. Pe Internet, din motive evidente, nu este cazul. Paginile de internet nu formează o structură de directoare, ci o rețea, care afectează și algoritmii de căutare, iar formatul datelor postate pe resursele de pe Internet nu este controlat de nimeni.

A doua diferență, ca una dintre consecințele primei, este că cererea este prezentată nu ca un set de valori ale parametrilor (criterii de căutare), ci ca text scris de o persoană în limba sa naturală. Astfel, înainte de a începe căutarea, mai trebuie să înțelegeți ce dorește exact autorul cererii. Permiteți-mi să notez că nu este pentru o altă persoană să înțeleagă, ci pentru un computer.

A treia diferență este mai puțin evidentă, dar nu mai puțin fundamentală: într-un catalog sau bază de date, toate elementele au drepturi egale. Există concurență pe internet și, în consecință, o împărțire în „furnizori de informații de încredere” și surse care sunt apropiate ca statut de „gunoaie de informații”. Acesta este modul în care oamenii clasifică resursele, iar acest lucru este valabil și pentru motoarele de căutare.

Și în concluzie, trebuie adăugat că zona de căutare este de miliarde de pagini, de câțiva kilobytes sau mai mult fiecare. Aproximativ zece milioane de pagini sunt adăugate zilnic și același număr este actualizat. Toate acestea sunt reprezentate de diverse formate digitale. Din păcate, chiar tehnologii moderne iar resursele de care dispun liderii pieței de servicii de căutare pe Internet nu le permit să prelucreze toată această diversitate „din mers” și în totalitate.

În ce constă un motor de căutare?

În primul rând, este important să realizăm încă una și, probabil, cea mai semnificativă diferență între munca unui motor de căutare pe Internet și munca oricărui alt Sistem informatic, care caută în diverse cataloage și baze de date. Motor de căutare pe internet aparatul nu caută informații printre ceea ce se află pe Internet în momentul în care este primită cererea, ci încearcă să genereze un răspuns pe baza propriei stocări de informații - o bază de date numită index, unde stochează un dosar despre tot ceea ce îi cunoaște și îl actualizează periodic. Cu alte cuvinte, motorul de căutare nu funcționează cu originalul, ci cu o proiecție a zonei valori acceptabile căutare. Toate cele mai recente modificări de pe Internet pot fi reflectate în rezultatele căutării numai după ce paginile corespunzătoare sunt indexate- adăugat la indexul motorului de căutare. Deci, un sistem de căutare, la o primă aproximare, constă dintr-un motor de căutare, o bază de date sau index (index) și puncte de intrare în sistem.

Acum, pe scurt, despre ce constă un motor de căutare:

Păianjen sau păianjen. O aplicație care descarcă pagini de resurse de Internet. Păianjenul nu se „crawlează” nicăieri - solicită doar conținutul paginilor în același mod ca un browser de internet obișnuit, trimițând o solicitare către serverul HTTP și primind un răspuns de la acesta. Odată ce conținutul paginii este descărcat, acesta este trimis către indexator și crawler, care sunt discutate mai jos.

Indexator. Indexatorul efectuează o analiză inițială a conținutului paginii descărcate, selectează părțile principale (titlul paginii, descrierea, link-uri, titluri etc.) și le aranjează pe toate în secțiuni ale bazei de date de căutare - o plasează în indexul motorului de căutare. Acest proces se numește indexarea resurselor de internet, de unde și numele subsistemului însuși. Pe baza rezultatelor analizei inițiale, indexatorul poate decide, de asemenea, că pagina nu este deloc „demnă” de a fi în index. Motivele acestei decizii pot fi diferite: pagina nu are un nume, este o copie exactă a unei alte pagini aflate deja în index sau conține link-uri către resurse interzise de lege.

Tractor pe şenile. Acest „animal” este conceput să „se târască” de-a lungul linkurilor disponibile pe pagina descărcată de păianjen. Crawler-ul analizează căile care duc de la pagina curentă către alte secțiuni ale site-ului sau către pagini de resurse externe de Internet și determină ordinea ulterioară în care păianjenul traversează firele World Wide Web. Este crawler-ul care găsește pagini care sunt noi pentru motorul de căutare și le transmite păianjenului. Lucrarea crawler-ului se bazează pe algoritmi de căutare a graficului de lățime și adâncime.

Subsistem pentru procesarea și emiterea rezultatelor (Motorul de căutare și Motorul de rezultate). Cea mai importantă parte a oricărui motor de căutare. Dezvoltatorii păstrează algoritmii de operare ai acestui subsistem al companiei în strict secret, deoarece sunt secret comercial. Această parte a motorului de căutare este responsabilă pentru caracterul adecvat al răspunsului motorului de căutare la solicitarea utilizatorului. Există două componente principale aici:
- Subsistemul de clasare. Variind– acestea sunt pagini ale site-urilor de internet în conformitate cu relevanța lor pentru o anumită solicitare. Relevanța paginii- acesta este, la rândul său, gradul în care conținutul paginii corespunde sensului cererii, iar motorul de căutare determină această valoare în mod independent, pe baza sumă uriașă parametrii. Clasamentul este partea cea mai misterioasă și controversată a „inteligenței artificiale” a unui motor de căutare. Clasamentul unei pagini, pe lângă structura și conținutul acesteia (conținut), este influențat și de: numărul și calitatea linkurilor care duc către această pagină de pe alte site-uri; vechimea domeniului site-ului propriu-zis; natura comportamentului utilizatorilor care vizualizează pagina și mulți alți factori.
- Subsistem pentru emiterea rezultatelor. Sarcinile acestui subsistem includ interpretarea cererii utilizatorului și traducerea acesteia în limbă interogări structurate la indexarea și generarea paginilor cu rezultatele căutării. Pe lângă analizarea textului interogării în sine, motorul de căutare poate lua în considerare și:
  - Contextul cererii, format pe baza semnificației solicitărilor făcute anterior de către utilizator. De exemplu, dacă un utilizator vizitează adesea site-uri cu subiecte auto, atunci când i se cere cuvântul „Volga” sau „Oka”, probabil că dorește să primească informații despre mașinile acestor mărci și nu despre unde încep rușii cu același nume. și unde curg râurile. Se numeste căutare personalizată, când rezultatul pentru aceeași cerere pentru utilizatori diferiți este semnificativ diferit.
  - Preferintele utilizatorului, despre care acesta (motorul de căutare) poate „ghici”, analiza link-urilor selectate de utilizator pe paginile cu rezultatele căutării. Aceasta este o altă modalitate de a ajusta contextul unei solicitări: utilizatorul, prin acțiunile sale, pare să spună mașinii ce anume a vrut să găsească. De regulă, motoarele de căutare încearcă să adauge pagini la rezultatele căutării care sunt relevante pentru interogare, dar legate de domenii destul de diferite ale vieții. Să presupunem că un utilizator este interesat de filme și, prin urmare, selectează adesea link-uri către pagini cu anunțuri de film, chiar dacă aceste pagini nu sunt în întregime relevante pentru solicitarea inițială. La generarea unui răspuns la următoarea sa cerere, sistemul poate acorda preferință paginilor cu descrieri ale filmelor ale căror titluri conțin cuvinte din textul solicitării.
  - Regiune, care este foarte important la procesarea cererilor comerciale legate de achiziționarea de bunuri și servicii de la furnizori locali. Dacă sunteți interesat de vânzări și reduceri și vă aflați în Moscova, atunci cel mai probabil nu sunteți deloc interesat de ce promoții pe această temă se desfășoară în Sankt Petersburg, cu excepția cazului în care indicați acest lucru în mod explicit în textul cererii. În primul rând, informațiile despre vânzările din Moscova ar trebui să apară în rezultatele căutării. Astfel, motoarele de căutare moderne împart interogările în geodependentȘi geo-independent. Cel mai probabil, dacă motorul de căutare decide că interogarea dvs. este geo-dependentă, atunci îi adaugă automat un indicator de regiune, pe care încearcă să-l determine din informații despre furnizorul dvs. de internet.
  - Timp. Motoarele de căutare trebuie uneori să analizeze când au avut loc evenimentele descrise pe pagină. La urma urmei, informațiile devin în mod constant depășite, iar utilizatorul are nevoie în primul rând de link-uri către cele mai recente știri, previziuni curente și anunțuri despre evenimente care nu s-au încheiat încă sau sunt programate să aibă loc în viitor. Înțelegerea faptului că relevanța unei pagini depinde de timp și compararea acesteia cu momentul în care solicitarea a fost executată necesită, de asemenea, o cantitate suficientă de inteligență din partea motorului de căutare.
  În continuare, motorul de căutare caută cel mai apropiat sens interogare cheieîn index și generează rezultate prin sortarea legăturilor în ordinea descrescătoare a relevanței lor. Fiecare interogare cheie din index are un clasament separat pentru paginile relevante pentru ea. Sistemul nu creează o nouă interogare de cheie pentru fiecare combinație de litere și numere, dar face acest lucru pe baza unei analize a frecvenței anumitor interogări ale utilizatorilor. Motorul de căutare poate amesteca, de asemenea, clasamentele din diferite interogări cheie în rezultatele căutării, dacă consideră că acesta este ceea ce caută utilizatorul.

Principii generale de funcționare a motorului de căutare

Trebuie să înțelegeți că serviciile de căutare pe Internet sunt o afacere foarte, foarte profitabilă. Nu trebuie să intri în detalii despre cum trăiesc companii precum Google și Yandex, deoarece cea mai mare parte a profitului lor este venitul din publicitatea contextuală. Și deoarece căutarea pe Internet este o afacere extrem de profitabilă, atunci concurența dintre astfel de companii este foarte serioasă. Ce determină competitivitatea pe piața de căutare pe Internet? Răspunsul este calitatea rezultatelor motoarelor de căutare. Este logic că, cu cât este mai mare, cu atât sistemul devine mai mulți utilizatori noi și cu atât este mai valoros pe paginile aceleiași rezultate de căutare. publicitate contextuală. Dezvoltatorii motoarelor de căutare depun mult efort pentru a-și „curăța” rezultatele căutării de diferite tipuri de gunoi de informații, numite în mod popular spam. Cum se face acest lucru va fi descris mai detaliat într-un articol separat, dar aici voi prezenta principiile generale ale comportamentului motorului de căutare, formulate sub formă de concluzii asupra tuturor celor de mai sus.

Motorul de căutare, reprezentat de păianjeni și crawler-uri, scanează în mod constant internetul pentru pagini noi și actualizări la cele existente, deoarece informațiile irelevante sunt evaluate mai puțin.

Motorul de căutare actualizează periodic clasamentul resurselor în funcție de relevanța acestora pentru interogările cheie, deoarece paginile noi apar constant în index. Acest proces se numește actualizarea rezultatelor căutării.

Datorită volumelor uriașe de informații postate în world wide webși resursele limitate ale motorului de căutare în sine, motorul de căutare încearcă întotdeauna să descarce doar ceea ce este (în opinia sa) necesar. Arsenalul său include tot felul de filtre care elimină mult ceea ce este inutil deja în etapa de indexare sau aruncă spam-ul din index pe baza rezultatelor actualizării rezultatelor căutării.

Atunci când analizează o solicitare, motoarele de căutare moderne încearcă să ia în considerare nu numai textul solicitării în sine, ci și mediul acesteia: contextul și preferințele utilizatorului, care au fost menționate mai devreme, precum și momentul solicitării, regiunea. , și mult mai mult.

Relevanța unei anumite pagini este influențată nu numai de parametrii ei interni (structură, conținut), ci și de parametrii externi, cum ar fi link-urile către pagină de pe alte site-uri și comportamentul utilizatorului la vizualizarea acesteia.

Munca motoarelor de căutare este îmbunătățită în mod constant. Funcționarea ideală a unui motor de căutare (pentru oameni) este posibilă doar dacă toate deciziile privind indexarea și clasarea sunt luate de o comisie formată dintr-un număr mare de specialiști din toate domeniile și domeniile activității umane. Deoarece acest lucru este nerealist, un astfel de comision este înlocuit sistem expert, algoritmi de căutare euristică și alte elemente ale inteligenței artificiale. Probabil că munca tuturor acestor subsisteme ar putea da și rezultate mai adecvate dacă ar fi posibil să se prelucreze absolut toate datele disponibile în acces deschis pe Internet, dar acest lucru este aproape imposibil. Imperfect inteligenţă artificială iar resursele limitate sunt două motive principale pentru care rezultatele căutării nu sunt întotdeauna plăcute utilizatorilor, dar toate acestea pot fi vindecate cu timpul. Astăzi, după părerea mea, munca celor mai faimoase și mari motoare de căutare răspunde pe deplin nevoilor și așteptărilor utilizatorilor lor.

Prin definiție, un motor de căutare pe Internet este un sistem de regăsire a informațiilor care ne ajută să găsim informații pe World Wide Web. Acest lucru facilitează schimbul global de informații. Dar Internetul este o bază de date nestructurată. Crește exponențial și a devenit un depozit uriaș de informații. Găsirea de informații pe internet este o sarcină dificilă. Este nevoie de un instrument care să gestioneze, să filtreze și să recupereze aceste informații despre ocean. Motorul de căutare servește acestui scop.

Cum funcționează un motor de căutare?

Motoarele de căutare pe Internet sunt motoare care caută și regăsesc informații pe Internet. Cele mai multe dintre ele folosesc o arhitectură de indexare cu crawler. Acestea depind de modulele lor de cale. Crawlerele sunt numite și păianjeni programe mici care navighează pe web.

Crawlerele accesează un set inițial de adrese URL. Ei extrag adresele URL care apar pe paginile accesate cu crawlere și trimit aceste informații către modulul de control al crawlerului. Crawler-ul decide ce pagini va vizita în continuare și le oferă acele adrese URL crawlerelor.

Subiectele abordate de diferite motoare de căutare variază în funcție de algoritmii pe care îi folosesc. Unele motoare de căutare sunt programate să caute site-uri pe un anumit subiect, în timp ce crawlerele altora pot vizita cât mai multe locuri posibil.

Modulul de indexare extrage informații din fiecare pagină pe care o vizitează și introduce adresa URL în baza de date. Rezultă un tabel uriaș de căutare cu o listă de adrese URL care indică pagini de informații. Tabelul arată paginile care au fost acoperite în timpul accesării cu crawlere.

Modulul de analiză este o altă parte importantă a arhitecturii motorului de căutare. Acesta creează un index de utilitate. Utilitarul de index poate oferi acces la pagini de o anumită lungime sau pagini care conțin un anumit număr de imagini pe acestea.

În timpul procesului de crawling și indexare, motorul de căutare stochează paginile pe care le preia. Sunt stocate temporar în stocarea paginii. Motoarele de căutare mențin o memorie cache a paginilor pe care le vizitează pentru a accelera recuperarea paginilor care au fost deja vizitate.

Modulul de interogare a motorului de căutare primește interogări de căutare de la utilizatori sub formă de cuvinte cheie. Modulul de clasare sortează rezultatele.

Arhitectura de indexare cu crawler are multe variante. Se schimbă în arhitectura distribuita motor de căutare. Aceste arhitecturi constau din colectori și brokeri. Colectorii colectează informații de indexare de la serverele web, în timp ce brokerii furnizează motorul de indexare și interfața de interogare. Brokerii indexează actualizarea pe baza informațiilor primite de la colecționari și alți brokeri. Ele pot filtra informațiile. Multe motoare de căutare folosesc astăzi acest tip de arhitectură.

Motoarele de căutare și clasarea paginilor

Când creăm o interogare într-un motor de căutare, rezultatele sunt afișate în într-o anumită ordine. Majoritatea dintre noi au tendința de a vizita paginile de sus și de a le ignora pe cele de jos. Acest lucru se datorează faptului că credem că primele câteva pagini sunt mai relevante pentru interogarea noastră. Deci, toată lumea este interesată ca paginile lor să fie clasate în primele zece rezultate ale motoarelor de căutare.

Cuvintele enumerate în interfața de interogare a motorului de căutare sunt Cuvinte cheie, care au fost solicitate în motoarele de căutare. Sunt o listă de pagini legate de cuvintele cheie solicitate. În timpul acestui proces, motoarele de căutare preia acele pagini care au apariții frecvente ale acestor cuvinte cheie. Ei caută relații între cuvintele cheie. Contează și plasarea cuvintelor cheie, la fel ca și clasarea paginilor care le conțin. Cuvintele cheie care apar în titlurile paginilor sau adresele URL primesc mai multă pondere. Paginile care au link-uri care indică către ele le fac și mai populare. Dacă multe alte site-uri leagă la o pagină, aceasta este văzută ca valoroasă și mai relevantă.

Există un algoritm de clasare pe care îl folosește fiecare motor de căutare. Algoritmul este o formulă computerizată concepută pentru a furniza pagini relevante la cererea unui utilizator. Fiecare motor de căutare poate avea un algoritm de clasare diferit care analizează paginile din baza de date a motorului pentru a determina răspunsuri relevante la interogările de căutare. Motoarele de căutare indexează diferite informații în mod diferit. Aceasta înseamnă că o anumită interogare adresată la două motoare de căutare diferite poate returna pagini comenzi diferite sau extract pagini diferite. Popularitatea unui site web sunt factori care determină relevanța. Popularitatea prin clicuri a unui site este un alt factor care determină rangul acestuia. Aceasta este o măsură a cât de des este vizitat un site.

Webmasterii încearcă să păcălească algoritmii motoarelor de căutare pentru a crește clasamentul site-ului lor în rezultatele căutării. Umplerea paginilor site-ului cu cuvinte cheie sau utilizarea meta-etichetelor pentru a înșela strategiile de clasare în motoarele de căutare. Dar motoarele de căutare sunt destul de inteligente! Își îmbunătățesc algoritmii, astfel încât mașinațiunile webmasterilor să nu afecteze rezultatele căutării.

Trebuie să înțelegeți că chiar și paginile de după primele câteva din listă pot conține exact informațiile pe care le căutați. Dar fiți sigur că motoarele de căutare bune vă vor aduce întotdeauna pagini extrem de relevante în cea mai bună ordine!

Am lansat o nouă carte, Social Media Content Marketing: How to Get Inside Your Followers' Heads and Make them to Love with Your Brand.

Internetul este un lucru atât de mare. Și are de toate. Chat cu prietenii? Poftim - Facebook. Album foto - pe Instagram. Cumpăr o dacha? Am deja The Jolly Farmer. De cât timp folosești enciclopedia? De ce, pentru că sunt oameni care știu totul. ȘI Astăzi aș dori să aduc un omagiu acestor servicii minunate. Sau, mai degrabă, să-ți spun despre cum funcționează căutarea Yandex.

Îți amintești de Hermione din saga Harry Potter? De ce crezi că era o știe-totul atât de supraeducată? Așa e, pentru că mergeam constant undeva, citeam despre tot felul de poțiuni, studiam diverse vrăji, întrebam profesorii despre toate punctele de neînțeles. În general, am făcut totul pentru a-mi extinde baza de cunoștințe. Motorul de căutare Yandex funcționează exact în același mod. Chiar înainte să-i pui o întrebare, a aflat deja ceva despre subiectul tău și l-a salvat în pușculița lui.

Cum se formează baza de date de căutare Yandex

Păianjenii World Wide Web

Cunoaște câteva trilioane de adrese URL. Și în fiecare zi studiază câteva miliarde dintre ele. Acest lucru este realizat de roboți și crawler speciali spider. Ei vizitează pagina, analizează conținutul, fac o copie și o trimit la server. Și apoi trec prin link-uri către alții pagini. Acesta este modul în care motorul de căutare ajunge să cunoască site-ul. Urmează etapa de indexare.

Dacă faceți calcule matematice simple, puteți constata că păianjenii Yandex vor accesa cu crawlere toate paginile cunoscute în aproximativ 2 ani. Dar acest lucru nu va fi adevărat, deoarece numărul de adrese URL este în continuă creștere
=> munca de creare a unei baze de date de căutare este nesfârșită.

Indexarea

Definirea unui site este un proces adăugând tot ce este important informații despre pagină din baza de date a motorului de căutare. Adică se determină limba, se generează date despre cuvintele individuale și se scot toate linkurile care ies către alte pagini. În plus, Yandex are un instrument special numit jurnal Yandex. Studiază modul în care utilizatorul se comportă în rezultatele căutării: pe ce face clic și pe ce nu face clic. Pe baza tuturor parametrilor primiți, se stabilește indexul de căutare al site-ului.

Jurnalele Yandex sunt utilizate pe scară largă nu numai pentru indexare, ci și pentru clasare.

Compilarea unei baze de date de căutare

Indicii de căutare obținuți în etapa anterioară sunt trimiși în baza de date de căutare. Yandex Search operează pe platforma software mapreduce . Aici datele se transformă în fișiere și „rămân în viață”.

Volumul total de date YT este de aproximativ 50 petaocteți = 51.200 TB.

Baza de date de căutare are o actualizare săptămânală - actualizare. Acesta este momentul în care robotul de căutare Yandex, după ce a descărcat un anumit număr de fișiere și a calculat toate caracteristicile necesare pentru ele, decide că aceste informații pot fi adăugate la căutare.

Potrivit statisticilor lui Igor Ashmanov, specialist în motoarele de căutare pe Internet, caracterul complet al bazei de date de căutare este Yandex (roșu pe grafic) de câteva ori mai mare decât cel mai apropiat concurent al lor Google (negru).

În timp ce indexul necesită timp și apare într-o manieră complexă pentru o cantitate mare de date simultan. Prin urmare, Yandex are o cale rapidă specială care poate adăuga și livra utilizatorului fișiere individuale, urgente. Ei bine, de exemplu, știri în timp real.

Cum funcționează căutarea Yandex în sine

Orice solicitare în motorul de căutare Yandex merge conform următoarei scheme.

Echilibratoarele sunt mașini care adună producția.
Rezultatele căutării sunt formate din rezultatele a trei metacăutări medii. Lasă-mă să explic ce înseamnă asta. În rezultatele căutării vedeți rezultatele interogării dvs. după pagini, imagini și videoclipuri. Acest lucru se întâmplă deoarece interogarea dvs. trece prin trei indecși diferiți. Și de-a lungul lor coboară în foarte, foarte adâncimile bazei de date de căutare, împărțite în câteva mii de bucăți. Acest proces este denumit grupare de căutare.

Lucrarea clusterului de căutare constă în functionare peste un milion de copii ale diverselor programe. Ei îndeplinesc tot felul de sarcini, au cerințe de sistem diferite și toți trebuie să „trăiască” undeva. Prin urmare, gruparea de căutare ocupă și o cantitate imensă de găzduire hardware de computer.

Pentru a stoca și a transfera toate programele și datele către ele, Yandex folosește un tracker intern de torrent. Numărul de mâini pe acesta este mai mare decât pe cel mai mare tracker de pirați din lume, The Pirate Bay.

Să revenim la emiterea de rezultate.
Cele mai relevante sunt incluse în rezultatele căutării, relevante documente de interogare de căutare. Urmează clasarea - ordonarea rezultatelor căutării. Se face folosind o formulă specială. Pentru a se asigura că ordinea rezultatelor este de înaltă calitate, actualizată și cât mai relevantă posibil de fiecare dată, dezvoltatorii Yandex au venit cu un lucru foarte tare.

O metodă de învățare automată utilizată pentru a construi o formulă de clasare Yandex. El modernizează constant această schemă: construiește combinații, adaugă și elimină factori și stabilește cote. O altă caracteristică importantă a acestei metode este capacitatea de a personaliza formula de clasare pentru categorii de interogări foarte specializate. Adică pentru individ cereri, de exemplu, despre cinema sau computer jocuri, puteți îmbunătăți calitatea căutării. În același timp, clasarea pentru alte clase de interogări nu se va deteriora.

Prima formulă de clasare Yandex a fost de aproximativ 10 octeți. În acest moment - aproximativ 100 de megaocteți.

Sarcina motorului de căutare nu este doar să găsească ace în grădini de fân, ci și să le identifice pe cele mai ascuțite. Și majoritatea Este uimitor cum funcționează căutarea Yandex. Rezultatul este dat într-o fracțiune de secunde. Primele zece cele mai relevante interogări sunt de obicei toate nevoile utilizatorului. Dacă nu găsim ceea ce căutăm în aceste interogări, atunci încercăm altceva solicitați sau schimbați motorul de căutare. Dar mai devreme sau mai târziu: „Totul va fi găsit!”

Capturi de ecran preluate din prelegerea lui Peter Popov.

pictograma de Arthur Shlain

Bună ziua, dragi cititori ai blogului meu SEO. . Acest articol este despre cum funcționează motorul de căutare Yandex ce tehnologii și algoritmi folosește pentru a clasifica site-urile și ce face pentru a pregăti un răspuns pentru utilizatori. Mulți oameni știu că acest flagship al căutării rusești dă tonul în Runet, deține cea mai mare bază de date din Eurasia, gestionează conținutul a peste un miliard de pagini și cunoaște răspunsul la orice întrebare. Conform datelor Liveinternet pentru august 2012, cota Yandex în Rusia este de 60,5%. Audiența lunară a portalului este de 48,9 milioane de oameni. Dar cel mai important lucru pentru noi, bloggerii, este modul în care motorul de căutare primește cererile noastre, cum le procesează și care este rezultatul ca rezultat. Pe de o parte, cunoașterea și înțelegerea acestor informații ne face mai ușor să folosim toate resursele Yandex, pe de altă parte, este mai ușor să ne promovăm blogurile. Prin urmare, îmi propun să privim împreună cu mine cele mai importante tehnologii ale celui mai bun motor de căutare Runet.

Când un utilizator de internet dorește pentru prima dată să apeleze la un motor de căutare pentru informații, el poate avea o întrebare: „Cum funcționează căutarea?” Dar când o primește, această întrebare se schimbă adesea în alta: „De ce atât de repede?” Și într-adevăr, de ce căutarea unui fișier pe un computer durează 20 de secunde, iar rezultatul unei solicitări de la o întreagă rețea de computere din întreaga lume apare într-o secundă? Cel mai interesant lucru este că la primele două întrebări (cum are loc căutarea și de ce 1 secundă) se poate răspunde într-un singur răspuns - motorul de căutare s-a pregătit în avans pentru solicitarea utilizatorului.

Pentru a înțelege principiul de funcționare al Yandex, ca și alte motoare de căutare, să facem o analogie cu carte de telefon. Pentru a găsi orice număr de telefon, trebuie să cunoașteți numele de familie al abonatului, iar orice căutare în acest caz durează maximum un minut, deoarece toate paginile directorului sunt continue index alfabetic. Dar imaginați-vă dacă căutarea a fost efectuată folosind o altă opțiune, în care numerele de telefon au fost ordonate după numerele în sine. După astfel de căutări, care deja vor dura mai mult de perioadă lungă de timp, numerele vor rămâne în fața ochilor căutătorului foarte mult timp. 🙂

La fel, motorul de căutare afișează toate informațiile de pe Internet într-o formă convenabilă pentru acesta. Și cel mai important, toate aceste date sunt plasate în directorul ei în avans, înainte ca vizitatorul să sosească cu cererile sale. Adică, atunci când punem o întrebare Yandex, acesta știe deja răspunsul nostru. Și ni-l oferă într-o secundă. Dar această secundă include o serie de procese importante, pe care acum le vom analiza în detaliu.

Indexarea Internetului

Yandex ru colectează toate informațiile pe care le poate pune mâna pe internet. Folosind echipamente speciale, tot conținutul este revizuit, inclusiv imaginile bazate pe parametri vizuali. Motorul de căutare este angajat într-o astfel de colectare, iar procesul de colectare și pregătire a datelor se numește indexare. Baza unei astfel de mașini este sistem informatic, care altfel se numește robot de căutare. Acesta accesează cu crawlere în mod regulat site-urile indexate, le verifică pentru conținut nou și, de asemenea, scanează Internetul în căutarea pagini șterse. Dacă descoperă că o astfel de pagină nu mai există sau este închisă de la indexare, o elimină din căutare.

Cum găsește un robot de căutare site-uri noi? În primul rând, mulțumim link-urilor de pe alte site-uri. Pentru că dacă un link este plasat pe o nouă resursă web de pe un site deja indexat, atunci data viitoare când îl vei vizita pe al doilea, robotul îl va vizita pe primul. În al doilea rând, există un serviciu minunat, numit popular „addurilka” (din expresia în Limba engleză-addurl - adăugați o adresă). În el puteți introduce adresa noului dvs. site, care va fi vizitat de un robot de căutare după un timp. În al treilea rând, cu ajutorul program special Yandex.Bar urmărește vizitele utilizatorilor care îl folosesc. În consecință, dacă o persoană ajunge pe o nouă resursă web, un robot va apărea în curând acolo.

Sunt toate paginile incluse în căutare? Milioane de pagini sunt indexate în fiecare zi. Printre acestea se numără pagini de diferite calități, care pot conține informații diferite - de la conținut unic până la gunoi complet. În plus, după cum spun statisticile, există mult mai mult gunoi pe Internet. Robotul de căutare analizează fiecare document folosind algoritmi speciali. El determină dacă are vreunul informatii utile dacă poate răspunde la cererea utilizatorului. Dacă nu, atunci astfel de pagini nu sunt acceptate ca „cosmonauți”, dar dacă da, atunci sunt incluse în căutare.

După ce un robot a vizitat o pagină și a determinat utilitatea acesteia, aceasta apare în stocarea motorului de căutare. Aici analizăm orice document până la elementele de bază, așa cum spun maeștrii centrului auto - până la roți. Pagina este ștearsă de markup html, textul curat este supus unui inventar complet - se calculează locația fiecărui cuvânt. În această formă dezasamblată, pagina se transformă într-un tabel cu cifre și litere, care altfel se numește index. Acum, indiferent de ce se întâmplă cu resursa web care conține această pagină, cea mai recentă copie a acesteia este întotdeauna disponibilă în căutare. Chiar dacă site-ul nu mai există, copii ale documentelor sale sunt stocate pe Internet de ceva timp.

Fiecare index, împreună cu datele despre tipurile de documente, codificare, limbă, împreună cu copiile, constituie baza de date de cautare . Este actualizat periodic, deci se află pe servere speciale cu ajutorul cărora sunt procesate solicitările de la utilizatorii motoarelor de căutare.

Cât de des are loc procesul de indexare? În primul rând, depinde de tipurile de site-uri. Primul tip de resursă web modifică foarte des conținutul paginilor sale. Adică, atunci când un robot de căutare ajunge la aceste pagini de fiecare dată, acestea conțin conținut diferit de fiecare dată. Data viitoare nu veți putea găsi nimic folosindu-le, așa că astfel de site-uri nu sunt incluse în index. Al doilea tip de site este un depozit de date, pe paginile căruia se adaugă periodic link-uri către documente pentru descărcare. Conținutul unui astfel de site de obicei nu se schimbă, așa că robotul îl vizitează extrem de rar. Alte site-uri depind de frecvența actualizării materialului. Aceasta înseamnă următoarele: cu cât apare mai rapid conținut nou pe site, cu atât mai des apare robotul de căutare. Și se acordă prioritate în primul rând celor mai importante resurse web (un site de știri este cu un ordin de mărime mai important decât orice blog, de exemplu).

Indexarea vă permite să îndepliniți prima funcție a unui motor de căutare - colectarea de informații pe pagini noi de pe Internet. Dar Yandex are și o a doua funcție - căutarea unui răspuns la solicitarea unui utilizator într-o bază de date de căutare deja pregătită.

Yandex pregătește un răspuns

Procesul de procesare a cererii și emiterea de răspunsuri relevante este gestionat de sistem informatic "Metasearch" . Pentru activitatea sa, mai întâi colectează toate informațiile de intrare: din ce regiune a fost făcută cererea, din ce clasă aparține, dacă există erori în cerere etc. După o astfel de procesare, metasearch verifică dacă există exact aceleași interogări cu aceiași parametri în baza de date. Dacă răspunsul este da, atunci sistemul arată utilizatorului rezultatele salvate anterior. Dacă o astfel de întrebare nu există în baza de date, metacăutarea se adresează bazei de date de căutare care conține datele indexului.

Și aici se întâmplă lucruri uimitoare. Imaginați-vă că există un computer super-puternic care stochează întregul Internet procesat de roboții de căutare. Utilizatorul setează o interogare și începe o căutare în celulele de memorie pentru toate documentele implicate în interogare. Răspunsul a fost găsit și toată lumea este fericită. Dar să luăm un alt caz când există o mulțime de cereri care conțin aceleași cuvinte în corpul lor. Sistemul trebuie să treacă prin aceleași celule de memorie de fiecare dată, ceea ce poate crește semnificativ timpul necesar procesării datelor. În consecință, timpul crește, ceea ce poate duce la pierderea utilizatorului - acesta va apela la un alt motor de căutare pentru ajutor.

Pentru a evita astfel de întârzieri, toate copiile din indexul site-ului sunt distribuite peste tot diferite computere. După transmiterea cererii, metasearch instruiește astfel de servere să caute fragmentul lor de text. După care, toate datele de la aceste mașini sunt returnate calculator central, combină toate rezultatele obținute și oferă utilizatorului primele zece cele mai bune răspunsuri. Cu această tehnologie, două păsări sunt ucise simultan: timpul de căutare este redus de mai multe ori (răspunsul se obține într-o fracțiune de secundă) și, datorită creșterii platformelor, informațiile sunt duplicate (datele nu se pierd din cauza defecțiunilor bruște) . Calculatoarele în sine cu informații duplicate formează un centru de date - aceasta este o cameră cu servere.

Când un utilizator de motor de căutare solicită o interogare, de 20 de ori din 100, rezultatele la întrebare sunt ambigue. De exemplu, dacă scrie cuvântul „Napoleon” în bara de căutare, atunci nu se știe încă ce răspuns așteaptă - o rețetă de tort sau o biografie a marelui comandant. Sau expresia „Frații Grimm” - basme, filme, grup muzical. Pentru a restrânge o astfel de gamă posibilă de obiective la răspunsuri specifice, Yandex are o tehnologie specială Gamă. Ia în considerare nevoile utilizatorilor folosind statistici interogări de căutare. Dintre toate întrebările puse în Yandex de către vizitatori, Spectrum evidențiază diverse obiecte(nume de persoane, titluri de cărți, modele de mașini etc.) Aceste obiecte sunt împărțite în câteva categorii. În prezent există peste 60 de astfel de categorii. Cu ajutorul lor, motorul de căutare are în baza sa de date diferite semnificații ale cuvintelor în interogările utilizatorilor. Interesant este că aceste categorii sunt verificate periodic (analiza are loc de câteva ori pe săptămână), ceea ce permite Yandex să ofere mai precis răspunsuri la întrebările puse.

Pe baza tehnologiei Spectrum, Yandex a organizat solicitări de dialog. Acestea apar sub bara de căutare în care utilizatorul introduce interogarea ambiguă. Acest rând reflectă categoriile cărora le poate aparține subiectul întrebării. Rezultatele viitoare ale căutării depind de alegerea utilizatorului pentru această categorie.

De la 15 la 30% din toți utilizatorii motorului de căutare Yandex doresc să primească doar informații locale (date din regiunea în care locuiesc). De exemplu, despre filme noi în cinematografele din orașul tău. Prin urmare, răspunsul la o astfel de solicitare ar trebui să fie diferit pentru fiecare regiune. În acest sens, Yandex își folosește tehnologia căutare bazată pe regiuni . De exemplu, acestea sunt răspunsurile pe care le pot primi rezidenții care caută un repertoriu de filme în cinematograful lor Oktyabr:

Dar acesta este rezultatul pe care locuitorii orașului Stavropol îl vor primi pentru aceeași cerere:

Regiunea utilizatorului este determinată în primul rând de adresa sa IP. Uneori, aceste date nu sunt exacte, deoarece un număr de furnizori pot lucra în mai multe regiuni simultan și, prin urmare, pot schimba adresele IP ale utilizatorilor lor. În principiu, dacă vi se întâmplă acest lucru, vă puteți schimba cu ușurință regiunea în setările din motorul de căutare. Este listat în colțul din dreapta sus al paginii de rezultate. Îl poți schimba.

Motor de căutare Yandex ru - rezultate de răspuns

Când Metasearch a pregătit un răspuns, motorul de căutare Yandex ar trebui să îl afișeze pe pagina de rezultate. Este o listă de link-uri către documente găsite cu câteva informații despre fiecare. Sarcina tehnologiei de emitere a rezultatelor este de a oferi utilizatorului cele mai relevante răspunsuri în cel mai informativ mod. Șablonul pentru un astfel de link arată astfel:

Să ne uităm la această formă de rezultat mai detaliat. Pentru titlul rezultatului căutării Yandex folosește adesea numele titlului paginii (ceea ce optimizatorii scriu în eticheta de titlu). Dacă nu este acolo, atunci cuvintele din titlul articolului sau postării apar aici. Dacă textul titlului este mare, motorul de căutare plasează în acest câmp fragmentul care este cel mai relevant pentru interogarea dată.

Foarte rar, dar se întâmplă ca titlul să nu se potrivească cu conținutul cererii. În acest caz, Yandex își formează titlul rezultatului căutării folosind textul din articol sau postare. Cu siguranță va avea cuvinte de interogare.

Pentru fragment motorul de căutare folosește tot textul de pe pagină. Selectează toate fragmentele în care este prezent răspunsul la interogare, apoi îl selectează pe cel mai relevant și inserează link-uri către document în câmpul formularului. Datorită acestei abordări, un optimizator competent îl poate reface după ce a văzut un fragment, îmbunătățind astfel atractivitatea conexiunii.

Pentru a percepe mai bine rezultatul solicitării unui utilizator, titlurile sunt formatate ca linkuri în text (evidențiate în albastru cu subliniere). Pentru a face resursa web atractivă și recunoscută, se adaugă o favicon - o mică pictogramă corporativă a site-ului. Apare în stânga textului pe primul rând înainte de titlu. Toate cuvintele care au fost incluse în cerere în răspuns sunt, de asemenea, evidențiate cu caractere aldine pentru a ușura percepția.

Recent, motorul de căutare Yandex a adăugat diverse informații la fragment, care vor ajuta utilizatorul să-și găsească răspunsul și mai rapid și mai precis. De exemplu, dacă un utilizator scrie numele unei organizații în cererea sa, atunci Yandex va adăuga adresa, numerele de contact și un link către locația din hărțile geografice în fragment. Dacă motorul de căutare este familiarizat cu structura site-ului, care conține un document cu un răspuns pentru utilizator, îl va afișa cu siguranță. În plus, Yandex poate adăuga imediat cele mai vizitate pagini ale unei astfel de resurse web la fragment, astfel încât, dacă dorește, vizitatorul să poată merge imediat la secțiunea de care are nevoie, economisindu-și timpul.

Există fragmente care conțin prețul unui produs pentru un magazin online, ratingul unui hotel sau restaurant sub formă de stele etc. informații interesante cu diverse figuri despre obiecte din documentele de căutare. Scopul acestor informații este de a oferi o listă completă de date despre acele articole sau obiecte care sunt de interes pentru utilizator.

În general, cu diverse exemple, pagina cu răspunsuri va arăta astfel:

Clasament și evaluatori

Sarcina lui Yandex include nu numai căutarea tuturor opțiuni posibile răspuns, dar și selecția celor mai bune (relevante). La urma urmei, utilizatorul nu va scotoci prin toate linkurile pe care Yandex i le va furniza ca rezultat al căutării. Procesul de organizare a rezultatelor căutării se numește clasament . Adică clasamentul este cel care determină calitatea răspunsurilor propuse.

Există reguli după care Yandex determină paginile relevante:

Site-urile care degradează calitatea căutării vor fi retrogradate în pozițiile din pagina cu rezultate. De obicei, acestea sunt resurse web ai căror proprietari încearcă să înșele motorul de căutare. De exemplu, acestea sunt site-uri cu pagini care conțin text fără sens sau invizibil. Desigur, este vizibil și de înțeles pentru un robot de căutare, dar nu pentru un vizitator care citește acest document. Sau site-uri care, atunci când dau clic pe un link din zona rezultatelor căutării, transferă imediat utilizatorul pe un site complet diferit.
Site-urile care conțin conținut erotic nu sunt incluse în rezultate sau sunt mult reduse în clasament. Acest lucru se datorează faptului că astfel de resurse web folosesc adesea metode de promovare agresive.
Site-urile infectate cu viruși nu sunt reduse în rezultatele căutării și nu sunt excluse din rezultatele căutării - în acest caz, utilizatorul este informat despre pericol folosind o pictogramă specială. Acest lucru se datorează faptului că Yandex presupune că astfel de resurse web pot conține documente importante la cererea unui vizitator al motorului de căutare.

De exemplu, acesta este modul în care Yandex va clasifica site-urile pentru interogarea „măr”:

Pe lângă factorii de clasare, Yandex folosește mostre speciale cu întrebări și răspunsuri pe care utilizatorii motoarelor de căutare le consideră cele mai potrivite. Nicio mașină nu poate face astfel de mostre acest moment- aceasta este prerogativa omului. În Yandex, sunt chemați astfel de specialiști evaluatori. Sarcina lor este să analizeze complet toate documentele de căutare și să evalueze răspunsurile la întrebările specificate. Ei selectează cele mai bune răspunsuri și creează un set special de antrenament. În acesta, motorul de căutare vede relația dintre paginile relevante și proprietățile acestora. Având astfel de informații, Yandex poate selecta formula optimă de clasare pentru fiecare solicitare. Metoda de construire a unei astfel de formule se numește Matrixnet. Avantajul acestui sistem este că este rezistent la supraajustare, ceea ce face posibilă luarea în considerare un numar mare de factori de clasare fără a crește numărul de scoruri și modele inutile.

La sfârșitul postării mele, vreau să vă arăt statistici interesante colectate de motorul de căutare Yandex în procesul de lucru.

1. Popularitatea numelor personale în Rusia și orașele rusești (date preluate de la bloggeri și conturi de utilizator retele socialeîn martie 2012).

Mare Văzător

În 1863, marele scriitor Jules Verne a creat următoarea sa carte, „Parisul în secolul al XX-lea”. În el, a descris în detaliu metroul, mașina, scaunul electric, computerul și chiar internetul. Cu toate acestea, editorul a refuzat să tipărească cartea și a rămas acolo timp de mai bine de 120 de ani până când a fost găsită de strănepotul lui Jules Verne în 1989. Cartea a fost publicată în 1994.