Metode corecte pentru eliminarea paginilor duplicate. Metode corecte de eliminare a paginilor duplicate Metode de eliminare a paginilor duplicate


Combaterea paginilor duplicate

Proprietarul poate nici măcar să nu bănuiască că unele pagini de pe site-ul său au copii - cel mai adesea acesta este cazul. Paginile se deschid, totul este în regulă cu conținutul lor, dar dacă doar acordați atenție paginii, veți observa că adresele sunt diferite pentru același conținut. Ce înseamnă? Pentru utilizatorii în viață, absolut nimic, deoarece sunt interesați de informațiile de pe pagini, dar motoarele de căutare fără suflet percep acest fenomen cu totul diferit - pentru ei este complet pagini diferite cu acelasi continut.

Sunt paginile duplicate dăunătoare? Deci, dacă un utilizator obișnuit nici măcar nu poate observa prezența duplicatelor pe site-ul dvs., atunci motoarele de căutare vor determina imediat acest lucru. La ce reacție ar trebui să vă așteptați de la ei? Deoarece copiile sunt văzute în esență ca pagini diferite, conținutul de pe ele încetează să fie unic. Și acest lucru are deja un impact negativ asupra clasamentelor.

De asemenea, prezența dublurilor estompează imaginea pe care optimizatorul a încercat să o concentreze pe pagina de destinație. Din cauza duplicaturilor, poate ajunge pe o pagină complet diferită de cea în care doreau să o mute. Adică, efectul legăturilor interne și al legăturilor externe poate fi mult redus.

În marea majoritate a cazurilor, duplicatele sunt de vină - din cauza setărilor incorecte și a lipsei de atenție adecvată din partea optimizatorului, sunt generate copii clare. Aceasta este problema cu multe CMS-uri, de exemplu Joomla. Este dificil să găsești o rețetă universală pentru a rezolva problema, dar poți încerca să folosești unul dintre pluginuri pentru ștergerea copiilor.

Apariția unor duplicate neclare, în care conținutul nu este complet identic, se datorează de obicei vina webmasterului. Astfel de pagini se găsesc adesea pe site-urile magazinelor online, unde paginile cu carduri de produse diferă doar în câteva propoziții cu o descriere, iar restul conținutului, constând din blocuri end-to-end și alte elemente, este același.

Mulți experți susțin că un număr mic de duplicate nu va dăuna site-ului, dar dacă există mai mult de 40-50%, atunci resursa se poate confrunta cu dificultăți serioase în timpul promovării. În orice caz, chiar dacă nu sunt multe copii, merită să aveți grijă să le eliminați, astfel încât veți scăpa cu siguranță de problemele cu duplicatele.

Găsirea paginilor de copiere Există mai multe modalități de a găsi pagini duplicat, dar mai întâi ar trebui să contactați mai multe motoare de căutare și să vedeți cum văd site-ul dvs. - trebuie doar să comparați numărul de pagini din indexul fiecăreia. Acest lucru este destul de simplu de făcut fără a recurge la niciunul fonduri suplimentare: în Yandex sau Google, introduceți doar host:yoursite.ru în bara de căutare și uitați-vă la numărul de rezultate.




Dacă, după o verificare atât de simplă, cantitatea diferă foarte mult, de 10-20 de ori, atunci aceasta, cu un anumit grad de probabilitate, poate indica conținutul duplicatelor într-una dintre ele. Copierea paginilor poate să nu fie de vină pentru această diferență, dar totuși dă naștere la căutări mai aprofundate și mai amănunțite. Dacă site-ul este mic, atunci puteți număra manual numărul de pagini reale și apoi le puteți compara cu indicatorii din motoarele de căutare.

Puteți căuta pagini duplicat după adresa URL în rezultatele motorului de căutare. Dacă trebuie să aibă CNC, atunci paginile cu URL-uri care conțin caractere de neînțeles, precum „index.php?s=0f6b2903d”, vor ieși imediat în evidență din lista generală.

O altă modalitate de a determina prezența duplicatelor folosind motoarele de căutare este căutarea prin fragmente de text. Procedura pentru o astfel de verificare este simplă: trebuie să introduceți un fragment de text de 10-15 cuvinte din fiecare pagină în bara de căutare și apoi să analizați rezultatul. Dacă există două sau mai multe pagini în rezultatele căutării, atunci există copii, dar dacă există un singur rezultat, atunci această pagină nu are duplicate și nu trebuie să vă faceți griji.

Este logic că, dacă site-ul este format dintr-un număr mare de pagini, atunci o astfel de verificare se poate transforma într-o sarcină imposibilă pentru optimizator. Pentru a minimiza costurile de timp, puteți utiliza programe speciale. Unul dintre aceste instrumente, care este probabil familiar profesioniștilor cu experiență, este programul Xenu’s Link Sleuth.


Pentru a verifica site-ul, trebuie să deschideți proiect nou, selectând „Verificare URL” din meniul „Fișier”, introduceți adresa și faceți clic pe „OK”. După aceasta, programul va începe să proceseze toate adresele URL ale site-ului. După finalizarea verificării, trebuie să exportați datele primite în oricare editor convenabilși începeți să căutați duplicate.

Pe lângă metodele de mai sus, panourile Yandex.Webmaster și Google Webmaster Tools au instrumente pentru verificarea indexării paginilor care pot fi folosite pentru a căuta duplicate.

Metode de rezolvare a problemei După ce au fost găsite toate duplicatele, acestea vor trebui eliminate. Acest lucru se poate face și în mai multe moduri, dar fiecare caz specific necesită propria sa metodă și este posibil să trebuiască să le folosiți pe toate.

  • Paginile de copiere pot fi șterse manual, dar această metodă este mai probabil să fie potrivită doar pentru acele duplicate care au fost create manual din cauza neatenției webmasterului.
  • Redirecționarea 301 este excelentă pentru îmbinarea paginilor de copiere ale căror adrese URL diferă prin prezența și absența www.
  • Soluția la problema cu duplicatele folosind eticheta canonică poate fi folosită pentru copii neclare. De exemplu, pentru categoriile de produse dintr-un magazin online care au duplicate care diferă în sortare în funcție de diverși parametri. Canonical este, de asemenea, potrivit pentru versiuni tipărite ale paginilor și altele cazuri similare. Se aplică destul de simplu - atributul rel=”canonic” este specificat pentru toate copiile, dar nu pentru pagina principală, care este cea mai relevantă. Codul ar trebui să arate cam așa: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/ și să fie în eticheta head.
  • Configurarea fișierului robots.txt poate ajuta în lupta împotriva duplicaturilor. Directiva Disallow va bloca accesul la duplicate pentru roboții de căutare. Puteți citi mai multe despre sintaxa acestui fișier în buletinul nostru informativ.

Ce sunt paginile duplicate- acestea sunt pagini cu absolut același conținut și adrese URL diferite.

Pot exista mai multe motive pentru duplicarea paginilor pe un site web, dar aproape toate sunt legate într-un fel sau altul de sistemul de management al conținutului site-ului. Cel mai bine este să luați măsuri pentru a preveni apariția paginilor duplicate în etapa de creare a site-ului. Dacă site-ul dvs. funcționează deja, asigurați-vă că verificați dacă există pagini duplicate, altfel problemele serioase cu indexarea și SEO nu pot fi evitate.

Există mai multe moduri de a scăpa de paginile site-ului web duplicat. Unele pot ajuta la combaterea copiilor existente ale paginilor, în timp ce altele pot ajuta la prevenirea apariției lor în viitor.

Cum să găsești pagini duplicate pe un site web?

Dar mai întâi, trebuie să verificați dacă există pagini duplicate pe resursa dvs. și, dacă da, ce tip de pagini sunt acestea. Cum să o facă?

  • Metoda 1. Interogarea de căutare „site:”

Puteți folosi comanda „site:”. Această comandă returnează rezultatele căutării pentru un anumit site. Introducând site:www.yoursite.com/page1, veți vedea dacă există duplicate ale acestei pagini în căutare.

  • Metoda 2. Căutare după fragment de articol

Selectăm o mică bucată de text din pagina pentru care căutăm duplicate și o lipim în căutare. Rezultatele căutării vor afișa imediat toate duplicatele indexate ale paginii dorite.

Cum să faci față paginilor duplicate?

redirecționare 301

Una dintre cele mai eficiente, dar în același timp cele mai dificile metode de a trata duplicatele este o redirecționare 301 care lipește paginile specificate și duplicatele dispar din indexul motorului de căutare în timp;

Când un robot de căutare lovește o pagină duplicată cu o redirecționare 301, serverul web o va redirecționa automat către pagina originală. Toate redirecționările sunt scrise în fișierul .htaccess, care se află în directorul rădăcină al site-ului. Nu ar trebui să utilizați o redirecționare 301 (redirecționare permanentă) dacă intenționați să utilizați pagina de copiere într-un fel în viitor. Puteți utiliza o redirecționare 302 (temporară) pentru aceasta. Atunci paginile nu se vor lipi împreună.

Când utilizați o redirecționare 301 pentru a șterge pagini duplicate Din index, în primul rând, trebuie să vă decideți asupra oglinzii principale a site-ului. De exemplu, indicăm ca oglindă principală http://site.ru Tot ce trebuie să faci este să o schimbi la adresa site-ului tău web

  • 301 Redirecționare de la www.site.ru la site.ru

Pentru a face acest lucru, trebuie să adăugați următoarele linii în fișierul .htaccess (fișierul se află în rădăcina site-ului) imediat după RewriteEngine On :

RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

  • 301 redirecționare de la site.ru/index.php la site.ru


RewriteRule ^index\.php$ http://site.ru/

Într-un mod similar, puteți scăpa de duplicatele precum:

http://site.ru/index
http://site.ru/index.html
http://site.ru/index.htm

Dacă, de exemplu, doriți să îmbinați paginile http://site.ru și http://site.ru /page123, atunci următoarele ar trebui să fie scrise în fișierul .htaccess:

Redirecționare 301 /page123 http://site.ru

Acum, când încercați să accesați pagina http://site.ru/page123, veți fi redirecționat către pagina principală.

O altă modalitate de a indica originalul este să scrieți așa-numitul pe pagini duplicate. legături canonice. Acestea sunt legături cu atributul rel=canonic, cu alte cuvinte, în blocul de cap al unei astfel de pagini scrie:

Dacă motoarele de căutare întâlnesc un astfel de link, ei înțeleg care dintre numeroasele copii ale paginilor este originalul și îl indexează.

De exemplu, în exemplul de mai sus, site-ul avea 2 pagini duplicat:

http://site.ru/load
http://site.ru/load/

Prin specificarea atributului rel=canonical pe pagina http://site.ru/load, vom arăta motoarelor de căutare că această pagină este cea principală și este această pagină care trebuie indexată.

Unele CMS (de exemplu, Joomla!) pot crea automat astfel de link-uri, la altele această operațiune este efectuată de diverse plugin-uri. Cu toate acestea, chiar dacă toate paginile duplicat nou create pe site-ul dvs. au linkuri canonice, acest lucru nu va ajuta la rezolvarea problemei duplicatelor existente.

robots.txt

Parțial, problema paginilor duplicate este rezolvată de fișierul robots.txt, care conține recomandări către motoarele de căutare cu o listă de fișiere și foldere care nu trebuie indexate. De ce parțial? Deoarece acest fișier conține recomandări, nu reguli, iar unele motoare de căutare ignoră aceste recomandări.

De exemplu, pentru ca Yandex să elimine paginile vechi duplicate din index, este suficient să scrieți regulile adecvate care interzic indexarea lor în robots.txt. Cu Google situația este puțin mai complicată. Aceleași reguli vor trebui incluse într-un set de instrumente special de la Google, conceput special pentru webmasteri. ÎN webmaster Google Va trebui să setați parametrii de legătură de care avem nevoie în secțiunea „Scanare”.

Când creăm robots.txt, va trebui să folosim directiva Disallow.

  • Robots.txt corect pentru Joomla

Agent utilizator: *
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permite: /include/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Harta site-ului: http://site.ru /sitemap.xml Agent utilizator: Yandex
Nu permiteți: /administrator/
Nu permiteți: /cache/
Nu permite: /include/
Nu permiteți: /limba/
Nu permiteți: /biblioteci/
Nu permiteți: /media/
Nu permiteți: /module/
Nu permiteți: /plugins/
Nu permiteți: /șabloane/
Nu permiteți: /tmp/
Nu permiteți: /xmlrpc/
Gazdă: site.ru
Harta site-ului: http:// site.ru /sitemap.xml

  • Corectați robots.txt pentru Wordpress

Agent utilizator: *
Nu permiteți: /wp-admin
Nu permiteți: /wp-includes
Nu permiteți: /wp-content/cache
Nu permiteți: /wp-content/themes
Disallow: /trackback
Nu permite: */trackback
Nu permiteți: */*/trackback
Nu permiteți: */*/feed/*/
Nu permiteți: */feed
Nu permite: /*?*
Nu permiteți: /tag
Harta site-ului: http://site.ru/sitemap.xml Agent utilizator: Yandex
Nu permiteți: /wp-admin
Nu permiteți: /wp-includes
Nu permiteți: /wp-content/plugins
Nu permiteți: /wp-content/cache
Nu permiteți: /wp-content/themes
Disallow: /trackback
Nu permite: */trackback
Nu permiteți: */*/trackback
Nu permiteți: */*/feed/*/
Nu permiteți: */feed
Nu permite: /*?*
Nu permiteți: /tag
Gazdă: site.ru
Harta site-ului: http://site.ru/sitemap.xml

Ce înseamnă aceste rânduri:

  • Agent utilizator: *- regulile descrise mai jos de acest rând se vor aplica tuturor roboților de căutare
  • Agent utilizator: Yandex- regulile se aplică numai robotului Yandex
  • Permite:- permite indexarea (de obicei nu este scrisă)
  • Nu permiteți: Este interzisă indexarea paginilor ale căror adrese conţin ceea ce este descris în rând.
  • Gazdă: site.ru- Oglinda site-ului principal
  • Harta site-ului:- link către harta site-ului XML
  • "*" - orice succesiune de caractere din adresa paginii

Combaterea paginilor duplicate în Wordpress

Am discutat deja mai sus care ar trebui să fie fișierul robots.txt pentru Wordpress. Acum să vorbim despre pluginuri care vă permit să vă ocupați de duplicate și care sunt în general indispensabile pentru un optimizator de site-uri pe acest motor.

Yoast SEO- Unul dintre cele mai populare plugin-uri pentru Wordpress, permițându-vă să vă ocupați de problema duplicatelor. Cu ajutorul acestuia, puteți forța Wordpress să înregistreze linkuri canonice, să dezactiveze indexarea paginilor paginate (categorii), să ascundă arhivele autorului, să elimine /categoria/ din URL și multe altele.

Pachetul Seo All in One- Un plugin similar, nu mai puțin popular și care realizează funcții similare. Pe care să-l folosiți depinde de dvs.

Cum să eliminați paginile duplicate în Joomla

Chiar dacă Joomla! suporturi crearea automată link-uri canonice, unele duplicate pot ajunge în continuare în indexul motorului de căutare. Pentru a combate duplicatele în Joomla! puteți folosi robots.txt și redirecționarea 301. Fișierul rorbots.txt corect este descris mai sus.

Ei bine, pentru a activa CNC (URL-uri care pot fi citite de om) în Joomla, trebuie doar să redenumiți htaccess.txt în .htaccess și să îl adăugați imediat după RewriteEngine On:

RewriteCond %(HTTP_HOST) ^www.site.ru$
RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://site.ru/

Și, de asemenea, în setările site-ului, bifați următoarele casete:

În acest fel vom scăpa de duplicatele ca www.site.ru și site.ru /index.php deoarece acest CMS are această problemă cu duplicatele. Și motoarele de căutare adesea indexează pagini precum site.ru/index.php. Acum, după toate manipulările, atunci când încercați să accesați o pagină, de exemplu, www.site.ru, vizitatorul va fi redirecționat către pagina principală, adică. site.ru.

Printre pluginurile pentru Joomla le pot recomanda JL Fără dublu- pluginul elimină paginile duplicate în componenta com_content. Este posibilă o redirecționare 301 către pagina corectă sau o eroare 404.

Servicii speciale pentru crearea robots.txt și .htaccess

Dacă abia începeți să stăpâniți construirea de site-uri web, încercați să utilizați serviciile de servicii specializate care vă vor ajuta să generați fișiere robots.txt și .htaccess valide:

seolib.ru- Pe el nu puteți doar să creați, ci și să vă testați robots.txt

htaccess.ru - una dintre cele mai servicii populare, unde puteți crea și selecta diverși parametri pentru fișierul .htaccess generat

Duplicați pagini pe site-uri web sau bloguri, de unde vin și ce probleme pot crea.
Exact despre asta vom vorbi în această postare, vom încerca să înțelegem acest fenomen și să găsim modalități de a minimiza potențialele necazuri pe care ni le pot aduce paginile duplicate de pe site.

Deci hai sa continuam.

Ce sunt paginile duplicate?

Duplicați pagini pe orice resursă webînseamnă acces la aceleași informații la adrese diferite. Astfel de pagini sunt numite și duplicate interne ale site-ului.

Dacă textele de pe pagină sunt complet identice, atunci astfel de duplicate se numesc complete sau clare. Dacă există o potrivire parțială luările sunt numite incomplete sau neclare.

Preluări incomplete– acestea sunt pagini de categorii, pagini cu liste de produse și pagini similare care conțin anunțuri despre materialele site-ului.

Pagini duplicate complete– acestea sunt versiuni imprimabile, versiuni de pagini cu extensii diferite, pagini de arhivă, căutări pe site, pagini cu comentarii etc.

Sursele paginilor duplicate.

Pe acest moment majoritatea duplicatelor paginilor sunt generate când folosind CMS modern– sisteme de management al conținutului, numite și motoare de site-uri web.

Aceasta și WordPress și Joomla și DLEși alte CMS populare. Acest fenomen stresează serios optimizatorii de site-uri web și webmasterii și le provoacă probleme suplimentare.

În magazinele online pot apărea duplicate la afișarea produselor sortate după diverse detalii (producător al produsului, scopul produsului, data fabricației, preț etc.).

Trebuie să ne amintim și de notorii Prefix WWWși decideți dacă îl utilizați în numele domeniului la crearea, dezvoltarea, promovarea și promovarea site-ului.

După cum puteți vedea, sursele duplicatelor pot fi diferite, am enumerat doar cele principale, dar toate sunt bine cunoscute specialiștilor.

Paginile duplicat sunt negative.

În ciuda faptului că mulți oameni nu acordă prea multă atenție apariției duplicatelor, acest fenomen poate crea grave probleme cu promovarea site-ului web.

Motorul de căutare poate lua în considerare duplicatele sunt ca spam-ulși, ca urmare, reduceți serios poziția atât a acestor pagini, cât și a site-ului în ansamblu.

La promovarea unui site cu link-uri, poate apărea următoarea situație. La un moment dat, motorul de căutare va lua în considerare cel mai mult pagină duplicată relevantă, si nu cel pe care il promovezi cu link-uri si toate eforturile si cheltuielile tale vor fi in zadar.

Dar sunt oameni care încearcă folosiți duplicate pentru a crește în greutate la paginile necesare, pagina principală, de exemplu, sau orice alta.

Metode de tratare a paginilor duplicate

Cum să eviți duplicatele sau cum să elimini aspectele negative atunci când apar?
Și, în general, merită să lupți cu asta cumva sau să lași totul la cheremul motoarelor de căutare. Lasă-i să-și dea seama singuri, pentru că sunt atât de deștepți.

Folosind robots.txt

Robots.txt– acesta este un fișier aflat în directorul rădăcină al site-ului nostru și care conține directive pentru roboții de căutare.

În aceste directive, specificăm ce pagini de pe site-ul nostru să indexăm și care nu. De asemenea, putem specifica numele domeniului principal al site-ului și fișierul care conține harta site-ului.

Pentru a preveni indexarea paginilor este folosită directiva Disallow. Acesta este ceea ce folosesc webmasterii pentru a bloca paginile duplicate de la indexare, și nu numai duplicatele, ci orice alte informații care nu au legătură directă cu conținutul paginilor. De exemplu:

Disallow: /search/ - închide paginile de căutare de pe site
Disallow: /*? — închideți paginile care conțin semnul de întrebare „?”
Disallow: /20* — închide paginile arhivei

Folosind fișierul .htaccess

File.htaccess(fără extensie) se află și în directorul rădăcină al site-ului. Pentru a combate duplicatele, acest fișier este configurat pentru a fi utilizat 301 redirecționări.
Această metodă ajută bine la menținerea performanței site-ului când modificarea CMS-ului site-ului sau modificarea structurii acestuia. Rezultatul este redirecționarea corectă fără pierderea masei legăturilor. În acest caz, greutatea paginii de la vechea adresă va fi transferată către pagina de la noua adresă.
Redirecționările 301 sunt folosite și la determinarea domeniului principal al unui site - cu WWW sau fără WWW.

Folosind eticheta REL = „CANONICAL”

Folosind această etichetă, webmasterul indică motorului de căutare sursa originală, adică pagina care ar trebui să fie indexată și să participe la clasarea motoarelor de căutare. Pagina este de obicei numită canonică. Intrarea în codul HTML va arăta astfel:

Folosind CMS WordPress acest lucru se poate face în setările acestui util plugin ca All in One Seo Pack.

Măsuri suplimentare anti-duplicare pentru CMS WordPress

După ce am aplicat toate metodele de mai sus de a trata paginile duplicate pe blogul meu, am avut întotdeauna senzația că nu am făcut tot ce era posibil. Prin urmare, după ce am scotocit pe Internet și m-am consultat cu profesioniști, am decis să fac altceva. O voi descrie acum.

Am decis să elimin duplicatele care sunt create pe blog când folosind ancore Am vorbit despre ele în articolul „Ancore HTML”. Pe blogurile care rulează CMS WordPress, ancorele se formează atunci când se aplică eticheta „#mai mult” și când folosiți comentarii. Actualitatea utilizării lor este destul de controversată, dar produc în mod clar duplicate.
Acum, cum am rezolvat această problemă.

Să abordăm mai întâi eticheta #more.

Am găsit fișierul unde este generat. Sau mai bine zis, mi-au spus.
Acesta este../wp-includes/post-template.php
Apoi am găsit un fragment de program:

ID)\» class= \»more-link\»>$more_link_text", $more_link_text);

Fragmentul marcat cu roșu a fost îndepărtat

#mai mult-($post->ID)\» class=

Și am ajuns cu o replică ca asta.

$output .= apply_filters(‘the_content_more_link’, ‘ $more_link_text", $more_link_text);

Eliminarea ancorelor pentru comentarii #comment

Acum să trecem la comentarii. M-am gândit deja la asta.
M-am hotarat si eu asupra dosarului ../wp-includes/comment-template.php
Găsirea codului de program necesar

return apply_filters('get_comment_link', $link . '#cometariu-' . $comment->coment_ID, $comentare, $args);)

În mod similar, fragmentul marcat cu roșu a fost îndepărtat. Foarte îngrijit, atent, până la fiecare punct.

. '#cometariu-' . $comment->coment_ID

Ajungem cu următoarea linie de cod de program.

return apply_filters('get_comment_link', $link, $comment, $args);
}

Desigur, am făcut toate acestea după ce am copiat indicat fișiere de program pe computer, astfel încât în ​​caz de defecțiune să puteți restabili cu ușurință starea modificărilor.

Ca urmare a acestor modificări, când dau clic pe textul „Citește restul intrării...”, primesc o pagină cu adresa canonică și fără a adăuga o coadă la adresa sub forma „#mai mult-. ..”. De asemenea, când dau clic pe un comentariu, primesc o adresă canonică normală fără prefix sub forma „#comment-...”.

Astfel, numărul paginilor duplicate de pe site a scăzut ușor. Dar nu pot spune acum ce altceva va mai forma WordPress-ul nostru. Vom monitoriza problema în continuare.

Și în încheiere, vă aduc în atenție un filmuleț foarte bun și educativ pe această temă. Recomand cu căldură să-l vizionați.

Sanatate si succes tuturor. Pana data viitoare.

Materiale utile:

Proprietarul poate nici măcar să nu bănuiască că unele pagini de pe site-ul său au copii - cel mai adesea acesta este cazul. Paginile se deschid, totul este în regulă cu conținutul lor, dar dacă doar acordați atenție URL-ului, veți observa că adresele sunt diferite pentru același conținut. Ce înseamnă? Pentru utilizatorii în direct, absolut nimic, deoarece sunt interesați de informațiile de pe pagini, dar motoarele de căutare fără suflet percep acest fenomen cu totul diferit - pentru ei acestea sunt pagini complet diferite cu același conținut.

Sunt paginile duplicate dăunătoare?

Deci, dacă un utilizator obișnuit nici măcar nu poate observa prezența duplicatelor pe site-ul dvs., atunci motoarele de căutare vor determina imediat acest lucru. La ce reacție ar trebui să vă așteptați de la ei? Deoarece roboții de căutare văd în esență copiile ca pagini diferite, conținutul acestora încetează să fie unic. Și acest lucru are deja un impact negativ asupra clasamentelor.

De asemenea, prezența duplicatelor estompează sucul link-ului pe care optimizatorul a încercat să îl concentreze pe pagina de destinație. Din cauza duplicaturilor, poate ajunge pe o pagină complet diferită de cea în care doreau să o mute. Adică, efectul legăturilor interne și al legăturilor externe poate fi mult redus.

În marea majoritate a cazurilor, CMS-ul este de vină pentru apariția dublurilor - din cauza setărilor incorecte și a lipsei de atenție adecvată din partea optimizatorului, sunt generate copii clare. Aceasta este problema cu multe CMS-uri, de exemplu Joomla. Este dificil să găsești o rețetă universală pentru a rezolva problema, dar poți încerca să folosești unul dintre pluginuri pentru ștergerea copiilor.

Apariția unor duplicate neclare, în care conținutul nu este complet identic, se datorează de obicei vina webmasterului. Astfel de pagini se găsesc adesea pe site-urile magazinelor online, unde paginile cu carduri de produse diferă doar în câteva propoziții cu o descriere, iar restul conținutului, constând din blocuri end-to-end și alte elemente, este același.

Mulți experți susțin că un număr mic de duplicate nu va dăuna site-ului, dar dacă există mai mult de 40-50%, atunci resursa se poate confrunta cu dificultăți serioase în timpul promovării. În orice caz, chiar dacă nu sunt multe copii, merită să aveți grijă să le eliminați, astfel încât veți scăpa cu siguranță de problemele cu duplicatele.

Găsirea paginilor de copiere

Există mai multe modalități de a găsi pagini duplicat, dar mai întâi ar trebui să contactați mai multe motoare de căutare și să vedeți cum văd site-ul dvs. - trebuie doar să comparați numărul de pagini din indexul fiecăreia. Acest lucru este destul de simplu de făcut, fără a recurge la niciun mijloc suplimentar: în Yandex sau Google, trebuie doar să introduceți host:yoursite.ru în bara de căutare și să vă uitați la numărul de rezultate.

Dacă, după o verificare atât de simplă, cantitatea diferă foarte mult, de 10-20 de ori, atunci aceasta, cu un anumit grad de probabilitate, poate indica conținutul duplicatelor într-una dintre ele. Copierea paginilor poate să nu fie de vină pentru această diferență, dar totuși dă naștere la căutări mai aprofundate și mai amănunțite. Dacă site-ul este mic, atunci puteți număra manual numărul de pagini reale și apoi le puteți compara cu indicatorii din motoarele de căutare.

Puteți căuta pagini duplicat după adresa URL în rezultatele motorului de căutare. Dacă trebuie să aibă CNC, atunci paginile cu URL-uri care conțin caractere de neînțeles, precum „index.php?s=0f6b2903d”, vor ieși imediat în evidență din lista generală.

O altă modalitate de a determina prezența duplicatelor folosind motoarele de căutare este căutarea prin fragmente de text. Procedura pentru o astfel de verificare este simplă: trebuie să introduceți un fragment de text de 10-15 cuvinte din fiecare pagină în bara de căutare și apoi să analizați rezultatul. Dacă există două sau mai multe pagini în rezultatele căutării, atunci există copii, dar dacă există un singur rezultat, atunci această pagină nu are duplicate și nu trebuie să vă faceți griji.

Este logic că, dacă site-ul este format dintr-un număr mare de pagini, atunci o astfel de verificare se poate transforma într-o sarcină imposibilă pentru optimizator. Pentru a minimiza costurile de timp, puteți utiliza programe speciale. Unul dintre aceste instrumente, care este probabil familiar profesioniștilor cu experiență, este programul Xenu’s Link Sleuth.

Pentru a verifica site-ul, trebuie să deschideți un nou proiect selectând „Verificare URL” din meniul „Fișier”, introduceți adresa și faceți clic pe „OK”. După aceasta, programul va începe să proceseze toate adresele URL ale site-ului. La sfârșitul verificării, trebuie să exportați datele primite în orice editor convenabil și să începeți să căutați duplicate.

Pe lângă metodele de mai sus, panourile Yandex.Webmaster și Google Webmaster Tools au instrumente pentru verificarea indexării paginilor care pot fi folosite pentru a căuta duplicate.

Metode de rezolvare a problemei

După ce au fost găsite toate duplicatele, acestea vor trebui eliminate. Acest lucru se poate face și în mai multe moduri, dar fiecare caz specific necesită propria sa metodă și este posibil să trebuiască să le folosiți pe toate.

Paginile de copiere pot fi șterse manual, dar această metodă este mai probabil să fie potrivită doar pentru acele duplicate care au fost create manual din cauza neatenției webmasterului.

Redirecționarea 301 este excelentă pentru îmbinarea paginilor de copiere ale căror adrese URL diferă prin prezența și absența www.

Soluția la problema cu duplicatele folosind eticheta canonică poate fi folosită pentru copii neclare. De exemplu, pentru categoriile de produse dintr-un magazin online care au duplicate care diferă în sortare în funcție de diverși parametri. Canonical este, de asemenea, potrivit pentru versiunile tipărite ale paginilor și alte cazuri similare. Se aplică destul de simplu - atributul rel=”canonic” este specificat pentru toate copiile, dar nu pentru pagina principală, care este cea mai relevantă. Codul ar trebui să arate cam așa: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/ și să fie în eticheta head.

Configurarea fișierului robots.txt poate ajuta în lupta împotriva duplicaturilor. Directiva Disallow va bloca accesul la duplicate pentru roboții de căutare. Puteți citi mai multe despre sintaxa acestui fișier în numărul 64 al buletinului nostru informativ.

concluzii

Dacă utilizatorii percep duplicatele ca o singură pagină cu adrese diferite, atunci pentru păianjeni, acestea sunt pagini diferite cu conținut duplicat. Copierea paginilor este una dintre cele mai comune capcane pe care începătorii nu le pot ocoli. Prezența lor în cantitati mari pe un site promovat este inacceptabil, deoarece creează obstacole serioase pentru a ajunge în TOP.

Salutare tuturor! În ultimul articol, am atins un subiect important - căutarea paginilor de site duplicat. După cum au arătat comentariile și mai multe scrisori care mi-au venit, acest subiect este relevant. Conținutul duplicat de pe blogurile noastre, defecte tehnice CMS și diverse șabloane de șablon nu oferă resurselor noastre libertate deplină în motoarele de căutare. Prin urmare, trebuie să luptăm serios cu ei. În acest articol vom învăța cum să eliminați paginile duplicate de pe orice site. Exemple din acest ghid vor arăta cum să scăpați de ele într-un mod simplu. Ni se cere pur și simplu să folosim cunoștințele dobândite și să monitorizăm modificările ulterioare ale indexurilor motoarelor de căutare.

Povestea mea de a lupta cu duplicatele

Înainte să ne uităm la modalități de a elimina duplicatele, vă voi spune povestea mea de a trata duplicatele.

Acum doi ani (25 mai 2012) am primit un blog de instruire pentru cursurile de specialitate SE0. Mi-a fost dat pentru a exersa cunoștințele dobândite în timpul studiilor. Drept urmare, în două luni de practică am reușit să produc câteva pagini, o duzină de postări, o grămadă de etichete și o încărcătură de duplicate. În următoarele șase luni, când blogul educațional a devenit site-ul meu personal, alte duplicate au fost adăugate acestei compoziții în indexul Google. Acest lucru s-a întâmplat din vina replytocom din cauza numărului tot mai mare de comentarii. Dar în baza de date Yandex, numărul de pagini indexate a crescut treptat.

La începutul anului 2013, am observat o scădere specifică a pozițiilor blogului meu în Google. Apoi am început să mă întreb de ce se întâmplă asta. Până la urmă, am ajuns în punctul în care am descoperit un număr mare de duplicate în acest motor de căutare. Desigur, am început să caut opțiuni pentru a le elimina. Dar căutările mele de informații nu au condus la nimic - nu am găsit pe Internet niciun manual sensibil pentru eliminarea paginilor duplicate. Dar am putut vedea o notă pe un blog despre cum puteți elimina duplicatele din index folosind fișierul robots.txt.

În primul rând, am scris o grămadă de directive de interzicere pentru Yandex și Google pentru a interzice scanarea anumitor pagini duplicat. Apoi, la mijlocul verii 2013, am folosit o metodă pentru a elimina duplicatele din indexul Google (veți afla despre asta în acest articol). Până atunci în indexul acestui motor de căutare S-au acumulat peste 6.000 de preluări! Și asta cu doar cinci pagini și peste 120 de postări pe blogul tău...

După ce am implementat metoda mea de eliminare a duplicatelor, numărul acestora a început să scadă rapid. La începutul acestui an, am folosit o altă opțiune pentru a elimina duplicatele pentru a accelera procesul (veți afla și despre asta). Și acum pe blogul meu numărul de pagini din indexul Google se apropie de ideal - astăzi există aproximativ 600 de pagini în baza de date. Este de 10 ori mai puțin decât era înainte!

Cum să eliminați paginile duplicate - metode de bază

Sunt câteva în diverse moduri lupta împotriva duplicatelor. Unele opțiuni vă permit să preveniți apariția de noi duplicate, în timp ce altele le pot scăpa de cele vechi. Desigur, cel mai mult cea mai bună opțiune- este manual. Dar pentru a-l implementa, trebuie să înțelegeți bine CMS-ul site-ului dvs. și să știți cum funcționează algoritmii motoarelor de căutare. Dar și alte metode sunt bune și nu necesită cunoștințe de specialitate. Vom vorbi despre ele acum.

Această metodă este considerată cea mai eficientă, dar și cea mai solicitantă în ceea ce privește cunoștințele de programare. Faptul este că regulile necesare sunt scrise aici în fișierul .htaccess (situat în rădăcina directorului site-ului). Și dacă sunt scrise cu o eroare, atunci este posibil nu numai că nu reușiți să rezolvați sarcina de a elimina duplicatele, ci și să eliminați complet întregul site de pe Internet.

Cum se rezolvă problema eliminării duplicatelor folosind o redirecționare 301? Se bazează pe conceptul de redirecționare a roboților de căutare de la o pagină (din duplicat) la alta (original). Adică, robotul ajunge la o copie a unei pagini și, folosind o redirecționare, apare pe documentul original de site de care avem nevoie. Apoi începe să-l studieze, sărind peste o imagine în afara câmpului său vizual.

De-a lungul timpului, după înregistrarea tuturor variantelor acestei redirecționări, paginile identice sunt lipite împreună, iar duplicatele cad în cele din urmă din index. Prin urmare, această opțiune curăță perfect paginile duplicate indexate anterior. Dacă decideți să utilizați această metodă, asigurați-vă că studiați sintaxa pentru crearea redirecționărilor înainte de a adăuga reguli la fișierul .htaccess. De exemplu, vă recomand să studiați un ghid privind a 301-a redirecționare de la Sasha Alaev.

Crearea unei pagini canonice

Această metodă este folosită pentru a indica motorului de căutare documentul din întregul set de duplicate care ar trebui să fie în indexul principal. Adică, o astfel de pagină este considerată originală și participă la rezultatele căutării.

Pentru a-l crea, trebuie să scrieți un cod cu adresa URL a documentului original pe toate paginile duplicate:

Desigur, este greoi să scrii toate acestea manual. Există diverse plugin-uri pentru asta. De exemplu, pentru blogul meu, care rulează pe motorul WordPress, am specificat acest cod folosind pluginul „All in One SEO Pack”. Acest lucru se face foarte simplu - bifați caseta corespunzătoare din setările pluginului:

Din păcate, opțiunea de pagină canonică nu elimină paginile duplicate, ci doar împiedică apariția lor ulterioară. Pentru a scăpa de duplicatele deja indexate, puteți folosi următoarea metodă.

Disallow directivă în robots.txt

Fișierul robots.txt este o instrucțiune pentru motoarele de căutare care le spune cum să indexeze site-ul nostru. Fără acest fișier, un robot de căutare poate ajunge la aproape toate documentele de pe resursa noastră. Dar nu avem nevoie de o astfel de libertate față de păianjenul de căutare - nu vrem să vedem toate paginile din index. Acest lucru este valabil mai ales pentru duplicatele care apar din cauza inadecvării șablonului de site sau a greșelilor noastre.

De aceea a fost creat un astfel de fișier în care sunt prescrise diverse directive pentru interzicerea și permiterea indexării de către motoarele de căutare. Puteți preveni scanarea paginilor duplicate folosind directiva Disallow:

Atunci când creați o directivă, trebuie să redactați corect interdicția. La urma urmei, dacă faceți o greșeală când completați regulile, atunci rezultatul poate fi o blocare complet diferită a paginii. Astfel, putem limita accesul la paginile necesare și putem permite altor duplicate să se scurgă. Dar totuși, erorile de aici nu sunt la fel de grave ca atunci când se creează reguli de redirecționare în .htaccess.

Interdicția de indexare folosind Disallow se aplică tuturor roboților. Dar nu pentru toată lumea, aceste interdicții permit motorului de căutare să elimine paginile interzise din index. De exemplu, Yandex elimină în cele din urmă paginile duplicate blocate în robots.txt.

Dar Google nu își va șterge indexul de nedorit inutil pe care l-a indicat webmasterul. În plus, directiva Disallow nu garantează această blocare. Dacă merg la pagini interzise în instrucțiuni linkuri externe, apoi vor apărea în cele din urmă în baza de date Google .

A scăpa de duplicatele indexate în Yandex și Google

Deci, cu diverse metode mi-am dat seama, este timpul să descoperiți un plan pas cu pas pentru eliminarea duplicatelor din Yandex și Google. Înainte de curățare, trebuie să găsiți toate paginile duplicate - am scris despre asta într-un articol anterior. Trebuie să vedeți în fața ochilor care elemente ale adreselor paginilor sunt reflectate în duplicate. De exemplu, dacă acestea sunt pagini cu comentarii în arbore sau paginare, atunci înregistrăm cuvintele „replytocom” și „pagină” în adresele lor:

Permiteți-mi să observ că, în cazul replytocom, puteți folosi nu această expresie, ci pur și simplu semnul întrebării. La urma urmei, este întotdeauna prezent în adresa paginilor de comentarii arbore. Dar trebuie să vă amintiți că adresele URL ale paginilor noi originale nu ar trebui să conțină simbolul „?”, altfel aceste pagini vor fi de asemenea interzise.

Curățarea Yandex

Pentru a elimina duplicatele din Yandex, creăm reguli pentru blocarea duplicatelor folosind directiva Disallow. Pentru a face acest lucru, efectuăm următoarele acțiuni:

  1. Deschideți instrumentul special „Analiza Robot.txt” în Yandex Webmaster.
  2. Adăugăm reguli noi pentru blocarea paginilor duplicate în câmpul de directive.
  3. În câmpul „Lista URL” introducem exemple de adrese duplicate pentru noile directive.
  4. Faceți clic pe butonul „Verificare” și analizați rezultatele.

Dacă am făcut totul corect, atunci acest instrument va arăta că există o blocare conform noilor reguli. În câmpul special „Rezultatele verificării URL” ar trebui să vedem o inscripție roșie despre interdicție:

După verificare, trebuie să trimitem directivele duplicate create în fișierul robots.txt real și să-l rescriem în directorul site-ului nostru. Și apoi trebuie doar să așteptăm până când Yandex ne șterge automat duplicatele din indexul său.

Curățarea Google

Nu este atât de simplu cu Google. Directivele interzise din robots.txt nu elimină duplicatele din indexul acestui motor de căutare. Prin urmare, va trebui să facem totul pe cont propriu. Din fericire, există un excelent serviciu Google Webmaster pentru acest lucru. Mai exact, ne interesează instrumentul „Parametri URL”.

Datorită acestui instrument, Google permite proprietarului site-ului să furnizeze motorului de căutare informații despre modul în care trebuie să proceseze anumiți parametri din URL. Suntem interesați de oportunitatea de a arăta Google acei parametri de adrese ale căror pagini sunt duplicate. Și acestea sunt cele pe care vrem să le scoatem din index. Iată ce trebuie să facem pentru aceasta (de exemplu, să adăugăm un parametru pentru a elimina duplicatele din replytocom):

  1. Deschideți instrumentul „Opțiuni URL” din serviciul Google din secțiunea de meniu „Crawling”.
  2. Faceți clic pe butonul „Adăugați parametru”, completați formularul și salvați noul parametru:

Drept urmare, obținem o regulă scrisă pentru ca Google să-și revizuiască indexul pentru prezența paginilor duplicate. Astfel, mai departe scriem următorii parametri pentru alte duplicate de care vrem să scăpăm. De exemplu, așa arată o parte a listei mele cu regulile scrise pentru Google, astfel încât să își ajusteze indexul:

Aceasta încheie munca noastră privind curățarea Google, iar postarea mea s-a încheiat. Sper că acest articol vă va aduce beneficii practice și vă va permite să scăpați de paginile duplicate ale resurselor dvs.

Cu stimă, Maxim Dovzhenko

P.S. Prieteni, dacă aveți nevoie să faceți un videoclip pe această temă, scrieți-mi în comentariile acestui articol.