Duplikaty treści stron internetowych - rodzaje, porady

21.4 tys. · 20 Września 2016

Duplikaty treści stron internetowych to w całości lub częściowo powielony content strony: tekst, grafika i inne elementy strony internetowej, które są dostępne pod różnymi adresami stron (URL). Obecność takich duplikatów może znacząco utrudniać pozycjonowanie strony.

W tekście jest mowa o duplikowaniu treści, pewne rady są przydatne dla kopiowanych treści z innych stron, filtrów za słaby content jednak nie wszystkie!

Specjaliści zgodnie podkreślają że powielanie zawartości strony internetowej to najbardziej rozpowszechniony błąd wewnętrznej optymizacji, obecny w co drugim serwisie internetowym.

Jak sprawdzić, czy Twoja strona internetowa posiada duplikaty i w jaki sposób sobie z nimi radzić? O tym dowiesz się z tego artykułu.

Artykuł stworzony przez Arsen Nowak - Opiekun klienta w SeoPilot.pl

Jakie bywają duplikaty treści?

Duplikaty podzielić możemy na dokładne i niedokładne (albo pełne i niepełne).

Dokładne duplikaty treści to nic innego jak kopie stron z absolutnie jednakową zawartością, posiadające identyczne znaczniki Meta: Title i Description, lecz dostępne pod różnymi adresami URL. Na przykład

Kopia stron z adresem WWW i bez (brak przekierowania)
Strony z różnymi rozszerzeniami (.html, .htm, index.php, GET-parametrem «?a=b» itd.);
Wersja do wydruku;
Wersja dla RSS;
Poprzedni format URL po zmianie CMS.

Niedokładne duplikaty – częściowo jednakowa zawartość strony internetowej z różnymi adresami URL.

Przykładami takich duplikatów są:

Opisy towarów;
Skróty artykułów, nowości, towarów w różnych rubrykach, na stronach z tagami itd;
Archiwum dat na blogach;
Strony, na których bloki typu site-wide (czyli bloki z jednakową treścią występujące na wszystkich stronach serwisu) objętościowo przeważają nad podstawową zawartością strony internetowej;
Strony z różnymi tekstami, ale identycznymi Meta tagami: Title i Description.

W jaki sposób duplikaty zagrażają pozycjonowaniu strony?

Utrudniają indeksację strony (i określenie strony właściwej)
Przez duplikaty ilość stron w bazie wyszukiwarek może zwiększyć się kilkakrotnie, niektóre strony mogą nie podlegać indeksacji, ponieważ robot wyszukiwarki ma określony limit ilości stron, które może “odwiedzić” podczas indeksacji danego serwisu.

Utrudnia się określenie strony właściwej, która trafi do wyników wyszukiwania: wybór maszyny może być inny, niż wybór webmastera.
W wynikach wyszukiwania strona docelowa (właściwa) może być zamieniona przez duplikat.
Jeśli strona- duplikat będzie mieć dużą ilość wejść i wysoki wskaźnik odwiedzalności, to przy kolejnym update może ona zamienić docelową (pozycjonowaną) stronę w wynikach wyszukiwania. Jednocześnie pozycje obydwu stron spadną, ponieważ strona będąca duplikatem nie jest linkowana a zatem nie posiada praktycznie żadnych linków zewnętrznych.
Następuje utrata linków zewnętrznych na stronę docelową.
Internauci, chcąc podzielić się linkiem z innymi, mogą pomyłkowo przesyłać linka na duplikat strony, a nie na stronę docelowo przez nas wybraną. Wartość linku będzie podzielona, a przez to sytuacja z określeniem najbardziej relewantnej wersji jeszcze bardziej się skomplikuje. .
Ryzyko trafienia pod filtr
Google walczy z nieunikalnymi treściami, w związku z czym mogą zastosować wobec strony filtr Panda.
Utrata wartościowych stron w indeksie
Niepełne duplikaty (strony kategorii, nowości, opisy produktów itp.) mogą w ogóle nie trafić do wyników wyszukiwania z powodu ich małej unikalności. Może się to wydarzyć na przykład z częścią opisów produktów, które algorytm wyszukiwarki uzna za powielone.

Jak znaleźć i usunąć duplikaty

Jako właściciel serwisu internetowego możesz tak naprawdę bez problemu znaleźć duplikaty stron. Poniżej prezentujemy instrukcję jak znaleźć i pozbyć się powielanych treści.

Poszukiwania pełnych duplikatów

Najszybszym sposobem na znalezienie pełnych duplikatów stron jest sprawdzenie powtarzających się Meta tagów - Title i Description. W tym celu można użyć panelu webmastera Google lub posłużyć się popularnym serwisem Xenu. Przeszukiwane są tylko strony znajdujące się w indeksie.

Szukamy duplikatów przy pomocy Google Search Console
Zaloguj się do panelu Google SC, wybierz stronę, a następnie w punkcie Stan w wyszukiwarce wybierz Udoskonalenia HTML. Pojawi się tablica, zwróć koniecznie uwagę na parametry zaznaczone na grafice poniżej (rys)1:

Po kliknięciu na dane linki otworzy się lista adresów URL dla których Google znalazł powtarzające się meta opisy i uznał je za duplikacje. Na liście mogą się znaleźć i niepełne duplikaty - strony z różnym contentem, ale jednakowym Title i/lub Description
Szukamy duplikatów przy pomocy programu Xenu
Jeżeli nie masz dostępu do panelu webmastera, można skorzystać z programu Xenu (wersja desktopowa). Ściągnij program, kliknij na “File”, a następnie na «Check URL», wskaż adres strony i uruchom skanowanie. Po zakończeniu procesu skanowania możesz eksportować dane do pliku excel i filtrować je w kolumnie Title. Powtarzające się nagłówki będą wskazywały duplikaty strony
Szukamy duplikatów w polu adresowym przeglądarki
Wiele dynamicznych adresów stron-kopii może nie znajdować się w indeksie wyszukiwarki, żeby więc je odnaleźć możemy posłużyć się polem adresowym przeglądarki. Przykładowo może to wyglądać następująco:

Content docelowej strony jest dostępny pod dwoma adresami:

http://strona-internetowa.pl
http://strona-internetowa.pl/index.php

Wszystkie strony wyświetlają się prawidłowo przy ukazaniu parametru GET ?a=b:

http://strona-internetowa.pl/discount
http://strona-internetowa.pl/discount?a=b

Jest to błąd techniczny, który prowadzi do powstania stron-synonimów, które są pełnymi duplikatami.

Jak radzić sobie z pełnymi duplikatami?

Pełne duplikaty pojawiają się z różnych powodów, w związku z czym wyróżnia się kilka metod radzenia z nimi.

Przekierowanie 301 na stronę docelową
Poziom zaawansowania: wysoki
Minusy: wymaga zaawansowanej wiedzy
Plusy: uniwersalne zastosowanie; chroni przed pojawianiem się kolejnych duplikatów.

Jeżeli domena Twojej strony jest dostępna pod adresem zarówno z www jak i bez www, wskaż główną wersję zastosuj przekierowanie w pliku: .htaccess.

Przykład przekierowania na wersję bez www:

Plik .htaccess RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.(.*) [NC]
RewriteRule ^(.*)$ http://%1/$1 [R=301,L]

Przy stwierdzeniu synonimów strony (jak w przykładzie powyżej, gdzie główna strona otwiera się z zakończeniem index.php) w .htaccess należy zrobić przekierowanie z duplikatu:

Plik .htaccess RewriteEngine On
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.php HTTP/
RewriteRule ^index.php$ http://www.site.pl/ [R=301,L]
Masowe przekierowanie 301
Poziom zaawansowania: bardzo wysoki (dla profesjonalistów)
Minusy: bardzo wysoki poziom zaawansowania, wymaga ostrożnego podejścia profesjonalisty. Metoda nie sprawdzi się w przypadku URL z różną strukturą
Plusy: najszybszy sposób przekierowania robotów i użytkowników z duplikatów na stronę właściwą - docelową. Wyklucza pojawienie się nowych duplikatów; wartość z duplikatów przekazywana jest stronie docelowej.

Nie ma jednego przepisu na masowe przekierowanie dla wszystkich istniejących duplikatów. W każdym przypadku należy podbierać odpowiednie rozwiązanie.
Tag rel=canonical
Poziom zaawansowania: średni
Minusy: pracochłonne zadanie, w przypadku dużej ilości stron zajmie dużo czasu
Plusy: nie wymaga specjalistycznej wiedzy, jest dobrze widziane przez roboty wyszukiwarek. Wartość stron-duplikatów przekazywana jest stronom właściwym.

Metoda ta jest stosowana w przypadku wszystkich duplikatów i jest stosunkowo łatwa w zastosowaniu.
W kodzie strony-duplikatu (czyli tej, której musimy się pozbyć) w rozdziale head musimy przypisać tag rel=canonical

Na przykład

HTML <link rel="canonical" href="http://www.site.pl/canonical_page.html"/>

Pokaże to robotowi drogę na kanoniczną (właściwą) stronę, która będzie indeksowana i wydawana w wynikach wyszukiwania.
Usunięcie strony i błąd 404
Poziom zaawansowania: średni
Minusy: nie wszystkie duplikaty można i należy usuwać (wersje stron z UTM); pracochłonne zadanie, zajmujące przy dużej ilości stron sporo czasu. Nie wyklucza pojawienie nowych duplikatów; wartość strony z duplikatów nie jest przekazywana stronie właściwej.
Plusy: nie wymaga profesjonalnych umiejętności
Pozbyć się duplikatów można w miarę prosto usuwając je z serwisu, zostawiając tylko stronę właściwą. Po kolejnym update strony te znikną z indeksu. Przy usuwaniu stron nie zapominaj o zasadach optymalizacji: poinformujcie użytkowników, że dana strona nie istnieje, strona z błędem 404 powinna być utworzona z zachowaniem stylu serwisu i przekierowująca na stronę właściwą.

! Ważna uwaga ! - po usunięciu stron duplikatów nie zapomnij usunąć je także w panelu webmastera Google.
Gotowe rozwiązania dla popularnych CMS
Poziom zaawansowania: wysoki

Twórcy popularnych CMS przewidzieli wiele zastosowań mające na celu zapobiegać powstawaniu duplikatów. Przy czym webmaster podczas pracy z systemem nie musi zbytnio majstrować w ustawieniach. Jeżeli jednak coś przeoczyłeś i duplikaty jednak się pojawiły nigdy nie jest za późno aby to naprawić i usunąć kopie. Przejrzyste instrukcje związane z ustawieniami CMS i wykorzystywaniem SEO wtyczek można znaleźć na blogach i na forach WordPress, Joomla, Drupal itd.

Przydatnymi plaginami do walki z duplikatami są:
- dla WordPress: All in One SEO Pack, Clearfy;
- dla Drupal: Global Redirect, Page Title;
- dla Joomla: Canonical Links All in One, JL No Dubles.
Walka z duplikatami na poziomie CMS
Poziom zaawansowania: nadzwyczajnie wysoki (dla profesjonalistów)
Minusy: bardzo trudna metoda
Plusy: zapobiega powstawaniu stron-synonimów

Zapobieganie powstawania nowych stron - duplikatów to uniwersalne zastosowanie dla różnych CMS. Konieczna jest znajomość warunku, przy którym podczas przetwarzania adresów stron CMS będzie odróżniał “dobre” od “złych” i będzie pokazywał w pasku przeglądarki tylko te, które są dozwolone - czyli zgodne z zadanym warunkiem. Pozwoli to zapobiec powstawaniu stron-synonimów (ze znakiem “/” i bez niego, z niepotrzebnym zakończeniem .html, parametrem GET i inne), jednak nie ochroni to przed powstawaniem duplikatów, jeżeli strona nie będzie miała unikalnych znaczników meta: Title i Description.

W tym celu należy do pliku .htaccess dodać następującą zasadę:

Plik .htaccess RewriteEngine On
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_FILENAME} !-f
RewriteRule ^(.*)$ index.php [L,QSA]

Oprócz tego należy kontrolować proces w samym CMS.

Realizacja tej metody jest bardzo skomplikowana i wymaga zwrócenia się o pomoc do profesjonalistów.

Poszukiwania niepełnych duplikatów

Szukamy przy pomocy panelu webmaster Google lub serwisu Xenu
Algorytm działania jest dokładnie taki sam jak w przypadku pełnych duplikatów. Jedyną różnicą jest to, że spośród znalezionych duplikatów będziesz musiał wybrać te strony, które mają identyczne Meta tagi ale inny content!
Szukamy w polu wyszukiwarki Google
Strony z częściowo podobnym contentem, lecz z odmiennymi meta-danymi nie uda nam się wyjawić przy pomocy pierwszego sposobu. W tym przypadku trzeba będzie ich poszukać ręcznie

Na początek wydziel dla siebie grupy ryzyka

nisko wartościowy content (przewaga bloków typu side-wide nad treścią strony)
kopiowane treści (opisy podobnych towarów)
wspólne elementy contentu (nowości, rubryki/podkatalogi, filtry itd)

Dla każdej grupy wybierz po parę stron

Dla zobrazowania przykładu wybraliśmy jeden z opisów towarów, umieszczony na stronie sklepu z meblami. Prawdopodobieństwo występowania duplikatów jest tutaj dosyć wysokie ze względu na przeważającą ilość bloków z opisem towarów i bloków typu side-wide, małą ilością unikalnej treści.

Wpisujemy w wyszukiwarce Google w cudzysłowie fragment tekstu, który pochodzi z opisu towaru oraz domenę strony z operatorem site: (rys 2)

Zrzut obrazu pokazuje, że opis towaru nie znajduje się w indeksie Google. W związku z tym, strona ta nie przyniesie nam już żadnego ruchu z wyszukiwarek.

Dla przykładu sprawdziliśmy także fragment nowości (rys 3)

Analogicznie postąpiliśmy z paroma innymi nowościami. Na dane zapytanie wyszukiwarka wydała link kierujący na listę wszystkich nowości, ale żadna z tych nowości nie trafiła do indeksu Google. Często też ma miejsce odwrotna sytuacja: do indeksu trafia kilka duplikatów (sama nowość, skrót nowości, aktualności w liście nowości, skrót nowości na różnych stronach paginacji, jeśli jest ona nieprawidłowo ustawiona). W związku z tym w wynikach organicznych pojawia się kilka linków, które prowadzą do tego samego contentu.

Zalecamy więc sprawdzić przy pomocy tej metody (fragmentu tekstu i operator site) treści stron z towarami, stron z usługami, nowości i innych ważnych dla pozycjonowania rozdziałów. Jeżeli zauważysz ze Twój serwis ma problem z podobnymi duplikatami przejdź do następnego kroku.

Pozbycie się niepełnych duplikatów

Optymalizacja meta-opisów
Poziom zaawansowania: średni

Dla częściowo powielanych stron, znalezionych w Search Console Google, należy zmienić Title i Description tak, aby były unikalne. Po aktualizacji dane strony powinny przestać być rozpatrywane jako duplikaty
Optymalizacja treści
Poziom zaawansowania: średni

Jeżeli jakaś strona nie znajduje się w indeksie warto zatroszczyć się o poprawę ich nisko wartościowej treści:
- zwiększyć blok z tekstem głównym, podnieść tekst wyżej, zmniejszyć zbyt duże menu po lewej stronie
- na stronach z bardzo podobną treścią wprowadzić poprawki: optymalizacja Title - rozbudować je, unikać lakonicznych sformułowań; podkreślić i wyróżnić cechy charakterystyczne towaru lub usługi
- uważnie kontrolować meta-opisy (dla każdego URL tworzymy unikalny content, unikalne Title i Description).
Optymalizacja struktury i linkowania
Poziom zaawansowania: średni

Mowa tutaj o stronie ze skrótami nowości i paginacją. Listę nowości wraz z ich skrótami zaleca się zamykać od indeksacji włączając w to jej występowanie na różnych stronach. Jest to konieczne, gdyż pozwala zapobiega to powielaniu treści nowości.

Drugi wariant: unikalne treści w tego typu rubrykach, zgodnie z wytycznymi optymalizacji rozmieszczenia bloku na różnych stronach. Duplikaty już istniejące można usunąć z indeksu (w panelu webmastera Google), a w ich kodzie przypisać rel=canonical, kierując robota i ruch na właściwą stronę nowości

Jeżeli natomiast mowa jest o skrótach opisów towarów, stojących na pograniczu kilku kategorii (np. kanapa może się znajdować w kategoriach: skórzane, rozkładane, biurowe itp) to w tym wypadku warto dać tylko link kierujący do pełnego opisu towaru, bez umieszczania wszędzie skrótu.