Skocz do zawartości

[BLOG] Scrapowanie stron WWW - jak to robić?


Rekomendowane odpowiedzi

ymCtLIl.png 

Potrzebujesz strony internetowej, ale nie masz czasu na tworzenie jej od zera? Dobrze się składa, bo w jednym z artykułów na blogu pt. “Scrapowanie stron WWW - jak to robić? tłumaczymy, jak wygląda proces scrapowania i objaśniamy wszystkie kwestie związane z tym zagadnieniem.

Dowiesz się z niego m.in.:

  • czy web scraping jest legalny?
  • jakich narzędzi do tego używać?
  • jak dostosować pobraną stronę do własnych potrzeb?

NuBfKqd.png 

spacer.png

Odnośnik do komentarza

Dołącz do nas za darmo i naucz się zarabiać!

  • Dostęp do darmowych poradników pokazujących krok po kroku jak zarabiać w Internecie
  • Sposoby zarabiania niepublikowane nigdzie indziej
  • Aktywna społeczność, która pomoże Ci rozwiązać problemy i doradzi
  • Profesjonalne treści na temat SEO, social media, afiliacji, kryptowalut, sztucznej inteligencji i wiele więcej!

 

 

Cytat

Co to jest web scraping?
Jeśli zastanawiało Cię kiedyś, jak pobrać całą stronę internetową, to pewnie jest Ci znajome sformułowanie web scraping. Scrapowanie stron internetowych, to prościej mówiąc, pobieranie ich jako kopie, na nasz komputer. Technologia ta służy nie tylko do pobierania całych stron internetowych, ale też do wyciągania konkretnych interesujących nas danych z danego portalu. Cały proces realizowany jest za pomocą botów, robota indeksującego, lub skryptu napisanego w Pythonie. Podczas scrapowania określone dane są gromadzone i kopiowane z sieci do lokalnej bazy danych.

Autor tekstu Pan Jakub Swiniarski (prywatnie student informatyki) do jednego worka wrzuca scrapowanie z czymś co można nazwać "web snapshots" 🤣 (nie znam anglicyzmu, który można tu wstawić). "Web snapshots" czy "page snapshot" to zapisywanie strony offline (lokalnie) lub w postaci obrazów.

Otóż scraping jest techniką wydobywania informacji ze stron internetowych, co słusznie autor zauważył na początku np.:

  • numery telefonów z OLX
  • informacje z katalogów firm

Niestety później opisuje całkowicie inną technikę.

O programie Teleport Pro napisałem poradnik na forum ;)

W takim razie zamiast wrzucać listę programów do pobierania stron na dysk warto byłoby wspomnieć o bibliotekach, np.:

  • Simple HTML DOM Parser - biblioteka w PHP
  • Beautiful Soup - biblioteka w Python
  • Scrapy - biblioteka Python

lub

  • Selenium - automatyzacja przeglądarki

Inne narzędzia bardziej przyjazne dla użytkownika:

  • ZennoPoster
  • Browser Automation Studio (w skrócie: BAS)
  • Octoparse wspomniany przez @Mały Saszka
  • import.io

 

Cytat

Jak bronić się przed web scrapingiem?
Jeśli kiedykolwiek zauważyłeś, że Twój landing page padł ofiarą techniki web scrapingowej, istnieje sposób, aby część ruchu i tak trafiała z powrotem na Twoją stronę.
Na forum Afflift znajdziesz prosty kod JavaScript. Umieść go na swojej stronie, a ten uchroni Cię od całkowitej utraty ruchu, w przypadku użycia web scrapingu.
Kod znajduje się w TYM WĄTKU.

Na pewno nie javascript w <head></head> :D Warto wspomnieć też jak uchronić się przed usunięciem naszego kodu, np. przez obfuskację. Chociaż na upartego można podzielić go na kilka plików i dla każdego zastosować obfuskację. Dodatkowo zabezpieczyć tak, że jeśli ktoś usunie część kodu, to przekieruje na naszą stronę ale to już zaawansowane rzeczy ale nie mniej niż scraping przy użyciu bibliotek. Żeby nie zarzucić mi braku wiedzy podrzucam sposoby na ochronę przed webscrapingiem

  • Robots.txt
  • .htaccess - blokowanie User Agent
  • CSRF - wyjątkiem może być wykorzystanie XSS ❤️
  • Filtrowanie adresów IP
  • CAPTCHA!
  • Limitowanie żądań przy pomocy mod_qos na serwerach apache
  • Scrapshield od CloudFlare

Ciekawostka: jeśli ktoś scrapuje treści z naszej strony, to można wykorzystać ten fakt na naszą korzyść by pozycjonować stronę 😇

Reasumując pierwsza połowa artykułu o scrapingu, druga o "web snapshottingu". Rozumiem, że ruch z google się liczy ale fajnie jakby artykuł nawiązywał do tytułu i był merytoryczny 🙏

Pozdrawiam

  • Super 1
Odnośnik do komentarza

Cześć @Mały Saszka @Harry,

dzięki wielkie za feedback. Staramy się dostarczać content wysokiej jakości, którym mogą być zainteresowani zaawansowani użytkownicy w afiliacji, jednocześnie starając się możliwie prosto opisywać poszczególne zagadnienia.

W dniu 19.05.2023 o 19:02, Mały Saszka napisał(a):

@MyLead.pl nie objaśniliście wszystkich kwestii związanych z zagadnieniem - scrapowanie "wyglądu" strony to tylko pobieżne zastosowanie. Poświęciliście tylko parę zdań temu w czym scraping jest najkorzystniej wykorzystywany czyli gromadzenie danych. Można rozszerzyć ten podrozdział o narzędzia tj. Octoparse aby nie nudzić czytelników kodem źródłowym implementacji scrapera w jakimś języku programowania.

Bliźniaczym tematem jest też crawling - dzięki obu pojęciom możemy w prosty sposób gromadzić bazy danych wygasłych domen i wstępnie wyceniać ich wartość (ROI). A to tylko 1 z wielu zastosowań. Z przyjemnością pomogę wam za ustaloną kwotę wyczerpać temat artykułu jeżeli jesteście zainteresowani.

Na temat crawlingu pojawi się w przyszłości osobny artykuł, opowiadający o tym zagadnieniu i jego wykorzystaniu w afiliacji.

W dniu 20.05.2023 o 09:40, Harry napisał(a):

Autor tekstu Pan Jakub Swiniarski (prywatnie student informatyki) do jednego worka wrzuca scrapowanie z czymś co można nazwać "web snapshots" 🤣 (nie znam anglicyzmu, który można tu wstawić). "Web snapshots" czy "page snapshot" to zapisywanie strony offline (lokalnie) lub w postaci obrazów.

Otóż scraping jest techniką wydobywania informacji ze stron internetowych, co słusznie autor zauważył na początku np.:

  • numery telefonów z OLX
  • informacje z katalogów firm

Niestety później opisuje całkowicie inną technikę.

O programie Teleport Pro napisałem poradnik na forum ;)

W takim razie zamiast wrzucać listę programów do pobierania stron na dysk warto byłoby wspomnieć o bibliotekach, np.:

  • Simple HTML DOM Parser - biblioteka w PHP
  • Beautiful Soup - biblioteka w Python
  • Scrapy - biblioteka Python

lub

  • Selenium - automatyzacja przeglądarki

Inne narzędzia bardziej przyjazne dla użytkownika:

  • ZennoPoster
  • Browser Automation Studio (w skrócie: BAS)
  • Octoparse wspomniany przez @Mały Saszka
  • import.io

 

Na pewno nie javascript w <head></head> :D Warto wspomnieć też jak uchronić się przed usunięciem naszego kodu, np. przez obfuskację. Chociaż na upartego można podzielić go na kilka plików i dla każdego zastosować obfuskację. Dodatkowo zabezpieczyć tak, że jeśli ktoś usunie część kodu, to przekieruje na naszą stronę ale to już zaawansowane rzeczy ale nie mniej niż scraping przy użyciu bibliotek. Żeby nie zarzucić mi braku wiedzy podrzucam sposoby na ochronę przed webscrapingiem

  • Robots.txt
  • .htaccess - blokowanie User Agent
  • CSRF - wyjątkiem może być wykorzystanie XSS ❤️
  • Filtrowanie adresów IP
  • CAPTCHA!
  • Limitowanie żądań przy pomocy mod_qos na serwerach apache
  • Scrapshield od CloudFlare

Ciekawostka: jeśli ktoś scrapuje treści z naszej strony, to można wykorzystać ten fakt na naszą korzyść by pozycjonować stronę 😇

Reasumując pierwsza połowa artykułu o scrapingu, druga o "web snapshottingu". Rozumiem, że ruch z google się liczy ale fajnie jakby artykuł nawiązywał do tytułu i był merytoryczny 🙏

Pozdrawiam

Dzięki wielkie za dodatkowe informacje, przekazałem je do uzupełnienia w artykule, by był jeszcze bardziej dokładny, tym samym nie wprowadzający w błąd :)

Z pozdrowieniami, Bartek, MyLead.

  • Super 1

spacer.png

Odnośnik do komentarza

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Ta strona korzysta z ciasteczek, aby świadczyć usługi na najwyższym poziomie. Dalsze korzystanie z witryny oznacza zgodę na ich wykorzystanie. Polityka prywatności .