[BLOG] Scrapowanie stron WWW - jak to robić?

1,2 tys. · 19 Maja 2023

Potrzebujesz strony internetowej, ale nie masz czasu na tworzenie jej od zera? Dobrze się składa, bo w jednym z artykułów na blogu pt. “Scrapowanie stron WWW - jak to robić?” tłumaczymy, jak wygląda proces scrapowania i objaśniamy wszystkie kwestie związane z tym zagadnieniem.

Dowiesz się z niego m.in.:

czy web scraping jest legalny?
jakich narzędzi do tego używać?
jak dostosować pobraną stronę do własnych potrzeb?

7,4 tys. · 20 Maja 2023

Cytat

Co to jest web scraping?
Jeśli zastanawiało Cię kiedyś, jak pobrać całą stronę internetową, to pewnie jest Ci znajome sformułowanie web scraping. Scrapowanie stron internetowych, to prościej mówiąc, pobieranie ich jako kopie, na nasz komputer. Technologia ta służy nie tylko do pobierania całych stron internetowych, ale też do wyciągania konkretnych interesujących nas danych z danego portalu. Cały proces realizowany jest za pomocą botów, robota indeksującego, lub skryptu napisanego w Pythonie. Podczas scrapowania określone dane są gromadzone i kopiowane z sieci do lokalnej bazy danych.

Autor tekstu Pan Jakub Swiniarski (prywatnie student informatyki) do jednego worka wrzuca scrapowanie z czymś co można nazwać "web snapshots" 🤣 (nie znam anglicyzmu, który można tu wstawić). "Web snapshots" czy "page snapshot" to zapisywanie strony offline (lokalnie) lub w postaci obrazów.

Otóż scraping jest techniką wydobywania informacji ze stron internetowych, co słusznie autor zauważył na początku np.:

numery telefonów z OLX
informacje z katalogów firm

Niestety później opisuje całkowicie inną technikę.

O programie Teleport Pro napisałem poradnik na forum

W takim razie zamiast wrzucać listę programów do pobierania stron na dysk warto byłoby wspomnieć o bibliotekach, np.:

Simple HTML DOM Parser - biblioteka w PHP
Beautiful Soup - biblioteka w Python
Scrapy - biblioteka Python

lub

Selenium - automatyzacja przeglądarki

Inne narzędzia bardziej przyjazne dla użytkownika:

ZennoPoster
Browser Automation Studio (w skrócie: BAS)
Octoparse wspomniany przez @Mały Saszka
import.io

Cytat

Jak bronić się przed web scrapingiem?
Jeśli kiedykolwiek zauważyłeś, że Twój landing page padł ofiarą techniki web scrapingowej, istnieje sposób, aby część ruchu i tak trafiała z powrotem na Twoją stronę.
Na forum Afflift znajdziesz prosty kod JavaScript. Umieść go na swojej stronie, a ten uchroni Cię od całkowitej utraty ruchu, w przypadku użycia web scrapingu.
Kod znajduje się w TYM WĄTKU.

Na pewno nie javascript w <head></head> Warto wspomnieć też jak uchronić się przed usunięciem naszego kodu, np. przez obfuskację. Chociaż na upartego można podzielić go na kilka plików i dla każdego zastosować obfuskację. Dodatkowo zabezpieczyć tak, że jeśli ktoś usunie część kodu, to przekieruje na naszą stronę ale to już zaawansowane rzeczy ale nie mniej niż scraping przy użyciu bibliotek. Żeby nie zarzucić mi braku wiedzy podrzucam sposoby na ochronę przed webscrapingiem

Robots.txt
.htaccess - blokowanie User Agent
CSRF - wyjątkiem może być wykorzystanie XSS ❤️
Filtrowanie adresów IP
CAPTCHA!
Limitowanie żądań przy pomocy mod_qos na serwerach apache
Scrapshield od CloudFlare

Ciekawostka: jeśli ktoś scrapuje treści z naszej strony, to można wykorzystać ten fakt na naszą korzyść by pozycjonować stronę 😇

Reasumując pierwsza połowa artykułu o scrapingu, druga o "web snapshottingu". Rozumiem, że ruch z google się liczy ale fajnie jakby artykuł nawiązywał do tytułu i był merytoryczny 🙏

Pozdrawiam

1,2 tys. · 21 Maja 2023

Cześć @Mały Saszka @Harry,

dzięki wielkie za feedback. Staramy się dostarczać content wysokiej jakości, którym mogą być zainteresowani zaawansowani użytkownicy w afiliacji, jednocześnie starając się możliwie prosto opisywać poszczególne zagadnienia.

W dniu 19.05.2023 o 19:02, Mały Saszka napisał(a):

@MyLead.pl nie objaśniliście wszystkich kwestii związanych z zagadnieniem - scrapowanie "wyglądu" strony to tylko pobieżne zastosowanie. Poświęciliście tylko parę zdań temu w czym scraping jest najkorzystniej wykorzystywany czyli gromadzenie danych. Można rozszerzyć ten podrozdział o narzędzia tj. Octoparse aby nie nudzić czytelników kodem źródłowym implementacji scrapera w jakimś języku programowania.

Bliźniaczym tematem jest też crawling - dzięki obu pojęciom możemy w prosty sposób gromadzić bazy danych wygasłych domen i wstępnie wyceniać ich wartość (ROI). A to tylko 1 z wielu zastosowań. Z przyjemnością pomogę wam za ustaloną kwotę wyczerpać temat artykułu jeżeli jesteście zainteresowani.

Na temat crawlingu pojawi się w przyszłości osobny artykuł, opowiadający o tym zagadnieniu i jego wykorzystaniu w afiliacji.

W dniu 20.05.2023 o 09:40, Harry napisał(a):

Autor tekstu Pan Jakub Swiniarski (prywatnie student informatyki) do jednego worka wrzuca scrapowanie z czymś co można nazwać "web snapshots" 🤣 (nie znam anglicyzmu, który można tu wstawić). "Web snapshots" czy "page snapshot" to zapisywanie strony offline (lokalnie) lub w postaci obrazów.

Otóż scraping jest techniką wydobywania informacji ze stron internetowych, co słusznie autor zauważył na początku np.:

numery telefonów z OLX

informacje z katalogów firm

Niestety później opisuje całkowicie inną technikę.

O programie Teleport Pro napisałem poradnik na forum

W takim razie zamiast wrzucać listę programów do pobierania stron na dysk warto byłoby wspomnieć o bibliotekach, np.:

Simple HTML DOM Parser - biblioteka w PHP

Beautiful Soup - biblioteka w Python

Scrapy - biblioteka Python

lub

Selenium - automatyzacja przeglądarki

Inne narzędzia bardziej przyjazne dla użytkownika:

ZennoPoster

Browser Automation Studio (w skrócie: BAS)

Octoparse wspomniany przez @Mały Saszka

import.io

Na pewno nie javascript w <head></head> Warto wspomnieć też jak uchronić się przed usunięciem naszego kodu, np. przez obfuskację. Chociaż na upartego można podzielić go na kilka plików i dla każdego zastosować obfuskację. Dodatkowo zabezpieczyć tak, że jeśli ktoś usunie część kodu, to przekieruje na naszą stronę ale to już zaawansowane rzeczy ale nie mniej niż scraping przy użyciu bibliotek. Żeby nie zarzucić mi braku wiedzy podrzucam sposoby na ochronę przed webscrapingiem

Robots.txt

.htaccess - blokowanie User Agent

CSRF - wyjątkiem może być wykorzystanie XSS ❤️

Filtrowanie adresów IP

CAPTCHA!

Limitowanie żądań przy pomocy mod_qos na serwerach apache

Scrapshield od CloudFlare

Ciekawostka: jeśli ktoś scrapuje treści z naszej strony, to można wykorzystać ten fakt na naszą korzyść by pozycjonować stronę 😇

Reasumując pierwsza połowa artykułu o scrapingu, druga o "web snapshottingu". Rozumiem, że ruch z google się liczy ale fajnie jakby artykuł nawiązywał do tytułu i był merytoryczny 🙏

Pozdrawiam

Dzięki wielkie za dodatkowe informacje, przekazałem je do uzupełnienia w artykule, by był jeszcze bardziej dokładny, tym samym nie wprowadzający w błąd

Z pozdrowieniami, Bartek, MyLead.