Skocz do zawartości

[BLOG] Scrapowanie stron WWW - jak to robić?


Rekomendowane odpowiedzi

ymCtLIl.png 

Potrzebujesz strony internetowej, ale nie masz czasu na tworzenie jej od zera? Dobrze się składa, bo w jednym z artykułów na blogu pt. “Scrapowanie stron WWW - jak to robić? tłumaczymy, jak wygląda proces scrapowania i objaśniamy wszystkie kwestie związane z tym zagadnieniem.

Dowiesz się z niego m.in.:

  • czy web scraping jest legalny?
  • jakich narzędzi do tego używać?
  • jak dostosować pobraną stronę do własnych potrzeb?

NuBfKqd.png 

spacer.png

Odnośnik do komentarza

Zarejestruj się za darmo i naucz się zarabiać online!

  • Dostęp do darmowych poradników pokazujących krok po kroku jak zarabiać w Internecie
  • Sposoby zarabiania niepublikowane nigdzie indziej
  • Aktywna społeczność, która pomoże Ci rozwiązać problemy i doradzi
  • Profesjonalne treści na temat SEO, social media, afiliacji, kryptowalut, sztucznej inteligencji i wiele więcej!
Cytat

Co to jest web scraping?
Jeśli zastanawiało Cię kiedyś, jak pobrać całą stronę internetową, to pewnie jest Ci znajome sformułowanie web scraping. Scrapowanie stron internetowych, to prościej mówiąc, pobieranie ich jako kopie, na nasz komputer. Technologia ta służy nie tylko do pobierania całych stron internetowych, ale też do wyciągania konkretnych interesujących nas danych z danego portalu. Cały proces realizowany jest za pomocą botów, robota indeksującego, lub skryptu napisanego w Pythonie. Podczas scrapowania określone dane są gromadzone i kopiowane z sieci do lokalnej bazy danych.

Autor tekstu Pan Jakub Swiniarski (prywatnie student informatyki) do jednego worka wrzuca scrapowanie z czymś co można nazwać "web snapshots" 🤣 (nie znam anglicyzmu, który można tu wstawić). "Web snapshots" czy "page snapshot" to zapisywanie strony offline (lokalnie) lub w postaci obrazów.

Otóż scraping jest techniką wydobywania informacji ze stron internetowych, co słusznie autor zauważył na początku np.:

  • numery telefonów z OLX
  • informacje z katalogów firm

Niestety później opisuje całkowicie inną technikę.

O programie Teleport Pro napisałem poradnik na forum ;)

W takim razie zamiast wrzucać listę programów do pobierania stron na dysk warto byłoby wspomnieć o bibliotekach, np.:

  • Simple HTML DOM Parser - biblioteka w PHP
  • Beautiful Soup - biblioteka w Python
  • Scrapy - biblioteka Python

lub

  • Selenium - automatyzacja przeglądarki

Inne narzędzia bardziej przyjazne dla użytkownika:

  • ZennoPoster
  • Browser Automation Studio (w skrócie: BAS)
  • Octoparse wspomniany przez @Mały Saszka
  • import.io

 

Cytat

Jak bronić się przed web scrapingiem?
Jeśli kiedykolwiek zauważyłeś, że Twój landing page padł ofiarą techniki web scrapingowej, istnieje sposób, aby część ruchu i tak trafiała z powrotem na Twoją stronę.
Na forum Afflift znajdziesz prosty kod JavaScript. Umieść go na swojej stronie, a ten uchroni Cię od całkowitej utraty ruchu, w przypadku użycia web scrapingu.
Kod znajduje się w TYM WĄTKU.

Na pewno nie javascript w <head></head> :D Warto wspomnieć też jak uchronić się przed usunięciem naszego kodu, np. przez obfuskację. Chociaż na upartego można podzielić go na kilka plików i dla każdego zastosować obfuskację. Dodatkowo zabezpieczyć tak, że jeśli ktoś usunie część kodu, to przekieruje na naszą stronę ale to już zaawansowane rzeczy ale nie mniej niż scraping przy użyciu bibliotek. Żeby nie zarzucić mi braku wiedzy podrzucam sposoby na ochronę przed webscrapingiem

  • Robots.txt
  • .htaccess - blokowanie User Agent
  • CSRF - wyjątkiem może być wykorzystanie XSS ❤️
  • Filtrowanie adresów IP
  • CAPTCHA!
  • Limitowanie żądań przy pomocy mod_qos na serwerach apache
  • Scrapshield od CloudFlare

Ciekawostka: jeśli ktoś scrapuje treści z naszej strony, to można wykorzystać ten fakt na naszą korzyść by pozycjonować stronę 😇

Reasumując pierwsza połowa artykułu o scrapingu, druga o "web snapshottingu". Rozumiem, że ruch z google się liczy ale fajnie jakby artykuł nawiązywał do tytułu i był merytoryczny 🙏

Pozdrawiam

  • Super 1
Odnośnik do komentarza

Cześć @Mały Saszka @Harry,

dzięki wielkie za feedback. Staramy się dostarczać content wysokiej jakości, którym mogą być zainteresowani zaawansowani użytkownicy w afiliacji, jednocześnie starając się możliwie prosto opisywać poszczególne zagadnienia.

W dniu 19.05.2023 o 19:02, Mały Saszka napisał(a):

@MyLead.pl nie objaśniliście wszystkich kwestii związanych z zagadnieniem - scrapowanie "wyglądu" strony to tylko pobieżne zastosowanie. Poświęciliście tylko parę zdań temu w czym scraping jest najkorzystniej wykorzystywany czyli gromadzenie danych. Można rozszerzyć ten podrozdział o narzędzia tj. Octoparse aby nie nudzić czytelników kodem źródłowym implementacji scrapera w jakimś języku programowania.

Bliźniaczym tematem jest też crawling - dzięki obu pojęciom możemy w prosty sposób gromadzić bazy danych wygasłych domen i wstępnie wyceniać ich wartość (ROI). A to tylko 1 z wielu zastosowań. Z przyjemnością pomogę wam za ustaloną kwotę wyczerpać temat artykułu jeżeli jesteście zainteresowani.

Na temat crawlingu pojawi się w przyszłości osobny artykuł, opowiadający o tym zagadnieniu i jego wykorzystaniu w afiliacji.

W dniu 20.05.2023 o 09:40, Harry napisał(a):

Autor tekstu Pan Jakub Swiniarski (prywatnie student informatyki) do jednego worka wrzuca scrapowanie z czymś co można nazwać "web snapshots" 🤣 (nie znam anglicyzmu, który można tu wstawić). "Web snapshots" czy "page snapshot" to zapisywanie strony offline (lokalnie) lub w postaci obrazów.

Otóż scraping jest techniką wydobywania informacji ze stron internetowych, co słusznie autor zauważył na początku np.:

  • numery telefonów z OLX
  • informacje z katalogów firm

Niestety później opisuje całkowicie inną technikę.

O programie Teleport Pro napisałem poradnik na forum ;)

W takim razie zamiast wrzucać listę programów do pobierania stron na dysk warto byłoby wspomnieć o bibliotekach, np.:

  • Simple HTML DOM Parser - biblioteka w PHP
  • Beautiful Soup - biblioteka w Python
  • Scrapy - biblioteka Python

lub

  • Selenium - automatyzacja przeglądarki

Inne narzędzia bardziej przyjazne dla użytkownika:

  • ZennoPoster
  • Browser Automation Studio (w skrócie: BAS)
  • Octoparse wspomniany przez @Mały Saszka
  • import.io

 

Na pewno nie javascript w <head></head> :D Warto wspomnieć też jak uchronić się przed usunięciem naszego kodu, np. przez obfuskację. Chociaż na upartego można podzielić go na kilka plików i dla każdego zastosować obfuskację. Dodatkowo zabezpieczyć tak, że jeśli ktoś usunie część kodu, to przekieruje na naszą stronę ale to już zaawansowane rzeczy ale nie mniej niż scraping przy użyciu bibliotek. Żeby nie zarzucić mi braku wiedzy podrzucam sposoby na ochronę przed webscrapingiem

  • Robots.txt
  • .htaccess - blokowanie User Agent
  • CSRF - wyjątkiem może być wykorzystanie XSS ❤️
  • Filtrowanie adresów IP
  • CAPTCHA!
  • Limitowanie żądań przy pomocy mod_qos na serwerach apache
  • Scrapshield od CloudFlare

Ciekawostka: jeśli ktoś scrapuje treści z naszej strony, to można wykorzystać ten fakt na naszą korzyść by pozycjonować stronę 😇

Reasumując pierwsza połowa artykułu o scrapingu, druga o "web snapshottingu". Rozumiem, że ruch z google się liczy ale fajnie jakby artykuł nawiązywał do tytułu i był merytoryczny 🙏

Pozdrawiam

Dzięki wielkie za dodatkowe informacje, przekazałem je do uzupełnienia w artykule, by był jeszcze bardziej dokładny, tym samym nie wprowadzający w błąd :)

Z pozdrowieniami, Bartek, MyLead.

  • Super 1

spacer.png

Odnośnik do komentarza

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Polecana zawartość

    • Poradnik podatkowy - jak rozliczać się z pieniędzy zarobionych przez Internet bez DG?
      Zarabianie w Internecie wiąże się z koniecznością płacenia podatków - a rozliczanie się z urzędem skarbowym nie jest jednoznaczne i proste. Prawo podatkowe w Polsce jest nieujednolicone - co oznacza, że każdy urząd skarbowy może mieć inne interpretacje. Sprawdź jak się za to zabrać!
        • Lubię to!
        • Super
      • 4 odpowiedzi
    • JDG - Jak zarejestrować, rozliczać i prowadzić działalność gospodarczą w Polsce
      Jednoosobowa działalność gospodarcza (JDG) to najprostsza forma prowadzenia działalności gospodarczej w Polsce. Jest to działalność prowadzona przez jedną osobę fizyczną na własne nazwisko i na własne ryzyko. Jednak mimo, że nazywa się jednoosobowa - daje jednak możliwość zatrudniania pracowników. Takich firm jest zarejestrowanych w Polsce zdecydowanie najwięcej. Sprawdź jak zarejestrować, rozliczać i prowadzić własną JDG!
        • Super
      • 3 odpowiedzi
    • Inwestowanie w obligacje detaliczne skarbu państwa - od podstaw!
      Sprawdź jak inwestować w obligacje skarbowe - krok po kroku! Detaliczne obligacje skarbowe to rodzaj obligacji emitowanych przez Państwo, które są oferowane indywidualnym inwestorom, takim jak osoby fizyczne, a nie instytucjom finansowym.

      Są to instrumenty dłużne, nienotowane na żadnym rynku, co oznacza że kupując taką obligację, w praktyce pożyczasz pieniądze państwu na określony czas, a w zamian otrzymujesz odsetki. Można więc powiedzieć że obligacje są indywidualną pożyczką na określony % dla Skarbu Państwa. Państwo odda Ci więcej niż od Ciebie pożyczyło.
        • Super
      • 6 odpowiedzi
    • Jak pozyskiwać i zarabiać na poleconych dzięki make-cash.pl
      W tym poradniku przedstawiam możliwości dostępne dla każdego użytkownika. Dowiesz się jak efektywnie wykorzystać forum do zbierania poleconych i budowania dodatkowych zysków.

      Make-cash.pl to miejsce, gdzie ludzie dzielą się swoimi doświadczeniami, poszukują porad i rekomendacji, a także nawiązują wartościowe kontakty. Codziennie odwiedza nas minimum 2000 unikalnych osób, które są zainteresowane zarabianiem przez Internet - a to ogromny potencjał, z którego może korzystać nie tylko administracja - ale każdy użytkownik forum !
        • Super
      • 2 odpowiedzi
    • Jak pisać treści na stronę internetową z wykorzystaniem AI
      Tworzenie treści od podstaw może być procesem czasochłonnym. Istnieje wiele mniejszych kroków, o których należy pomyśleć w drodze do stworzenia atrakcyjnych treści, takich jak badanie rynku, SEO i redagowanie tekstu, a to tylko początek. Jednak nie musisz zaczynać od zera, gdy istnieją narzędzia AI, które mogą pomóc w tworzeniu wysokiej jakości treści. 
        • Dzięki!
        • Super
      • 13 odpowiedzi
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Ta strona korzysta z ciasteczek, aby świadczyć usługi na najwyższym poziomie. Dalsze korzystanie z witryny oznacza zgodę na ich wykorzystanie. Polityka prywatności .