[Poradnik] Jak scrapować listy do K2

1 369 · 15 Lipca 2015

Na wstępie zaznaczę, że poradnik jest krótki, a pewnie przyda się każdemu

1. Pobieramy program GScraper z tego tematu. Nie będę rozpisywać się jak go włączyć itp, żalić można się w temacie softu.

2. Otwieramy i widzimy nasze cudo.

3. Tutaj zależy wszystko od Was. Zależy czy macie dostęp do publicznych proxy lub jakichkolwiek (szkoda tych płatnych ).

Jeśli macie, to klikacie na

Jeśli nie macie to odznaczacie "Use Proxy (Scraping and checking)" problem w tym, że program przestanie scrapować po 25k-50k linków, które i tak potem trzeba przefiltrować. Oczywiście proces można powtarzać co da nam większy rezultat.

4. Teraz najdłuższy chyba punkt. Wchodzimy w zakładkę "Scrape". I wypełniamy ją mniej więcej tak:

Lista footprintów:

inurl:"k2"inurl:"item"com_k2inurl:"com_k2"inurl:"component/k2"inurl:"option=com_k2&view"

Jeśli ktoś ma inne, więcej to super

Lista keywordów:

Jeśli zależy nam po prostu na liście liście np do T2 o ogólnej tematyce to klikacie na "Use built-in keywords" (można kilkukrotnie).

5. Klikamy na przycisk "Start Scrape"

6. Odczekujemy teraz kilka/kilkadziesiąt minut, lista się scrapuje. Kiedy wiemy, że więcej nie zeskrobiemy (np bez proxy)? Kiedy widzimy, że współczynnik Average speed ciągle spada. Wtedy dajemy na Stop Scrape.

7. Lista zapisuje się w folderze programu, nie chce mi się sprawdzać w jakim, ale wiem że jest w nim data

8. Teraz zescrapowaną listę importujemy przyciskiem "LIST IMPORT" (pewnie nikt się nie domyślił).

9. Lista pojawia się nam w głównym oknie programu.

10. Klikamy teraz na: i klikamy na "DO"

11. Teraz zaznaczamy w tej samej liście "Trim to domain". I już mamy listę, która wygląda jak do K2. Można pobawić się w filtry PR itp. - każdy znajdzie, nie ma sensu o tym pisać.

12. Gotowe, teraz wystarczy, że wkleicie listę do programu K2 Submitter i klikacie 'Testuj Rejestrację'. Po testowanie w wynikach pozytywnych macie gotową listę do K2.

I teraz tradycyjnie:

I na tym kończy się mój poradnik. Mam nadzieję, iż większości z Was się spodoba. Jeśli popełniłem jakieś błędy merytoryczne, ortograficzne lub gramatyczne to wybaczcie.

PS. Podziękowania dla Moriarty za pomoc w znalezieniu footprintów.

Ja i mój kolega Pan Świnka liczymy jedynie na reput za ten poradnik i ani złotówki!

Edytowane 15 Lipca 2015 przez rajza

8 019 · 15 Lipca 2015

Rezerwuję na wersję do Scrapeboxa.

1 181 · 17 Lipca 2015

@rajza,

Mógłbyś się podzielić informacją skąd bierzesz publiczne proxy ? Zawsze miałem z tym problem, żeby znaleźć w miarę działające.

1 369 · 17 Lipca 2015

Nie mogę

17 Lipca 2015

Nie mogę

Ale ja mogę :

Publiczne proxy zazwyczaj uzyskujemy na 3 sposoby

1. Skanowanie portów. Uzyskane w taki sposób proxy długo żyją, i szybsze, ale do takiego skanowania trzeba mieć mocny dedyk i autorski soft. Dedyk ma być bulletproof kategoria A, bo za skanowanie portów abuse lecą od razu do dostawcy IP - sposób dla zaawansowanych użytkowników.

2. Skrapwoanie proxy z otwartych i ręcznie wyselekcjonowanych źródeł. Robimy to na 2 sposoby lub wpisujemy w Google frazę "free proxy, i inne" i zapisujemy URL stron gdzie publikowane świeże proxy. Lub jako foto dajesz działające proxy wtedy również dostajesz url stron gdzie to proxy zostało upublicznione. Przykład żródła proxy - www.nntime.com(+podstrony), wtedy uzyskujesz adresy stron gdzie te proxy publikowane zapuszczasz soft do scrapowania proxy na te url..

3. Kupić nie drogi dostęp do API proxy już gotowych do pracy z google (proxymarket, proxygen) - sposób z którego korzysta większość. Kupujesz API, w panelu wpisujesz IP na ktorym stoi soft do pobrania proxy i harwestowania, wpisujesz w harwester co ile ma odświeżać listę ( w zależności od kupionego pakietu).

Aby proxy sprawdzić przed harwestwoaniem trzeba mieć soft do testowania proxy pod Google ( jeśli hawestujesz w Google) większość harwesterów ma taką funkcję. Jeśli kupujesz API można API dać od razu w soft do harwestwoania te proxy ju sprawdzone i non-stop testowane, rotowane. Można proxy testować scrapeboxem, scrapeboardem, innymi softami. Proxy publiczne mają to do siebie, że nie żyją długo i wiele z działających maja BAN w Google lub innych dużych serwisach.

Poradnik w mojej ocenie zawiera wiele podstawowych błędów włącznie z "Lista footprintów" przy pomocy takich footprintów to co wyda harwester będzie zbyt ogólne. Bez sensu ganiać soft.

Stwierdzenie Publiczne proxy (można trocha bez) jest prosto komiczne, przy zapytaniu inurl: Google banuje IP harwestera po drugim zapytaniu i wydaje captcha. Gscraper captcha nie przepisuje.

Edytowane 17 Lipca 2015 przez intermac

1 369 · 17 Lipca 2015

błędów

Ok napisz swój darmowy na ten temat. Tak to już jest jak coś za darmo to złe prawda? To był mój ostatni poradnik na tym forum. Co do google. Przecież GScraper nie harwestuje tylko w google ;o Po 5 minutach 50k linków i po przefiltrowaniu zostaje jakieś 5-10k. Mało? Good luck. PS. Podaj swoją listę footprintów, takich 'nieogólnych' i 'niebezsensownych'.

Pozdrawiam

17 Lipca 2015

@Rajza Jeśli Twoja płatne poradniki na takim samym poziomie to współczuje kupującym Czemu takich poradników nie piszesz, nie sprzedajesz na PiO? Odpowiem bo tam zostałeś by wyśmiany

Podaj swoją listę footprintów, takich 'nieogólnych' i 'niebezsensownych'

Zacytuje klasyka "Nie mogę" bo te footprinty zasilą jakiś płatny poradnik z SEO

jakieś 5-10k. Mało

Nie mało jeśli to AA lub precyzyjny harwest. K2submitter zrobi z tego co ty uczysz 5-10k - 20 linków. Moja odpowiedz - bardzo mało

Jeśli popełniłem jakieś błędy merytoryczne, ortograficzne lub gramatyczne to wybaczcie

Wybaczam.

Edytowane 17 Lipca 2015 przez intermac

1 369 · 17 Lipca 2015

intermac

Jakoś nikt z płatnego nie był niezadowolony. Do czego zmierzasz co? Żal dupe ściska czy co? Bo nie rozumiem toku rozumowania. Zrób poradnik i good.

I nie rozumiem po co na pio? Przecież mogę wybrać odbiorców prawda? Cieszę się że jesteś pro evo pozycjoner i zycze wysokich zarobków.

Edytowane 17 Lipca 2015 przez rajza

17 Lipca 2015

Jeszcze jedno co do gscrapera to harvestuje ty

Ok napisz swój darmowy na ten temat. Tak to już jest jak coś za darmo to złe prawda? To był mój ostatni poradnik na tym forum. Co do google. Przecież GScraper nie harwestuje tylko w google ;o Po 5 minutach 50k linków i po przefiltrowaniu zostaje jakieś 5-10k. Mało? Good luck. PS. Podaj swoją listę footprintów, takich 'nieogólnych' i 'niebezsensownych'.

Pozdrawiam

Gscraper harvestuje tylko w google.

8 019 · 17 Lipca 2015

@intermac, nie wiem jak na PiO, ale tutaj preferujemy wspólną pomoc i wymianę zdań na poziomie bez kąśliwych uwag. Mamy się od siebie wzajemnie uczyć, a nie wytykać sobie błędy. Rajza poświęcił czas na napisanie tego poradnika i jestem mu za to osobiście wdzięczny, ale jeśli widzisz jakieś błędy - napisz do niego na PM (lub w temacie, jak wolisz) i wskaż gdzie można coś poprawić lub uzupełnić, byśmy wszyscy na tym skorzystali. Zauważyłem, że w swoich postach, w moim odczuciu, wywyższasz się nie tłumacząc dokładnie o co chodzi. Każdy sobie rzepkę skrobie, ale z doświadczenia podpowiem, że z takim nastawieniem nie zdobędziesz tu zbyt wielu przyjaciół.

17 Lipca 2015

Jeszcze jedno co do gscrapera to harvestuje ty

Ok napisz swój darmowy na ten temat. Tak to już jest jak coś za darmo to złe prawda? To był mój ostatni poradnik na tym forum. Co do google. Przecież GScraper nie harwestuje tylko w google ;o Po 5 minutach 50k linków i po przefiltrowaniu zostaje jakieś 5-10k. Mało? Good luck. PS. Podaj swoją listę footprintów, takich 'nieogólnych' i 'niebezsensownych'.

Pozdrawiam

Gscraper harvestuje tylko w google.

1 369 · 17 Lipca 2015

google

Fakt, pomyliłem softy. Dzieki!

18 Lipca 2015

@intermac, nie wiem jak na PiO, ale tutaj preferujemy wspólną pomoc i wymianę zdań na poziomie bez kąśliwych uwag.

Jeśli człowiek mianuje się ekspertem od SEO i sprzedaje jakieś poradniki a nie wie, że Gscraper nie harwestuje nic po za Google i beż proxy nie scharwestue nawet 100 k2. Teraz odwraca kota ogonem i piszę. że pomylił soft a właśnie pod ten soft jest zrobiony ten "poradnik" to w jaki sposób wytłumaczyć, że " król jest goły" ?

Przecież piesze że trocha można harwestować bez proxy i podawał mi nawet z palca wyssane liczby. To co on ma trwałą amnezje i nie wie pod jaki soft pisze poradnik?

Wujek Ziemny, nie szukam w internecie przyjaciół ale jak ktoś wciska takie kity a na pytanie o proxy odpowiada ' nie mogę " to musiałem zareagować.

Oczywiście jeśli to przeszkadza jakimś Waszym układom biznesowym i uważasz, że nie znam się na SEO, możesz mnie zbanować Pozdrawiam

Edytowane 18 Lipca 2015 przez intermac

1 369 · 18 Lipca 2015

intermac

Żadnym ekspertem SEO się nie mianuję. Poradnik, który sprzedaję to sprawdzone strategie, które działają. To nie znaczy, że uważam się za guru SEO. Pomyliłem gscraper z scrapeboxem w jednej kwestii i co? Można harwestować bez proxy. Nie są to liczby wyssane z palca. Co do proxy, mam 'dostawcę' dlatego powiedziałem 'nie mogę', a 90% userów tutaj wie skąd ogólnie brać proxy.

Cieszę się, że znasz się na SEO... ale ale. Zarejestrowałeś się na make-cash - Forum o zarabianiu przez internet, a to oznacza, że mimo tego, iż ogarniasz SEO to na tym nie potrafisz zarobić. Jedziesz po wszystkich tutaj, którzy zarabiają? Jesteś przecież pro SEO więc gdzie tkwi problem? Napisz swój poradnik i tyle. Jak Ci coś nie pasuje w moich poradnikach to po prostu ich nie czytaj ;o Koniec offtopu

18 Lipca 2015

iż ogarniasz SEO to na tym nie potrafisz zarobić

skąd taki pomyśl Mistrzu, możesz rozwinąć swoja myśl? Zarejestrowałem się zupełnie z innych powodów.

Pomyliłem gscraper z scrapeboxem w jednej kwestii i co?

To, że to co piszesz w swoim poradniku nie ma sensu.

Można harwestować bez proxy.

Można Mistrzu, ale harwester musi wykorzystywać algorytm przeglądarki i mieć możliwość przepisywać captcha. To ma coś wspólnego z twoim poradnikiem?

Co do proxy, mam 'dostawcę

Ten dostawca ogłaszał się i nie jeden raz, pozdrów "Włamywacza", lub Adama. bardziej obstawiam pierwszego.

Jeśli kupujesz proxy od dostawców to znaczy nie węsz, że można mieć ich bezpłatnie, w dużych ilościach ( wystarczy dla jednej osoby na ciągły harwest), zawsze działające wydając jednorazowo ok 30 USD .

Koniec offtopu

Racją, dyskusja o twoim poradniku to offtop Już nie będę recenzować twojego poradnika, bo każda inna opinia oprócz zachwytu z tego co widzę jest nie mile widziana.

Pozdrawiam

Edytowane 18 Lipca 2015 przez intermac

1 976 · 18 Lipca 2015

Pominąwszy spinę o proxy i o to czy poradnik rajzy jest szajsem czy nie (wg mnie nie jest). to mam pytanie do @intermac. Czy mógłbyś mi wyjaśnić co rozumiesz pod pojęciem "zbyt ogólne" wyniki? Czy chodzi Ci o to, że strony nie będą dopasowane tematycznie? Oczywiście, może to być problemem, z drugiej strony trzeba mieć sporo footprintów pod K2 i naprawdę dobre proxy aby znaleźć kilka tysięcy konkretnych miejscówek, niekiedy oczywiście przydają się i ogólne więc nie uważałbym tego za błąd, ponieważ ogólne harvestowanie ma swoje zastosowanie tak jak i niekiedy bardziej przydatne jest skonkretyzowanie keywordów.

19 Lipca 2015

"zbyt ogólne" wyniki? Czy chodzi Ci o to, że strony nie będą dopasowane tematycznie?

Nie, harwester wyda wyniki gdzie sukces będzie na poziomie 0,5 %. Na pewno osoby które próbowali przygotowywać listę do k2 w.d poradnika rajzy już to zauważyli.

z drugiej strony trzeba mieć sporo footprintów pod k2

Właśnie, że nie można nawet jednym footprintem ale odpowiednie utworzonym i wymieszanym ze słownikiem.

Rajza nie rozumie podstawowych zasad harwestowania, nie tylko k2. Oczywiście moglem by pokazać na praktycznych przykładach jak to wygląda ale całkiem prawdopodobnie to wyląduje w kolejnym czyimś płatnym poradniku. Ja nie mam zamiaru szkolić szkoleniowców.

naprawdę dobre proxy aby znaleźć kilka tysięcy konkretnych miejscówek,

Harwestowac trzeba przy pomocy prywatnych proxy z podłączonym OCR lub przy pomocy rotowanych ciągle sprawdzanych proxy publicznych. Od jakiegoś czasu proxy L3 nawet jak wydają captcha i tak nie wydają wyników, Google banuje proxy publiczne czasowo.

Jeśli chodzi o k2 to zaindeksowanych w Google stron z k2 jest ok 650 000 ( unikalnych domen). Profili z linkiem w zależności czym będziemy ich robić można zrobić od 3 do 20k.

niekiedy oczywiście przydają się i ogólne więc nie uważałbym tego za błąd

Nie w przypadku k2

Edytowane 19 Lipca 2015 przez intermac

1 976 · 19 Lipca 2015

Właśnie, że nie można nawet jednym footprintem ale odpowiednie utworzonym i wymieszanym ze słownikiem.

Może jednak pokaż jakbyś mógł.

Nie w przypadku k2

Dlaczego?

21 Lipca 2015

To i ja dorzyce swoje 3 grosze.

- Osobiście uważam że proxy to totalna podstawa jesli chodzi o harvest, jak komuś szkoda pary zł na zakup to niech nawet recznie dodaje z jakichs znalezionych w google miejscówek, po za tym w SeoTools chyba znalazło by sie kilka narzedzie z jakimkolwiek scraperem proxy.

- inurl:"item" - wklepywał ktoś to w ogóle w google?

- pkt 7 i 8 jeśli nie obciązamy za bardzo maszyny to jest wystarczy mieć odznaczoną opcje "don't show url at scraping"

- pkt. 10 i tu znów mozemy skorzystać z opcji "remove duplicate domain at scraping", ot takie małe szczegóły...

- jesli nie zalezy nam na jakiejs wyselekcjonowanej liscie, czy tam robimy liste pod k2 itp. to rzeczywiscie nie ma sensu używac operatorów typu inurl: wystarczą proste footprinty typu

com_k2 task user
itemlist option user k2
component/k2 user "Website URL"
component/k2 itemlist "Website URL"

"option=com_k2" view user

task user option=com_k2

task user option=com_k2 id

index.php/component/k2/itemlist/user

i wszelkie mozliwe mixy podobnych...

- keywordy... zamiast wbudowanej listy polecam przejrzec sobie w google troche k2 i szukać części wspólnych, zorientowac sie jaki content przewija sie najczesciej, używać członów wbudowanych w url profilu itp.

zdecydowanie lepsze rezultaty da nam lista typu:

"Website URL"

"pożyczki online"

chwilówki

"payday loans"

"option" "user"

itemlist

"cash advence"

niz

pizzicato
rot
piss
mildly
sibylline
Saudi Arabia
Gambia
pull-up

kombinować oczywiscie mozna na wiele sposobów np. używając jako keywordów nr profili na zasadzie:

id=55

id=56

id=132

user/48

user/234

nie ograniczając sie wyłacznie do profili ale szukając także urli z "tag" "category" "article", czy np. po konkretnej dacie, dniu kiedy została dodana jakaś treść... (zeby nie było za łatwo sami musicie poszukać co wklepać w footprint) ;p

mozemy szukac bezposrednio strony rejestracji używając np.

component/users/ view=registration
"The date of birth entered should use the format" registration
"The date of birth entered should" component registration

przenosic to na inne języki:

component view registration "Rejestracja użytkownika"

component/users/ view=registration Créer un compte

Jak ktoś chce jakieś bardziej sprecyzoane miejscówki to musi sam troche poczytać o operatorach, posprawdzac, potestować. i wtedy mozeby tworzyc footprinty typu np. k2 z francji, pojawiające sie w indeksie w ost. tyg. niskie id profilu/możliwość rejestracji przez soft z którego korzystamy, z pominięciem captchy itp. itd.

- jeszcze mały tip odnosnie filtrowania... jak macie 100k unikalnych domen, przed opcją "Trim to domain" o której pisał rajza warto na szybko zbudowac sobie liste słow które powinny lub nie powinny zawierać nasze k2.

chodzi generalnie o to ze jeśli mamy duzo url'i w których znajduje sie np. showthread, node, guestbook, wiki itp. można je w klika sekund usunąć wchodząc w zakładke filter, tam mamy "delete url if" wybieramy "url include"i wklejamy pojedynczo powyzsze.

Opcja odwrotna - wybieramy "url doesn't include" i wklejamy wyrażenia, które w k2 powinny mieć miejsce typu:

component/k2/itemlist/user

option=com_k2&view

itd.

jak zbyt bełkotliwie to postaram sie jutro coś tam poprawić/rozwinąć.

21 Lipca 2015

Według poradnika Rajzy zebrałem przez 16 godzin ponad 18k adresów. Do scrapeowania użyłem około 1000 publicznych proxy. Po przefiltrowaniu zostało prawie 6k adresów i puściłem rejestrację według której pozytywnie zakończyło się ponad 98% rejestracji. Na maila natomiast dotarło tylko 20% linków do aktywacji. Dlaczego wynik jest taki niski, czy przyczyną może być skrzynka pocztowa? Używam konta na gmailu.

Zaloguj się

[Poradnik] Jak scrapować listy do K2

Rekomendowane odpowiedzi

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Gość P.M

Odnośnik do komentarza

Odnośnik do komentarza

Gość P.M

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Odnośnik do komentarza

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Zarejestruj nowe konto

Zaloguj się

Make-Cash.pl tworzą praktycy

Ostatnio aktywne tematy

Polecana zawartość

Wybrany przez

Wybrany przez

Wybrany przez

Wybrany przez

Wybrany przez

Powiadomienie o plikach cookie