Skocz do zawartości

Program pobierający teksty na stronach


Gość mariusz79132

Rekomendowane odpowiedzi

Gość mariusz79132

ProjektTekstu 

Działanie aplikacji

Aplikacja wyszukuje najpierw adresy stron na podstawie wyszukiwarki yahoo i słów kluczowych zawartych w pliku words.txt ( jedno słowo to jedna linia).

Następnie wchodzi na te strony i pobiera artykuły usuwając znaczniki htmlowe i zapisując je do bazy danych mysql lub plików. Zapisywane są tylko teksty które zawierają słowa kluczowe wpisane w pliku words.txt. Słowa kluczowe zostają rozdzielone pomiędzy wątki ( np 10 słów to każdy wątek dostanie po 2). Wyszukiwanie robione jest jednowątkowo. 

Obsługa proxy narazie nie jest dodana. 

Co to jest tekst na stronie?

Kod źródłowy zostaje rozdzielony na divy a następnie zostają usunięte tagi htmlowe < .*> , css <style></style> oraz JavaScript <script></script>. Pewnie część tekstów zawiera jeszcze te tagi ale wynika to z :

mojej nieumiejętności usuwania znaczników

błędów na stronie

Po co to:

Można szukać nisz lub tekstów. Szerszego zastosowania jeszcze nie znalazłem.

Ustawienia 

Plik config.propertiest zawiera ustawienia aplikacji oraz ich opis

Przykładowe ustawienia:

#MAKSYMALNA STRONA W WYSZUKIWARCE LINKÓW (YAHOO)

MAX_PAGE=1

#ILOŚĆ Wątków, THREADS powinien być mniejszy od ilości słów kluczowych

THREADS=2

#MAKSYMALNA ILOŚĆ ARTYKUŁÓW NA STRONĘ

ARTICLES=100

#CZAS OCZEKIWANIA NA STRONĘ

TIMEOUT=20

#MINIMALNA ILOSĆ SŁÓW W ARTYKULE

WORD_MIN=10

#MAKSYMALNA ...

WORD_MAX=100

#ZAPIS, NALEŻY WYBRAĆ TYLKO 1

#Zapis do plików tekstowych (folder articles)

SAVE_FILE=true

#Zapis do bazy danych

SAVE_DATABASE=false

#DATABASE, w przypadku gdy save_DATABASE=true

#POŁACZENIE Z BAZA 

URL=jdbc:mysql://localhost/articlesasd

USERNAME=root

PASSWORD=

Wymagania:

Java 8

Informacje:

W przypadku bazy danych tabele zostaną utworzone (Tworzone są za każdym razem ale nie chciało mi się tego sprawdzać czy istnieją;P ) .

Sposób uruchomienia

W przypadku systemu windows uruchomienie start.bat lub przejście do folderu komendą cd „ścieżka” a następnie wywołanie komendy:

java -jar ProjektTekstu.jar

Pobieranie:

https://www.dropbox.com/sh/u4t8pttlz8q3xim/AAAMGKxeskPeXcW6QTzVw3iba?dl=0

Kod źródłowy:

Nie zawarłem tam żadnych wiruchów, i w sumie trochę to pisałem gównokodem bo jestem trochę leniwy, ale jak ktoś chce zobaczyć jak to działa i jest napisane:

https://www.dropbox.com/s/8l7gy2vooi1s5l7/projektTekstu.zip?dl=0

W sumie to pierwszy raz cokolwiek udostępniam, nie wiem czy się to komuś przyda i czy ktoś jeszcze istnieje na tym forum. W razie czego proszę o opinie

Odnośnik do komentarza

Dołącz do nas za darmo i naucz się zarabiać!

  • Dostęp do darmowych poradników pokazujących krok po kroku jak zarabiać w Internecie
  • Sposoby zarabiania niepublikowane nigdzie indziej
  • Aktywna społeczność, która pomoże Ci rozwiązać problemy i doradzi
  • Profesjonalne treści na temat SEO, social media, afiliacji, kryptowalut i wiele więcej!

 

 

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Ta strona korzysta z ciasteczek aby świadczyć usługi na najwyższym poziomie. Dalsze korzystanie z witryny oznacza zgodę na ich wykorzystanie. Polityka prywatności .