Skocz do zawartości
spacer.png
spacer.png

Agenci AI - Automatyzacja wszystkiego | Sztuczna Inteligencja


Rekomendowane odpowiedzi

Opublikowano
W dniu 24.03.2026 o 19:43, Feniksowy90 napisał(a):

Masz do każdego osobną karte sim? Czy jak to działa?

Fizyczne device z kartą SIM - najbezpieczniej.
BOXY z telefonami niestety nie mają slota na SIM (nie zamówiłem :( ) i korzystają z VPN (surfshark ma w opcjach rotowanie IP) 
Ewentualnie można to rozwiązać poprzez serwisu 'iproxy . online' i tam ze starego androida hostować 5G na telefony lub przeglądarke.

Opublikowano

OK! Skoro ostatni post był o automatyzacji przeglądarki, przyszłe wpisy powiedzą bardziej o telefonach + jak agenci w tym pomagają.

Jedna rzecz - mówiąc "agenci" - nie mam na myśli stricte OpenClaw.
On sobie grzecznie siedzi na drugim (słabym) PC z Linuxem Ubuntu LTS i nadal zajmuje się postowaniem na X/FB + produkuje treści na bloga/sociale.
Sformatowałem Windowsa, zsetupowałem wszystko na nowo - działa o niebo lepiej kiedy nie operuje na Windows. Dodatkowo zasila go subskrybcja OpenAI więc 20$  miesięcznie załatwia sprawę.
Agenci to także CLAUDE CODE, Cursor, Codex etc. 

Głównie z Claude Code pracuję nad toolem do telefonów. 

Generalnie automatyzacja telefonów jest teraz w przebudowie. Trochę to potrwa, ale finalnie mam na to jasny plan - przebudować istniejący tool i dodać mu więcej "agentowości i możliwości AI".
Do tej pory to była prosta automatyzacja przez maestro i sztywne wykonywanie przygotowanych skryptów przez adb. 
Czyli standard jak w przypadku istniejących narzędzi.
W planach mam dodać lekki model VISION który mógłby analizować ekran w czasie rzeczywistym i realnie wykonywać akcję na urządzeniu, a skrypty byłyby pomocą. 
Nie wiem czy uda mi się to zrealizować - ale na pewno dodam CLI tak, aby każdy agent mógł tym zarządzać / wywoływać akcje poprzez terminal. 
Finalnie za jakiś czas powstanie z tego narzędzie które może będzie dostępne do zakupu :P 
Tool do telefonów to jedyna rzecz o której tutaj nie chce zbyt dużo pisać szczegółowo bo finalnie chciałbym zrobić z tego produkt.
Buduje sobie na spokojnie w wolnej chwili.
Na bieżąco później będę dzielić się progresem :) 

Ale teraz nie o tym! O tym będzie później :) 

Google kilka dni temu wypuścił nową wersje rodziny modeli Gemma 4!
Odrazu po zobaczeniu - pobrałem i naprawdę jestem pod ogromnym wrażeniem. 
Gemma 4 - Google DeepMind - tutaj pełny opis.
W skrócie:
Gemma jest wytrenowana na 140 językach - jest za darmo do pobrania na własny komputer.
Potrafi analizować obrazy, audio, inteligentnie odpowiadać - serio! oraz wywoływać narzędzia (tool_use)
Zrobiłem małe testy, ale nie będę tego screenować tutaj na forum - jeśli kogoś to interesuje to można znaleźć na DC.

image.thumb.png.5d40f6800fb2b709b857358538446889.png

Odrazu pomyślałem, że będzie świetnym zastępcą na proste operacje typu generowanie postów za darmo, wykorzystanie modelu jako "mózg bota na Discord" (Discord Assistant) czy prosty ChatBot na stronę. 
Poszedłem jeszcze dalej! 
Zamiast ciężkiego awatara z poprzednich wpisów, który był spoko klaunem i zabawką - stworzyłem prawdziwego prywatnego local AI Companiona!
Wygląda tak:
image.thumb.png.21177a2633e2a3569ff88e87c2d43228.png

I jest mini aplikacją która żyje sobie w "pasku zadań". 
Dosłownie mini :D 
image.png.f45d9dd91578e92ab55818c2abaf5d92.png
Jest naprawdę przydatny! 

To nie OpenClaw czy Claude do rozwiązywania skomplikowanych tasków czy kodowania automatyzacji. 
Ale to przede wszystkim prywatny AI local compan który realnie usprawnia to co robie i działa kompletnie za FREE. 
Wymyśliłem sobie to tak, że ma "pluginy/skille" które można łatwo dobudowywać.


Najlepsze to:

 

  • Wiki - baza danych tworzona na prostych plikach .md przez LLM - aktualizowana na bieżąco. (karpathry style - może ktoś będzie wiedział o co chodzi :) )
  • Daily - przeniesiona logika z mini apki do ściągania newsów z popularnych blogów, githuba etc. + automatyczne wytłumaczenie, generowanie posta przez LLM.
    Dodatkowe to:
  • Możliwość rozmowy przez mikrofon/wizja przez kamerę
  • Analiza obrazu z monitora 
  • Clipboard (analiza tego co skopiowane w schowku)
  • Notes/Tasks - prosta, ale przydatna podstawa

Wiki/Daily mają więcej funkcji, ale nie chcę śmiecić tego dziennika akurat tym, bo dotyczy czegoś innego.

Ale tak pomyślałem, że ciekawie byłoby stworzyć osobny dziennik w stylu 'build in public' - gdzie cały proces tworzenia byłoby też OpenSource na GitHub.
W sensie takim, że każdy mógłby sobie pobrać taką apkę i wprowadzić dowolne zmiany lub współtworzyć to razem ze mną! :) 

Mimo, że to mały model potrafi realnie wywoływać przygotowane wcześniej narzędzia, więc planuje dodać realne agentowe umiejętności.

Local LLM to nie jest nic nowego, ale najmniejsza gemma jest tak dobrze zoptymalizowana, że działa nawet na laptopach czy TELEFONACH. 
Dlatego tak się jaram! Więc możesz mieć takiego companiona dosłownie wszędzie - offline - za darmo.

Ja i tak sobie będę to rozwijać, ale zastanawiam się czy ktoś tutaj byłby chętny obserwować również taki drugi dziennik? :D 

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Tylko zalogowani użytkownicy mogą dodawać komentarze.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Ta strona korzysta z ciasteczek, aby świadczyć usługi na najwyższym poziomie. Dalsze korzystanie z witryny oznacza zgodę na ich wykorzystanie. Polityka prywatności .