Programy AI Syntezatory mowy (odtwarzanie głosu jakiejś osoby)

5 Sierpnia 2024

Widziałem, że na Youtube powstają już filmiki w których ludzie używają AI do ,,podrobienia'' głosu na przykład jakiegoś polityka. Jakie znacie najlepsze narzędzia AI (najlepiej darmowe) do odwzorowywania konkretnego głosu aby wypowiadał dany tekst? Są jakieś dobre bezpłatne programy tego typu?

5 Sierpnia 2024

@Igutu są dziesiątki takich "programów" - oczywiście płątnych, bo płacisz za jakość! Jednakże są 2 czy 3 projekty DARMOWE lecz wymagają od Ciebie jakiejś wiedzy programistycznej, podstawowej znajomości frameworków jak np. Anaconda i języka Pajton :P.

Pamiętaj również że masz różne typy takich aplikacji - generowanie offline/na zapisanym pliku dźwiękowym lub online/na żywo z minimlną latencją dzięki czemu możesz rozmawiać np poprzez kamerkę ze zmienionym już głosem czy prowadzić live :). Nie mówiąc już o możliwościach renderowania Twojej twarzy i na wyszkolonym modelu np. Twojego sąsiada (będzie potrzeba setki ujęć oraz wiele minut a najlepiej godzin materiałów :P) możesz zadzwonić do swojej żony/dziewczyny zapyrać kiedy wpada na "herbatkę" i w ten sposób szybko zweryfikować wierność partnerki!

Oczywiście najbardziej wąskim gardłem jest tutaj karta graficzna i GPU - dlatego najlepiej pogodzić tutaj się z gorszą jakością w imię jak najniższej latencji oraz skryptowe opóźnienie latencji głosu tak żeby wsyzstko ze sobą współgralo ;). Mając najnowszego RTXa 4090 możesz spokojnie w czasie rzeczywistym (latencja nieprzekraczająca 10 ms) działać na rozdzielczości 480p, może i na 720p co dla rozmów wideo przez telefon jest w zupełności wystarczające a ewemtua;ną gorszą jakość mozna zawsze wytłumaczyć przejeżdżaniem przez wieś gdzie jest gorszy zasięg :).

Należy też pamiętać że deepfake robione w tym samym języku jest banalnie proste w porównaniu do zmiany właśnie jeżyka. Niby są już jakieś fajne biblioteki, które łatwo zaimplementować lecz w językach wysokiego poziomu przez co zżerają wiele zasobów i latencja leci na pysk na szyje. Także jak już mówiłem to zabawa dla osób które potrafią dobrze ogarniać kompromisy. Na szczęśćie (lub nie bo to będzie pogrom scamów i niebezpieczeństw)za 3-5 lat dług technologiczny będzie znacznie mniejszy zarówno software'owo jak i hardware'owo i zacznie się dopiero jazda!

10 Sierpnia 2024

@Toker

Cytat

Mając najnowszego RTXa 4090 możesz spokojnie w czasie rzeczywistym (latencja nieprzekraczająca 10 ms) działać na rozdzielczości 480p, może i na 720p co dla rozmów wideo przez telefon jest w zupełności wystarczające a ewemtua;ną gorszą jakość mozna zawsze wytłumaczyć przejeżdżaniem przez wieś gdzie jest gorszy zasięg :).

O raju, to droga i zasobożerna zabawa. Ja niestety na chwilę obecną nie dysponuję (sprawną) kartą graficzną o parametrach lepszych niż Intel HD Graphics z 1GB pamięci graficznej

Jednak tak czy siak mnie w tym temacie nie chodziło o renderowanie deep fake tylko o sam głos, wyłącznie plik dźwiękowy. Nie ma naprawde żadnych darmowych dobrych stron czy programów od tego?