Skocz do zawartości

Programy AI Syntezatory mowy (odtwarzanie głosu jakiejś osoby)


Rekomendowane odpowiedzi

Widziałem, że na Youtube powstają już filmiki w których ludzie używają AI do ,,podrobienia'' głosu na przykład jakiegoś polityka. Jakie znacie najlepsze narzędzia AI (najlepiej darmowe) do odwzorowywania konkretnego głosu aby wypowiadał dany tekst? Są jakieś dobre bezpłatne programy tego typu?   

Odnośnik do komentarza

Zarejestruj się za darmo i naucz się zarabiać online!

  • Dostęp do darmowych poradników pokazujących krok po kroku jak zarabiać w Internecie
  • Sposoby zarabiania niepublikowane nigdzie indziej
  • Aktywna społeczność, która pomoże Ci rozwiązać problemy i doradzi
  • Profesjonalne treści na temat SEO, social media, afiliacji, kryptowalut, sztucznej inteligencji i wiele więcej!

@Igutu są dziesiątki takich "programów" - oczywiście płątnych, bo płacisz za jakość! Jednakże są 2 czy 3 projekty DARMOWE lecz wymagają od Ciebie jakiejś wiedzy programistycznej, podstawowej znajomości frameworków jak np. Anaconda i języka Pajton :P. 

Pamiętaj również że masz różne typy takich aplikacji - generowanie offline/na zapisanym pliku dźwiękowym lub online/na żywo z minimlną latencją dzięki czemu możesz rozmawiać np poprzez kamerkę ze zmienionym już głosem czy prowadzić live :). Nie mówiąc już o możliwościach renderowania Twojej twarzy i na wyszkolonym modelu np. Twojego sąsiada (będzie potrzeba setki ujęć oraz wiele minut a najlepiej godzin materiałów :P) możesz zadzwonić do swojej żony/dziewczyny zapyrać kiedy wpada na "herbatkę" i w ten sposób szybko zweryfikować wierność partnerki! :P

Oczywiście najbardziej wąskim gardłem jest tutaj karta graficzna i GPU - dlatego najlepiej pogodzić tutaj się z gorszą jakością w imię jak najniższej latencji oraz skryptowe opóźnienie latencji głosu tak żeby wsyzstko ze sobą współgralo ;). Mając najnowszego RTXa 4090 możesz spokojnie w czasie rzeczywistym (latencja nieprzekraczająca 10 ms) działać na rozdzielczości 480p, może i na 720p co dla rozmów wideo przez telefon jest w zupełności wystarczające a ewemtua;ną gorszą jakość mozna zawsze wytłumaczyć przejeżdżaniem przez wieś gdzie jest gorszy zasięg :).

Należy też pamiętać że deepfake robione w tym samym języku jest banalnie proste w porównaniu do zmiany właśnie jeżyka. Niby są już jakieś fajne biblioteki, które łatwo zaimplementować lecz w językach wysokiego poziomu przez co zżerają wiele zasobów i latencja leci na pysk na szyje. Także jak już mówiłem to zabawa dla osób które potrafią dobrze ogarniać kompromisy. Na szczęśćie (lub nie bo to będzie pogrom scamów i niebezpieczeństw)za 3-5 lat dług technologiczny będzie znacznie mniejszy zarówno software'owo jak i hardware'owo i zacznie się dopiero jazda! :)

  • Super 1
Odnośnik do komentarza

@Toker

Cytat

Mając najnowszego RTXa 4090 możesz spokojnie w czasie rzeczywistym (latencja nieprzekraczająca 10 ms) działać na rozdzielczości 480p, może i na 720p co dla rozmów wideo przez telefon jest w zupełności wystarczające a ewemtua;ną gorszą jakość mozna zawsze wytłumaczyć przejeżdżaniem przez wieś gdzie jest gorszy zasięg :).

O raju, to droga i zasobożerna zabawa. Ja niestety na chwilę obecną nie dysponuję (sprawną) kartą graficzną o parametrach lepszych niż Intel HD Graphics z 1GB pamięci graficznej :D

Jednak tak czy siak mnie w tym temacie nie chodziło o renderowanie deep fake tylko o sam głos, wyłącznie plik dźwiękowy. Nie ma naprawde żadnych darmowych dobrych stron czy programów od tego?  

Odnośnik do komentarza

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Ta strona korzysta z ciasteczek, aby świadczyć usługi na najwyższym poziomie. Dalsze korzystanie z witryny oznacza zgodę na ich wykorzystanie. Polityka prywatności .