Apple przyspiesza syntezę mowy AI bez utraty jakości – nowe badanie

3 godzin temu

Apple wraz z naukowcami z Uniwersytetu w Tel Awiwie opracowało metodę, która przyspiesza generowanie mowy przez AI choćby o 40%, bez pogorszenia zrozumiałości i naturalności dźwięku.

Rozwiązanie nazwane Principled Coarse-Grained Acceptance (PCG) polega na grupowaniu podobnie brzmiących tokenów audio zamiast rygorystycznego sprawdzania każdego pojedynczego dźwięku.

W praktyce model może zaakceptować „wystarczająco podobny” dźwięk, co eliminuje wąskie gardła typowe dla autoregresyjnych systemów text-to-speech. PCG wykorzystuje dwa modele: mniejszy, który gwałtownie proponuje dźwięki, oraz większy, który weryfikuje je na poziomie podobieństwa akustycznego.

Efekt? Wyraźnie szybsza synteza mowy, niski współczynnik błędów, zachowana barwa głosu i wysoka naturalność (4,09/5). Co istotne, technologia działa bez ponownego trenowania modeli i wymaga minimalnych zasobów pamięci, dzięki czemu nadaje się także do urządzeń mobilnych.

Nie bez znaczenia w tym przypadku może być także ostatnie, rekordowe przejęcie przez Apple firmy Q.ai.

Apple wydaje 2 mld dolarów na „niemą mowę”. To największy zakup od czasu Beats i klucz do sterowania przyszłością

Jeśli artykuł Apple przyspiesza syntezę mowy AI bez utraty jakości – nowe badanie nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału