Dzisiaj chcemy przedstawić Wam coś, co możemy określić jedynie jako najbardziej imponujące oprogramowanie oparte na sztucznej inteligencji, jakie do tej pory widzieliśmy od Adobe, i jedno z najbardziej przydatnych narzędzi, które ogólnie przetestowaliśmy do naprawiania nagrań głosowych, pierwotnie nazywanych Project Shasta, a ostatnio Adobe Podcast.
Narzędzie do ulepszania mowy, które dzisiaj omówimy, jest częścią mało znanego projektu Adobe ogłoszonego w czerwcu 2022 r. Według firmy:„Projekt Shasta umożliwia nagrywanie i edytowanie dźwięku w oparciu o sztuczną inteligencję w Internecie, bez konieczności pobierania. Teraz każdy może stworzyć dźwięk, który brzmi profesjonalnie, bez konieczności bycia profesjonalistą”.
Są to poważne twierdzenia i wkrótce poddamy je testowi, aby zobaczyć, jak daleko można się posunąć za pomocą tego narzędzia. Odkryliśmy Project Shasta podczas relacjonowania targów IBC na początku tego roku i z naszego doświadczenia wynika, że wywarło to ogromny wpływ na nasze nagrania audio z wystawy. Choć IBC nie było tak hałaśliwe, jak na innych wystawach, które omówiliśmy, wciąż było mnóstwo hałasu w tle i dźwięku, które trzeba było oczyścić.
Narzędzie do poprawy mowy Project Shasta wyczyściło dźwięk tak dobrze, że musieliśmy ręcznie wprowadzić niski poziom szumu tła na wystawie, aby dźwięk brzmiał wiarygodnie.
Zrobiliśmy to w przypadku prawie 30 filmów z programu i spośród kilku godzin nagrań w różnych środowiskach, z różnymi konfiguracjami audio i ludźmi z bardzo różnymi akcentami angielskiego, znaleźliśmy tylko jeden lub dwa bardzo drobne problemy z wynikami. Całkiem imponujące jak na w pełni automatyczne narzędzie, które w zasadzie było wciąż w fazie beta.
Interfejs audio obsługiwany jednym kliknięciem – narzędzie do poprawy mowy Project Shasta

Jeśli nasz test targów IBC Cię nie przekonał, spróbujmy bardziej rygorystycznego testu. Wzięliśmy naszego A7 IV i nagraliśmy próbny test vloga przy ruchliwej ulicy w środku dnia za pomocą wbudowanego mikrofonu aparatu (proszę nigdy tego nie robić, to było tylko na potrzeby tego testu). Na powyższym filmie możesz usłyszeć nasze wyniki i jak widać nawet w tych okropnych warunkach narzędzie Adobe do poprawy mowy wykonało bardzo dobrą robotę.
Project Shasta to znacznie więcej niż tylko narzędzie do przywracania dźwięku. Firma Adobe stworzyła w pełni automatyczną usługę transkrypcji i wszelkiego rodzaju inne narzędzia, aby pomóc twórcom treści, a zwłaszcza twórcom podcastów. Demo możesz obejrzeć w poniższym filmie.
Oficjalny film Adobe o projekcie Shasta

Żeby spojrzeć na to z innej perspektywy, chociaż nie jesteśmy nawet blisko bycia inżynierami dźwięku, przez wiele lat pracowaliśmy z oprogramowaniem do odtwarzania dźwięku, takim jak iZotope, którego zaawansowana wersja kosztowała ponad 1000 dolarów, rozwiązując różne problemy z nagrywaniem dźwięku w naszych projektach komercyjnych, a także w LensVid.
iZotope to fantastyczne, profesjonalne narzędzie, które potrafi znacznie więcej. Jeśli jednak jedyne, czego chcesz, to udostępnienie pliku audio, naciśnięcie jednego przycisku i otrzymanie czegoś, co jest czyste i brzmi znacznie powyżej średniej (w większości sytuacji), wówczas narzędzie do poprawy mowy Project Shasta pokonuje iZotope i każde inne oprogramowanie, które znamy doskonale.
Następnie chcielibyśmy zobaczyć pełną integrację Project Shasta z Premiere Pro (i być może także Audition) z różnymi opcjami konfiguracji, aby umożliwić użytkownikowi pewien poziom kontroli nad wyjściem. Byłoby na przykład wspaniale, gdybyśmy mogli pozostawić w nagraniu chociaż odrobinę szumu otoczenia. Jeszcze bardziej interesująca byłaby opcja wybrania jednym kliknięciem tonu pomieszczenia, który można dodać z powrotem do dźwięku, aby brzmiał nieco bardziej „żywo”.
Ostatecznie, nawet w obecnej sytuacji, Project Shasta stał się naszym podstawowym narzędziem do każdego nagrania głosu, które robimy, czy to w naszym studiu z profesjonalnym sprzętem audio wartym tysiące dolarów, czy też do naprawiania źle nagranego dźwięku, który czasami otrzymujemy, a który w przeciwnym razie byłby całkowicie bezużyteczny bez bardzo drogich narzędzi i dużej ilości ciężkiej pracy.
Zanim zakończymy, mieliśmy ostatnio okazję porozmawiać z Markiem Websterem, dyrektorem ds. produktu w firmie Adobe zajmującym się audio i usługami internetowymi, i zadać mu kilka pytań na temat przeszłości, teraźniejszości i przyszłości Project Shasta. Cały wywiad znajdziesz poniżej:

Możesz bezpłatnie wypróbować narzędzie do poprawy mowy Adobe Podcat (konieczna jest rejestracja) na stronie Adobe Podcast (nie bój się dzielić się z firmą Adobe pomysłami na ulepszenia lub błędy).
Więcej ekskluzywnych artykułów i recenzji LensVid możesz sprawdzić, klikając poniższy link.
Iddo Genuth
Iddo Genuth jest założycielem i redaktorem naczelnym LensVid.com. Jest reporterem technologicznym pracującym dla międzynarodowych publikacji od końca lat 90., a fotografią zajmuje się od 2009 roku. Iddo jest także współzałożycielem firmy produkcyjnej specjalizującej się w komercyjnych treściach wizualnych dotyczących żywności i produktów.
W tym odcinku LensVid Talk zagłębiamy się w ogromną gamę nowego sprzętu…
Witamy w kolejnym podcaście LensVid Talk (odcinek 47). W tym tygodniu zagłębimy się w zmiany…
Dziś przyjrzymy się największemu członkowi okrągłej bazy iFootage…
Witamy w kolejnym pełnym akcji odcinku LensVid Talk (odcinek 46). W tym tygodniu zebraliśmy…