AI Assistance:zwiększ zaangażowanie za darmo dzięki funkcji zamiany mowy na tekst w programie Premiere Pro

Jeśli oglądałeś filmy wprowadzające na Adobe MAX 2020, prawdopodobnie zauważyłeś kilka trendów kształtujących się podczas demonstracji produktów.

Urządzenia mobilne i społecznościowe były (i zawsze będą) głównymi punktami, ale sztuczna inteligencja (AI) i uczenie maszynowe (ML) — czyli Sensei ponieważ firma Adobe zdecydowała się je oznaczyć – weszła na scenę na wiele zaskakujących sposobów.

Jak zawsze, dużą część czasu antenowego poświęcono Photoshopowi, który dodał pakiet narzędzi Sensei o nazwie Filtry neuronowe które obejmują powiększanie obrazu, zastępowanie nieba i postarzenie portretowe. Ale chociaż obracanie zegara do przodu na twarzy jest zabawne, a zamiana tej wysadzonej panoramy na standardowy zachód słońca sprawia, że krajobraz jest ładniejszy, trudno jest dostrzec dużą wartość komercyjną w tych narzędziach. W tym celu powinieneś przyjrzeć się najmniej omawianej funkcji sztucznej inteligencji w Premiere Pro — zamiana mowy na tekst.

Przyjrzyjmy się, dlaczego możesz tego chcieć, jak możesz z niego korzystać i czy to narzędzie do uczenia maszynowego może zwiększyć Twoją produktywność.

Nie rozmawiamy o tym

Poświęćmy chwilę, aby przypomnieć, że nie jest to pierwsza próba Adobe wypuszczenia narzędzia do konwersji nagranego dźwięku na tekst edytowalny. Analiza mowy została dodana do programu Premiere Pro w 2013 roku. Nie była… świetna.

Kiedy testowałem go wtedy, najlepszym opisem uzyskanych wyników byłaby sałatka słowna.

Ale żeby być uczciwym, to samo dotyczyło innego oprogramowania w tamtym czasie. Automatyczna transkrypcja Google dla filmów z YouTube była równie niewiarygodna. Jak ujął to jeden z komentatorów, „z mojego doświadczenia wynika, że wykonuje tak złą robotę, że czas, który zajęłoby mi poprawienie tego, jest znacznie dłuższy niż czas, który zajęłoby mi samodzielna transkrypcja”.

I w tym, w skrócie, był problem. Nic więc dziwnego, że firma Adobe wycofała analizę mowy z publicznego wydania w 2014 r. i milczała w tej sprawie, dopóki wspaniały Jason Levine nie przywrócił jej ponownie na światło dzienne w 2020 r.

Różne pociągnięcia

Motywacja do automatycznego generowania podpisów może zależeć od Twojej perspektywy biznesowej.

Na przykład firmy takie jak Google i Facebook chcą tego, ponieważ umożliwia indeksowanie i przeszukiwanie filmów, co pozwala nam znajdować treści w filmach (i sprzedawać boksy reklamowe w oparciu o kontekst).

Ale w przypadku producentów i dystrybutorów wideo potrzeba napisów prawdopodobnie pochodzi z innego miejsca.

Ułatwienia dostępu

Prawa dotyczące dostępności są różne na całym świecie, ale najbliższe globalnemu standardowi są Wytyczne dotyczące dostępności treści internetowych (WCAG) opublikowane przez konsorcjum World Wide Web Consortium (W3C). Warto zauważyć, że sekcja 7.3 obecnego WCAG wskazuje, że media bez napisów są uważane za błąd krytyczny, który automatycznie kończy się niepowodzeniem procesu oceny.

W Stanach Zjednoczonych FCC wprowadziło już wymóg prawny, aby wszystkie treści telewizyjne nadawane w Ameryce były oznaczone napisami, a wszelkie późniejsze przesyłanie strumieniowe tych treści podlega tym samym zasadom.

I chociaż prawdą jest, że treści, które są wyjątkowo nadawane przez Internet, nie podlegają tym przepisom, przepisy, w tym ustawa o Amerykanach niepełnosprawnych (ADA), zostały już z powodzeniem wykorzystane jako podstawa pozwów przeciwko platformom strumieniowym, takim jak Netflix i Hulu.

Dlatego w dzisiejszych czasach prawdopodobnie bezpieczniej jest założyć, że napisy są wymagane przez prawo w kraju/stanie, w którym prowadzisz działalność, niż dowiedzieć się na własnej skórze.

Media społecznościowe

Chociaż spełnienie wymagań dotyczących dostępności jest doskonałym uzasadnieniem dla napisów, jest to również korzystne dla odbiorców, którzy nie cierpią z powodu ubytku słuchu, zwłaszcza jeśli chodzi o wideo w mediach społecznościowych.

Wyciszone autoodtwarzanie szybko staje się normą dla wideo w przewijanych kanałach społecznościowych i szacuje się, że aż 85 procent wyświetleń wideo ma miejsce z wyłączonym dźwiękiem. Jeśli więc chcesz poprawić stosunek sygnału do szumu treści w mediach społecznościowych, napisy są teraz istotną częścią procesu.

Globalny zasięg

A ci z nas, którzy pracują na rynkach globalnych, od dawna wiedzą, że napisy to najłatwiejszy sposób na zmianę przeznaczenia filmu i treści wideo dla odbiorców mówiących innym językiem. (Z pewnością o wiele mniej zaangażowany niż dubbing i ADR.)

Chociaż niektóre usługi tłumaczeniowe mogą działać bezpośrednio z oryginalnych nośników, udostępnienie pliku napisów w oryginalnym języku może przyspieszyć ten proces.

Istnieją oczywiście inne powody, dla których napisy szybko stają się istotnym elementem produkcji medialnej, i to nie tylko z powodu memów.

Ale chociaż potrzeby mogą się zmieniać w zależności od biznesu, podstawowa korzyść jest taka sama — napisy w mediach pomogą Ci dotrzeć do większej liczby odbiorców. I to jest dobre dla wszystkich .

Zacznijmy przedstawienie

Aby rozpocząć, otwórz projekt, który chcesz opisać w programie Premiere Pro i aktywuj sekwencję docelową w widoku osi czasu.

W zależności od tego, jak ustrukturyzowałeś swoją edycję, niewielka ilość przygotowań może być korzystna przed przejściem do przodu.

Na przykład, jeśli ułożyłeś wiele wokali na osobnych ścieżkach lub jeśli masz mieszankę wokali i efektów dźwiękowych/muzyki na tym tym samym ścieżki, powinieneś poświęcić trochę czasu na oznaczanie klipów wokalnych jako dialogów za pomocą panelu Essential Sound Panel (możesz także wyciszyć wszelkie niechciane ścieżki na osi czasu, jeśli jest to łatwiejsze). Dzięki temu program Premiere Pro będzie wiedział, które zasoby należy uwzględnić w wyeksportowanym dźwięku. analizuje później.

Ponadto, jeśli nie chcesz tworzyć podpisów dla całej sekwencji, powinieneś ustawić punkty wejścia i wyjścia sekwencji, przesuwając głowicę odtwarzania do wymaganych pozycji i naciskając odpowiednio klawisze I i O. (Pamiętaj, że pasek obszaru roboczego nie jest używany do tej funkcji).

Kiedy będziesz gotowy, otwórz okno Tekst (Okno->Tekst) i naciśnij Sekwencja transkrypcji przycisk.

Twoje opcje w tym momencie są proste. Możesz wyeksportować miks tylko tych klipów, które oznaczyłeś jako dialog, możesz wybrać miks, aby utworzyć miks całej sekwencji, lub możesz wybrać konkretną ścieżkę do wyeksportowania z menu rozwijanego.

Obecnie nie ma możliwości wybrania wielu ścieżek audio do miksowania, co może być irytujące, jeśli masz wiele głośników na osobnych ścieżkach. Na razie po prostu wycisz ścieżki, których nie chcesz uwzględniać, i wybierz opcję Miksuj.

Przetwarzanie mowy na tekst obsługuje imponujący wybór języków, które obejmują większość populacji świata. Godnymi uwagi wyjątkami są arabski, bengalski i indonezyjski, ale interesujące są zarówno amerykańskie, jak i brytyjskie warianty angielskiego. (Jako emigrant z Wielkiej Brytanii mieszkający w Australii, ten ostatni zdobywa ze mną dodatkowe punkty.) Jednak mogę komentować skuteczność narzędzia tylko w języku angielskim.

Warto zauważyć, że zdolność Sensei do identyfikacji różnych mówców – co było domyślnym zachowaniem w wersji beta – wymaga teraz zgody i nie jest dostępna w Illinois, prawdopodobnie ze względu na obawy dotyczące prywatności.

Proces transkrypcji jest stosunkowo szybki, a czterominutowy projekt testowy z dwoma głośnikami zajmuje około dwóch minut, a godzinna sekwencja zajmuje 24 minuty, co oznacza, że czas realizacji wynosi około połowy czasu działania.

Ale zamiana mowy na tekst jest (głównie) oparta na chmurze i nie można przewidzieć, jakie mogą być prędkości, jeśli całe członkostwo Adobe Creative Cloud nagle zacznie przeżuwać cykle obliczeniowe Sensei w tym samym czasie. To powiedziawszy, nawet jeśli kolejka do pracy stanie się konieczna, ty i twoja stacja robocza będziecie mogli przynajmniej zrobić kawę lub nadrobić zaległości w innych zadaniach w międzyczasie.

Wróć do pracy

Kiedy Sensei skończy z dźwiękiem, zakładka Transkrypcja w panelu Tekst zostanie wypełniona wynikami.

I choć Twój przebieg może się różnić, muszę powiedzieć, że byłem pod wrażeniem dokładności testów, które przeprowadziłem. Wersja beta, którą przetestowałem po raz pierwszy, była dobra — wersja publiczna jest jeszcze lepsza.

Włączając profilowanie mówców, Sensei rozpoznaje wielu mówców, identyfikując ich jako Mówca 1, Mówca 2 itd. Jeśli zrezygnujesz, po prostu wyświetli listę Nieznany obok segmentów akapitów.

Tak czy inaczej, możesz je nazwać, klikając wielokropek w lewej kolumnie karty Transkrypcja i wybierając Edytuj głośniki.

To narzędzie pozwala ręcznie naprawić przypadki, w których Sensei mógł nieprawidłowo zidentyfikować osoby mówiące o podobnie brzmiących głosach. Warto poświęcić na to trochę czasu, zanim przejdziesz do etapu tworzenia napisów.

To samo dotyczy czyszczenia transkrypcji. Jeśli nie masz wielkiego szczęścia w analizie zamiany mowy na tekst, w transkrypcji będą błędy. Są one bardziej prawdopodobne w nagraniach z bardziej konwersacyjnym przekazem, hałasem w tle, słowami niebędącymi słownikami, takimi jak nazwy firm, lub wieloma mówcami rozmawiającymi ze sobą.

I chociaż będzie można edytować tekst po przekonwertowaniu go na napisy, należy poprawić transkrypcję przed przechodzisz do następnego kroku. Dzieje się tak, ponieważ program Premiere Pro traktuje transkrypcję i kolejne podpisy jako oddzielne źródła danych — więc wprowadzenie zmian w jednym nie będzie miało wpływu na drugie.

Poświęć więc trochę czasu, aby przygotować transkrypcję, ponieważ będzie to źródło, z którego zostaną utworzone wszystkie podpisy.

Poruszanie się

Firma Adobe zaimplementowała kilka niezwykle przydatnych funkcji, które pomogą Ci jednocześnie poruszać się po filmie i transkrypcji.

Po pierwsze, program Premiere Pro ma już obszar roboczy napisów, który dzieli ekran na tekst, podstawową grafikę, oś czasu, pojemniki projektów i program. Chociaż możesz chcieć dostosować rzeczy do swoich preferencji. Dla mnie wygląda to tak…

Po skonfigurowaniu znalezienie drogi jest proste.

Na przykład przesunięcie głowicy odtwarzania do nowej pozycji na osi czasu spowoduje automatyczne skierowanie transkrypcji do odpowiedniej lokalizacji do tego stopnia, że słowo wypowiadane w tym miejscu pod głowicą odtwarzania zostanie podświetlone na niebiesko w panelu Transkrypcja. Każdy tekst, który znajduje się przed pozycją głowicy odtwarzania, jest pomalowany na szaro, co jest przydatnym dodatkiem do UX.

Podobnie, odtwarzanie lub przewijanie osi czasu zaktualizuje widok transkrypcji, aby nadążyć za głowicą odtwarzania.

Działa to również w odwrotnej kolejności, więc wybranie dowolnego słowa w panelu Transkrypcja automatycznie przesunie głowicę odtwarzania i podgląd wideo do odpowiedniego czasu w sekwencji. Czasami reakcja może być trochę powolna — prawdopodobnie dlatego, że łączy się z serwerami Adobe — ale mimo to jest to bardzo skuteczne podejście.

W górnym rogu znajduje się również pole wyszukiwania, które pozwala przechodzić do słów i fraz w transkrypcji, a także funkcja Zamień, jeśli musisz naprawić powtarzające się błędy.

Najlepsze praktyki

Na tym etapie prawdopodobnie większość nawigacji wykonasz w panelu Transkrypcja; wybierz słowo, naciśnij spację, aby rozpocząć odtwarzanie, porównaj to, co słyszysz z tym, co czytasz, a następnie zatrzymaj się i kliknij dwukrotnie tekst, aby wprowadzić zmiany.

Z mojego doświadczenia wynika, że Twoje zmiany będą najprawdopodobniej koncentrować się na interpunkcji i strukturze zdań, a nie na poprawianiu błędnych słów. I pomimo najlepszych starań Sensei, nadal będziesz musiał włożyć dużo pracy, aby wszystko było gotowe do napisów.

I tego należy się spodziewać. Przetwarzanie języka naturalnego jest niesamowicie ciężko. Po uwzględnieniu akcentów, dialektu, manier, tonu i nacisku, nawet ludzie zmagają się z tym. Tak więc oczekiwanie od maszyny doskonałych wyników jest nierealne. (Zdecydowanie polecam włączenie automatycznych napisów YouTube w poniższym przykładzie wideo).

(To świetna alternatywa – https://youtu.be/Gib916jJW1o)

Podejdź więc do tego etapu z otwartym umysłem, filiżanką świeżej kawy i wygodnym krzesłem. A jeśli potrzebujesz wskazówek na temat najlepszych praktyk tworzenia napisów, możesz najpierw przeczytać wytyczne BBC dotyczące napisów.

Pamiętaj też, że dane transkrypcji są zapisywane w pliku projektu Premiere Pro, więc możesz wrócić do niego później, jeśli zajdzie taka potrzeba. Możesz również wyeksportować transkrypcję jako oddzielny, ale zastrzeżony .prtransscript pliku, choć nie jest jasne, jakie mogą być korzyści z takiego podejścia.

Gotowy?

Jeśli masz pewność, że transkrypcja jest tak przejrzysta, jak to tylko możliwe, przejdź dalej i kliknij Utwórz podpisy przycisk.

Dostaniesz tutaj kilka opcji, w tym możliwość zastosowania stylów (zakładając, że wcześniej je stworzyłeś). Możesz zdefiniować maksymalną długość znaków i minimalny czas trwania podpisów, ustawić je jako Podwójny lub Pojedynczy wiersz, a nawet liczbę ramek, które chcesz wstawić między nimi.

Jeśli nie masz pewności, czego chcesz na tym etapie, sugeruję wybranie formatu „Napisy” z menu rozwijanego, upewnij się, że Utwórz z transkrypcji sekwencji jest zaznaczony przycisk opcji, a resztę pozostaw na wartościach domyślnych.

Nie zamierzam spędzać dużo czasu na omawianiu różnych formatów podpisów, które oferuje funkcja zamiany mowy na tekst. Częściowo dlatego, że nie jestem ekspertem od różnic, a Ty poznasz wymagania swojego projektu lepiej niż ja. Ale głównie dlatego, że to nie ma aż takiego znaczenia .

Dzieje się tak, ponieważ funkcja zamiany mowy na tekst w programie Premiere Pro zachowuje dane transkrypcji w nienaruszonym stanie i dodaje podpisy do oddzielnej ścieżki na osi czasu sekwencji. (Jest to ogromna poprawa w stosunku do pierwszej próby napisów Premiere Pro, która włączyła ścieżkę napisów do warstwy wideo).

Dzięki temu możesz generować podpisy w tylu różnych formatach, ile potrzebujesz. Nawet z mocą wsteczną, jeśli Twój projekt zostanie sprzedany na terytorium o innym standardzie. Wydaje się, że nie ma limitu liczby ścieżek z napisami, które można dodać, a format używany dla każdej ścieżki z napisami jest wyraźnie oznaczony.

Jeśli wszystko zaczyna być zagracone, możesz przełączyć widoczność ścieżki za pomocą przycisku CC w widoku osi czasu.

Jeśli pracujesz z napisami w języku obcym, ten aspekt interfejsu użytkownika może być niezwykle przydatny, ponieważ może umożliwić tworzenie warstw napisów dla tylu języków, ile potrzebujesz na tej samej osi czasu . Istnieją ograniczenia tego podejścia, o czym zajmę się później, ale mówiąc z własnego doświadczenia, witam to z całego serca.

Więc śmiało naciśnij ten przycisk Utwórz i obserwuj, jak Twój transkrypcja jest podzielona i ułożona w wybranym przez Ciebie formacie.

Kolejna runda

Jeśli masz jakiekolwiek doświadczenie w tworzeniu napisów, wiesz, że dobre napisy wymagają zaskakującej dozy finezji.

Nie jest to tak proste, jak podzielenie dialogu na zdania i pokazanie ich na ekranie tak długo, jak wypowiada je mówca.

Musisz rozłożyć to, co zostało powiedziane, na krótkie, zrozumiałe sekcje, które można przeczytać, nie odwracając zbytniej uwagi od elementów wizualnych. Interpunkcja jest niezwykle ważna, a łamanie wierszy może oznaczać różnicę między zrozumieniem a zamieszaniem. I szczerze mówiąc, zamiana mowy na tekst wydaje się wykonywać rozsądną robotę.

Jednak, aby zachować zgodność ze standardami napisów, takimi jak FCC, musisz przekazać hałas i muzykę w najszerszym możliwym zakresie . I chociaż nierozsądnie jest oczekiwać, że Sensei zacznie oznaczać dźwięki i muzykę (przynajmniej na razie), oprogramowanie do tworzenia napisów powinno umożliwiać włączenie informacji poza dialogiem.

Proszę pojedynczo

Niestety zamiana mowy na tekst jest ograniczona do jednego utwór bez możliwości nakładania się elementów.

Oznacza to, że nie ma możliwości łatwego włączenia równoczesnych głośników lub dodania identyfikatorów dźwięku lub muzyki do dialogów. (Próbowałem dodać je do drugiej ścieżki napisów, ale możesz włączyć widoczność tylko dla jednej ścieżki naraz).

Jeśli więc Twój projekt wymaga zgodności z FCC, może być konieczne przekazanie tego zadania innemu rozwiązaniu do obsługi napisów. Ale nawet wtedy nadal możesz użyć funkcji zamiany mowy na tekst, aby uzyskać jak najwięcej korzyści, a następnie wyeksportować wyniki do pliku tekstowego lub pliku SRT (SubRip) w celu zaimportowania do innego narzędzia.

Podziel różnicę

Gdy przejdziesz do edycji podpisów generowanych przez funkcję zamiany mowy na tekst, przepływ pracy programu Premiere Pro nabiera sensu.

Zdania są podzielone na krótkie, jednowierszowe segmenty, które zmieszczą się na nawet najmniejszych ekranach bez zawijania wierszy. Możesz je dalej scalić lub podzielić, jeśli nie działają w ich obecnym stanie.

Dodanie nowych podpisów jest również możliwe, zakładając, że jest na to miejsce (wartość domyślna dla wstawionego podpisu to trzy sekundy, a jeśli nie zachowasz tutaj ostrożności, możesz nadpisać istniejące podpisy).

Napisy zachowują się również jak każdy inny zasób na osi czasu. Możesz więc dostosować ich punkty wejścia i wyjścia, przeciągając uchwyty klipów, łączyć je z klipami wideo, dzielić je za pomocą narzędzia Brzytwa, a nawet przeprowadzać edycję przesuwania, przesuwania, marszczenia i toczenia.

Jeśli więc znasz już sposób korzystania z zestawu narzędzi Premiere Pro, Twoje dotychczasowe umiejętności będą tutaj na dobrej pozycji.

Naprawianie go w poście

Istnieje jednak ograniczenie edycji ścieżki, które jest specyficzne dla napisów.

Chociaż możesz jednocześnie wybierać i manipulować wieloma ścieżkami wideo, audio lub obrazów, tylko jedna ścieżka podpisów może być aktywna w danym momencie. Jeśli chcesz dostosować wiele ścieżek napisów w różnych formatach, musisz to zrobić po jednej ścieżce na raz.

Ale to jest jak dzielenie włosów. Biorąc pod uwagę, że proces tworzenia napisów zwykle ma miejsce długo po zablokowaniu i zatwierdzeniu edycji, konieczność wprowadzenia zmian w wielu formatach napisów powinna być scenariuszem marginalnym.

Otwarte czy zamknięte?

Premiere Pro oferuje szeroką gamę narzędzi do formatowania podpisów, w tym możliwość zapisywania stylów i stosowania ich w przyszłych projektach.

Możesz dostosować czcionkę, kolor, cień, kontur i opcje tła, a także położenie, wyrównanie tekstu i użyteczny obszar podpisów. Można je przypisać do poszczególnych podpisów lub na całej ścieżce podpisów.

Napisy kodowane

Jednak zakres, w jakim możesz zmienić wygląd podpisów, zależy od tego, czy zamierzasz je wdrożyć jako otwarte lub zamknięte .

Napisy kodowane są przechowywane jako osobne pliki — znane również jako pliki sidecar — i mogą być włączane i wyłączane przez widza podczas odtwarzania.

Większość formatowania napisów jest obsługiwana przez system odtwarzania, więc opcje formatowania są ograniczone (a Premiere Pro wyświetla tylko funkcje obsługiwane przez wybrany format napisów). Ale pomimo nazwy, podpisy kodowane są łatwiejsze do zmiany po sfinalizowaniu, ponieważ zwykle są to zwykły plik tekstowy lub XML.

Otwórz napisy

W przeciwieństwie do tego napisy otwarte są „wypalane” w filmie, dzięki czemu są zawsze widoczne (niezależnie od platformy odtwarzania lub urządzenia) i można je sformatować w dowolny sposób.

Oznacza to również, że możesz utworzyć pojedynczą wersję filmu z napisami, która będzie odtwarzana na wszystkich platformach wideo.

Kompromis polega jednak na tym, że napisów nie można zmienić bez ponownego renderowania i redystrybucji całego filmu. A jeśli pracujesz z wieloma językami, musisz tworzyć zupełnie nowe filmy dla każdego języka zamiast łatwiejszego w zarządzaniu zestawu ścieżek napisów.

Warto również zauważyć, że otwarte napisy będą się zmieniać wraz z filmem, więc jeśli Twoi widzowie oglądają fragment multimediów 16×9 w widoku pionowym na urządzeniu mobilnym, istnieje szansa, że Twoje napisy mogą stać się zbyt małe, aby je przeczytać.

Na tej podstawie możesz pomyśleć, że nie ma przekonującego powodu, aby wybierać otwarte napisy w swoich materiałach wideo. Ale jeśli publikujesz w mediach społecznościowych, możesz nie chcieć polegać na automatycznych narzędziach do tworzenia napisów, które są obecnie jedyną opcją na platformach takich jak Instagram czy TikTok.

Ponadto niektóre platformy społecznościowe umożliwiają dodawanie napisów tylko w momencie przesyłania filmu, co uniemożliwia planowanie lub automatyczne publikowanie treści wideo z napisami. Tak więc otwarte napisy nadal mogą być realną opcją.


	YouTube	Facebook	Instagram	Twitter	TikTok
Prześlij podpisy	Y	Y	Y	Y	N
Automatycznie generuj podpisy	Y	Y	N	N	Y
Zaplanuj wideo z napisami	Y	Y	N	N	N

Wykańczanie

Patrząc na obecną wersję, wydaje się, że opcje eksportu zostały zredukowane do EBU N19 lub zwykłego pliku tekstowego SubRip SRT — formatu MacCaption VANC MCC i Umieść w pliku wyjściowym opcje znalezione w wersji beta nie są już dostępne.

Nie jest to jednak tak ograniczające, jak się wydaje, ponieważ EBU obsługuje większość usług przesyłania strumieniowego i transmisji, a SRT obejmuje większość internetowych i społecznościowych platform wideo.

To, czego nie widzimy, to możliwość tylko eksportu ścieżka napisów z narzędzia eksportu Premiere Pro lub Adobe Media Encoder, więc musisz wyrenderować przynajmniej plik audio, aby uzyskać plik napisów XML.

Biorąc pod uwagę, że możesz eksportować do plików .srt i .txt z panelu napisów, wydaje się to dziwne i prawdopodobnie zmieni się w przyszłości.

Jeśli chcesz mieć otwarte napisy, możesz po prostu wybrać opcję Nagraj podpisy na wideo opcja. I oczywiście, jeśli chcesz utworzyć wiele eksportów w różnych formatach, możesz ustawić je w kolejce w programie Adobe Media Encoder w celu eksportu wsadowego. Tylko upewnij się, że najpierw ustawiłeś wymaganą widoczność ścieżki napisów na osi czasu.

Czego brakuje?

Podczas testowania wersji beta zauważyłem pewne obszary, w których Adobe może ulepszyć to narzędzie przed udostępnieniem go publicznie i, z jednym małym wyjątkiem, nadal ich „brakuje”. Oto moja lista życzeń:

Regulowany rozmiar czcionki w panelach Transkrypcja i Podpisy.
Rozmiar tekstu jest obecnie definiowany przez ustawienia systemowe i czasami chciałem zwiększyć rozmiar czcionki, aby ułatwić przeczytaj podczas edytowania transkrypcji.
Importowanie skryptów.
Jeśli pracujesz z materiałem opartym na skryptach, funkcja zamiany mowy na tekst może teoretycznie pominąć proces transkrypcji i zamiast tego skupić się na czasie. Umożliwiłoby to szybką konwersję tego, co już masz, na format gotowy do napisów. (YouTube już to ma.)
Niestandardowe formatowanie na podstawie mówcy.
Chociaż możesz zidentyfikować mówców w transkrypcji, nie ma możliwości automatycznego dodania tych danych do napisów. A jeśli tworzysz napisy scena po scenie, przydatne może być umieszczenie niestandardowego napisu dla głośników, którzy zawsze będą znajdować się po określonej stronie kadru.

Ale czy warto?

Nie mogę powiedzieć, jakie może być Twoje doświadczenie z funkcją zamiany mowy na tekst w Premiere Pro.

Czy to automatyzacja za pomocą jednego przycisku dla wszystkich Twoich potrzeb związanych z napisami? Oczywiście nie. Uważam, że wciąż jesteśmy daleko od zbudowania systemu, który poradzi sobie z tym złożonym i nieskończenie zmiennym zadaniem bez jakiejś ludzkiej interwencji.

Ale dla mnie to narzędzie stało się standardowym elementem mojego zestawu narzędzi, zanim jeszcze opuściło wersję beta.

Jeśli zostanie naciśnięty, szacuję, że skróci to czas potrzebny na tworzenie napisów do około jednej trzeciej tego, co było wcześniej . It’s not the only option available—Otter.ai will export transcripts to the .srt caption format, Digital Anarchy has a Premiere Pro plugin called Transcriptive, and of course, you can pay companies to do the job for you—but all of these have a cost component, while Speech-to-Text is currently free to use.

It all comes back to that comment I included at the beginning of this article—is it easier to use Speech-to-Text than it would be to transcribe it yourself? For me, the answer is a very firm yes. So if you’re looking at finding a better way to add accessibility and greater audience engagement to your video projects, Premiere Pro Speech-to-Text is definitely worth a look.

(And if you’re looking for more content on working with audio in Premiere Pro, check out Premiere Pro Mixing Basics and Premiere Pro Audio Tools.)