Rozpoznawanie mówcy w języku Python:automatyzacja napisów i analizy głosu

Edytujesz film z udziałem wielu prelegentów, może to być podcast lub wywiad. Ręczne dodawanie napisów jest żmudne — musisz słuchać, pisać i synchronizować każde wypowiadane słowo. Co by było, gdyby Twój edytor wideo mógł automatycznie rozpoznawać różne głosy i generować napisy dla każdego mówcy? W tym miejscu rozpoznawanie mówcy w Pythonie zmienia grę.

Python to najchętniej wybierany język programowania do tworzenia aplikacji głosowych dzięki solidnym bibliotekom. Biblioteki te pomagają we wdrażaniu i wdrażaniu modeli rozpoznawania mówców na potrzeby przetwarzania mowy w czasie rzeczywistym, analizy i identyfikacji mówcy. Na przykład zestaw SDK Pico Voice Eagle zapewnia szybką i precyzyjną identyfikację mówcy w aplikacjach opartych na sztucznej inteligencji.

Alternatywnie istnieją platformy do edycji wideo, które integrują sztuczną inteligencję rozpoznawania mowy. Działają poprzez skanowanie dźwięku filmu, rozróżnianie mówców i generowanie zsynchronizowanych napisów.

W tym przewodniku dowiesz się, jak zaimplementować identyfikację mówcy w Pythonie. Przyjrzymy się także najlepszym, niewymagającym kodu alternatywom umożliwiającym łatwe tworzenie napisów do filmów.

Rozpoznawanie mówcy w języku Python:automatyzacja napisów i analizy głosu

W tym artykule

Podstawy przetwarzania dźwięku
Identyfikacja mówcy w czasie rzeczywistym za pomocą pakietu SDK Picovoice Eagle
Czy istnieją prostsze sposoby rozpoznawania mówiącego?
Gdzie mogę korzystać z aplikacji do rozpoznawania osób mówiących?

Część 1:Podstawy przetwarzania dźwięku

Każdy system rozpoznawania głosu rozpoczyna się od przetwarzania dźwięku. Dźwięk przemieszcza się w postaci ciągłych sygnałów analogowych, ale komputery wymagają formatów cyfrowych. Aby przekształcić mowę w dane, używamy częstotliwości próbkowania i technik kodowania dźwięku.

Częstotliwość próbkowania określa, jak często dźwięk jest rejestrowany na sekundę. Standard rozpoznawania osób mówiących w Pythonie wynosi 16 kHz, co zapewnia wysoką dokładność. Format pliku audio również ma znaczenie — popularne są formaty WAV, MP3 i FLAC, przy czym w przypadku zadań związanych z uczeniem maszynowym preferowany jest format WAV.

Python upraszcza identyfikację mówcy w czasie rzeczywistym dzięki wyspecjalizowanym bibliotekom, takim jak PyAudio i Picovoice Eagle SDK. Korzystając z tych narzędzi, programiści mogą przechwytywać, analizować i trenować modele na potrzeby identyfikacji mówców w czasie rzeczywistym w Pythonie.

Część 2:Identyfikacja mówcy w czasie rzeczywistym za pomocą pakietu SDK Picovoice Eagle

Picovoice Eagle SDK to wydajne narzędzie do rozpoznawania mówcy w Pythonie . W odróżnieniu od tradycyjnych modeli przetwarza dźwięk lokalnie. Ten pakiet SDK ma kluczowe znaczenie dla identyfikacji mówcy w czasie rzeczywistym w Pythonie, szczególnie w systemach bezpieczeństwa AI i inteligentnych asystentach.

Co więcej, jest lekki i bezproblemowo działa na wielu platformach, w tym Windows, macOS, Linux, Android, iOS, a nawet Raspberry Pi. Wystarczy zarejestrować się w konsoli Pico Voice i uzyskać klucz dostępu, aby uwierzytelnić swoje użycie.

Instalowanie i konfigurowanie pakietu SDK Pico Voice Eagle w języku Python

Aby zintegrować pakiet SDK Picovoice Eagle do rozpoznawania osób mówiących w języku Python, zainstaluj go najpierw. Zanim to zrobisz, upewnij się, że masz zainstalowany Python 3.6 lub nowszy.

Otwórz terminal (Linux/macOS) lub wiersz poleceń (Windows) i uruchom:

lub

Jeśli Python jest zainstalowany, wyświetli się coś takiego:

Jeśli wersja to 3.6 lub nowsza, wszystko gotowe.

Na początek zainstaluj niezbędne biblioteki. Uruchom następujące polecenie w swoim terminalu:

pip install Rozpoznawanie mowy pyaudio librosa rejestrator pv

W przypadku pakietu SDK Picovoice Eagle pobierz i zainstaluj:

pip install pvporcupine pveagle

Przewodnik krok po kroku dotyczący wdrażania identyfikacji mówcy w czasie rzeczywistym przy użyciu zestawu SDK Picovoice Eagle w języku Python

Krok 1:Zainstaluj Pythona. Na oficjalnej stronie Pythona wybierz opcję pobrania najnowszej wersji Pythona 3. x.x.

Krok 2: Następnie zarejestruj bezpłatne konto Picovoice Console i odzyskaj klucz dostępu. Ten klucz jest wymagany do uwierzytelniania Twoich żądań podczas korzystania z pakietu SDK Eagle Speaker Recognition.

Krok 3: Zainstaluj niezbędne pakiety Pythona. Uruchom następujące polecenie w terminalu:

pip zainstaluj pveagle pvrecorder

Spowoduje to zainstalowanie PV Eagle (do rozpoznawania głośników) i PV Recorder (do przechwytywania dźwięku).

Krok 4: Utwórz dwa pliki w swoim VsCode. Pierwszym plikiem będzie rejestracja prelegenta. Rejestracja to proces tworzenia profilu głośnika na podstawie danych głosowych. Wykonaj następujące kroki:
Zaimportuj wymagane biblioteki
Zainicjuj EagleProfile za pomocą klucza dostępu
Użyj rejestratora PV do przechwytywania próbek głosu
Przesyłaj ramki audio do EagleProfile do momentu zakończenia rejestracji
Eksportuj profil głośnika do późniejszego rozpoznania

Oto kod umożliwiający rejestrację prelegentów:

importuj pveagle
z pvrecorder zaimportuj PvRecorder

access_key =„TWÓJ_KLUCZ DOSTĘPU”

spróbuj:
eagle_profiler =pveagle.create_profiler(klucz_dostępu=klucz_dostępu)
z wyjątkiem pveagle.EagleError jako e:
print(f"Nie udało się utworzyć Eagle Profilera:{e}")
wyjście(1)

DEFAULT_DEVICE_INDEX =-1
rejestrator =PvRecorder(
indeks_urządzenia=DEFAULT_DEVICE_INDEX,
długość_ramki=eagle_profiler.min_enroll_samples
)

rejestrator.start()

procent_rejestracji =0,0
podczas gdy procent_rejestracji <100,0:
audio_frame =rejestrator.read()
enroll_percentage, feedback =eagle_profiler.enroll(audio_frame)
print(f"Rejestracja:{enroll_percentage:.2f}% - {feedback}")

rejestrator.stop()

speaker_profile =eagle_profiler.export()

z open("speaker_profile.eagle", "wb") jako f:
f.write(speaker_profile.to_bytes())

rejestrator.usuń()
eagle_profiler.delete()

Krok 5:Przejdź do terminala i zarejestruj, wpisując poniższy kod

python3 enroll_speaker.py

Po uruchomieniu skryptu spróbuj mówić do mikrofonu. Jeśli Twój głos pasuje do profilu zarejestrowanego głośnika, zostanie wyświetlony komunikat „Rozpoznano głośnik!” W przeciwnym razie wskaże nieznanego mówcę.

Krok 6: Teraz, gdy profil głośnika jest gotowy, utwórzmy kod do rozpoznawania mówcy w czasie rzeczywistym w drugim pliku. Spowoduje to załadowanie profilu głośnika i rozpoznanie go w czasie rzeczywistym za pomocą pakietu SDK Pico Voice Eagle.

Obejmuje to:

Tworzenie instancji Eagle przy użyciu klucza dostępu i profilu głośnika
Używanie rejestratora PV do przechwytywania dźwięku na żywo
Przekazywanie ramek audio do Eagle w celu rozpoznania w czasie rzeczywistym

Oto kod:

importuj pveagle
z pvrecorder zaimportuj PvRecorder

access_key =„TWÓJ_KLUCZ DOSTĘPU”

z open("speaker_profile.eagle", "rb") jako f:
speaker_profile_bytes =f.read()

speaker_profile =pveagle.EagleProfile.from_bytes(speaker_profile_bytes)

spróbuj:
orzeł =pveagle.create_recognizer(
klucz_dostępu=klucz_dostępu,
speaker_profiles=[speaker_profile]
)
z wyjątkiem pveagle.EagleError jako e:
print(f"Nie udało się utworzyć Eagle Recognizer:{e}")
wyjście(1)

DEFAULT_DEVICE_INDEX =-1 # Użyj domyślnego urządzenia wejściowego audio
rejestrator =PvRecorder(
indeks_urządzenia=DEFAULT_DEVICE_INDEX,
długość_ramki=eagle.długość_ramki
)

rejestrator.start()

spróbuj:
podczas gdy Prawda:
audio_frame =rejestrator.read()
wyniki =eagle.process(audio_frame)
drukuj (partytury)
z wyjątkiem przerwania klawiatury:
przejść

rejestrator.stop()
rejestrator.usuń()
orzeł.delete()

Krok 7:Przetestuj i uruchom aplikację.

Python3 recognize_speaker.py

0 =Głos nie został rozpoznany

1 =Głos rozpoznany

Rozpoznawanie mówcy w języku Python:automatyzacja napisów i analizy głosu

Uwaga:w przeciwieństwie do modeli opartych na chmurze, Picovoice Eagle SDK przetwarza dane lokalnie. Zapewnia to szybsze wyniki, lepszą prywatność i brak zależności od Internetu.

Identyfikację mówcy w Pythonie mogą zrozumieć i wykonać tylko profesjonalni programiści. Aby zrozumieć proces, musisz mieć w pewnym stopniu wiedzę z zakresu programowania.

Część 3:Czy istnieją prostsze sposoby rozpoznawania mówiącego?

Stworzenie systemu rozpoznawania osób mówiących w języku Python wymaga umiejętności kodowania i wiedzy technicznej. Chociaż identyfikacja w Pythonie jest potężna, może stanowić wyzwanie dla osób niebędących programistami. Wielu użytkowników woli gotowe narzędzia, które oferują podobne funkcje mówiącego i rozpoznawania mowy. Jest to lepszy sposób na wykonanie zadania bez umiejętności kodowania.

Jednym z takich narzędzi jest WondershareFilmora, edytor wideo z wbudowanym rozpoznawaniem mówcy i edycją mowy. Umożliwia użytkownikom wykrywanie, transkrypcję i modyfikowanie nagrań głosowych bez pisania ani jednej linii kodu.

W przeciwieństwie do rozpoznawania mówców w Pythonie, które wymaga ręcznego szkolenia modelu, wbudowane narzędzia Filmory automatyzują ten proces. Możesz edytować i ulepszać pliki audio bez konieczności posiadania wiedzy na temat Pythona lub uczenia maszynowego. Dzięki temu identyfikacja mówcy jest dostępna dla twórców treści, marketerów i użytkowników biznesowych.

Funkcje wykrywania głośników mobilnych i edycji mowy firmy Filmora

Filmora integruje narzędzie oparte na sztucznej inteligencji, które upraszcza edycję dźwięku i rozpoznawanie mówców. Dzięki wersji mobilnej użytkownicy mają dostęp do funkcji wykrywania mówcy i edytowania mowy.

Wykrywanie głośników. Wykrywanie głośników analizuje dźwięk i rozróżnia różne głośniki. Zamiast ręcznego słuchania i oznaczania głosów sztuczna inteligencja identyfikuje, kto i kiedy mówi.

Edycja mowy. Edycja mowy może być żmudna, ale edycja mowy Filmory upraszcza ten proces. Pozwala użytkownikom zmieniać nagrania głosowe, dostosowywać klarowność i usuwać szumy tła.

Jak rozpoznawać głos, konwertować na tekst i edytować za pomocą Filmory w podróży

Filmora ułatwia rozpoznawanie mówców za pomocą kilku kliknięć. Oto przewodnik krok po kroku:

Krok 1:Pobierz Filmorę, kliknij „nowy projekt i zaimportuj wideo z głosem.

Krok 2:Wybierz tekst, aby przekonwertować wypowiadane słowa na tekst.

Krok 3:Kliknij napisy AI, aby rozpocząć proces rozpoznawania głosu

Krok 4: Kliknij opcję Wykrywanie mówcy przed wybraniem opcji Dodaj podpisy

Krok 5: Poczekaj, aż sztuczna inteligencja przetworzy zamianę głosu na tekst

Krok 6:Kliknij dwukrotnie wygenerowany tekst na osi czasu, aby przejść do opcji edycji mowy. Tutaj możesz dodać animację, zmienić szablon tekstu, czcionkę, styl, grafikę itp.

Krok 7:Eksportuj wideo

Rozpoznawanie mówcy w języku Python:automatyzacja napisów i analizy głosu

Uwaga:musisz zrozumieć, że rozpoznawanie mówców w języku Python zapewnia pełną kontrolę nad uczeniem modeli. Ale Filmora zapewnia zautomatyzowane podejście. Funkcja AI zapewnia skuteczne rozpoznawanie mówcy bez konieczności skomplikowanego programowania.

Część 4:Gdzie mogę korzystać z aplikacji do rozpoznawania mówców?

Rozpoznawanie mówców w Pythonie bez wątpienia zmienia różne branże. Technologia ta zapewnia szybki i niezawodny sposób identyfikacji głosów w filmach i plikach audio. Staje się podstawową częścią różnych gałęzi przemysłu. Poniżej znajdują się obszary, w których te aplikacje mają zastosowanie.

Inteligentni asystenci i urządzenia sterowane głosem. Aplikacje takie jak Siri, Alexa i Google Assistant wykorzystują identyfikację mówiącego do rozróżniania głosów. Umożliwia to spersonalizowanie odpowiedzi, bezpieczny dostęp i niestandardowe polecenia głosowe dla różnych użytkowników.

Bezpieczeństwo i uwierzytelnianie głosowe. Wiele firm korzysta z identyfikacji mówców w celu weryfikacji użytkowników i zapobiegania oszustwom. Eliminuje zależność od hasła, poprawiając jednocześnie ochronę danych i wygodę użytkownika.

Transkrypcja i notatki ze spotkań oparte na sztucznej inteligencji. Rozpoznawanie mówców pomaga aplikacjom takim jak Otter.ai różnicować mówców. Zwiększa to dokładność transkrypcji, zwłaszcza tych zawierających kilka notatek głosowych.

Centra telefoniczne i obsługa klienta. Centra obsługi telefonicznej korzystają z rozpoznawania osób mówiących w języku Python, aby usprawnić uwierzytelnianie i wykrywanie klientów. Systemy oparte na sztucznej inteligencji identyfikują osoby dzwoniące za pomocą głosu, co ogranicza potrzebę ręcznej weryfikacji tożsamości. Poprawia to bezpieczeństwo, wydajność i czas reakcji obsługi klienta.

Opieka zdrowotna i dostępność. Szpitale i aplikacje związane z opieką zdrowotną korzystają z identyfikacji osoby mówiącej w celu bezpiecznego uwierzytelniania pacjentów. Narzędzia AI oparte na głosie pomagają osobom o ograniczonej sprawności ruchowej uzyskać dostęp do urządzeń bez fizycznej interakcji. Rozpoznawanie mówców w języku Python zapewnia bezpieczny dostęp medyczny i poprawia opiekę nad pacjentem.

Wniosek

Python to jeden z najpopularniejszych języków służących do identyfikacji mówcy i głosu. Udostępnia potężne biblioteki, takie jak SpeechRecognition, PyAudio, Librosa i Pico Voice Eagle SDK.

Narzędzia te umożliwiają wysoką dokładność i identyfikację mówcy w Pythonie w czasie rzeczywistym . To sprawia, że jest to najlepsza opcja dla programistów, badaczy sztucznej inteligencji i aplikacji zabezpieczających. Filmora oferuje łatwiejszą alternatywę dla osób bez umiejętności programowania. Zapewnia konwersję mowy na tekst, edycję głosu i rozpoznawanie mówcy bez konieczności kodowania w języku Python.

Wypróbuj narzędzia Filmora oparte na sztucznej inteligencji do automatycznej edycji i transkrypcji głosu. Dzięki nim proces jest szybki i przyjazny.

Rozpoznawanie mówcy w języku Python:automatyzacja napisów i analizy głosu

Filmora

⭐⭐⭐⭐⭐

Najlepsze oprogramowanie i aplikacja do edycji wideo oparte na sztucznej inteligencji