Wizualna sztuczna inteligencja:rewolucyjna transmisja na żywo dzięki zrozumieniu sceny

Sztuczna inteligencja (AI) zmieniła już postprodukcję wideo. Istnieją teraz narzędzia AI do wszystkiego, od napisów, przez efekty specjalne, po edycję. Możliwe jest nawet wygenerowanie dodatkowych klatek w celu wydłużenia zbyt krótkiego klipu. Jednak wszystkie te modele AI działają z już utworzonym wideo. Kolejną granicą jest wideo na żywo.

Visual Reasoning AI to nowa technologia zrodzona w wyniku partnerstwa pomiędzy PTZOptics i Moondream.ai. Zapewnia zrozumienie sceny dla kamer i przepływów wideo na żywo w czasie rzeczywistym. Jest darmowy, open source i działa w dowolnej nowoczesnej przeglądarce internetowej.

Ale co to dokładnie jest i jak działa?

Model języka wizji

W ostatnich latach w dyskusji na temat sztucznej inteligencji zdominowały modele wielkojęzykowe (LLM). Wyszkoleni w zakresie danych tekstowych, zasilają chatboty i wirtualnych asystentów, które stają się coraz bardziej znane. Ale LLM rozumie tylko słowa.

Model języka wizyjnego (VLM), taki jak Moondream, jest inny. VLM może rozumieć wideo, obrazy i dźwięk, a także dane wejściowe tekstowe. Oznacza to, że Moondream może interpretować informacje wizualne i dźwiękowe, a następnie generować tekst i inne dane wyjściowe w odpowiedzi na to, co „widzi”.

Moondream to VLM typu open source stworzony przez M87 Labs z siedzibą w Seattle. Służy do rozumienia obrazów, wykrywania obiektów i analizowania scen. Ponieważ jest to oprogramowanie typu open source, można je zainstalować i uruchamiać lokalnie bez żadnych kosztów. Dostępny jest również dostęp w chmurze, choć wiąże się to z opłatami za użytkowanie.

Sztuczna inteligencja rozumowania

Visual Reasoning AI zapewnia praktyczną automatyzację profesjonalnych procesów audiowizualnych, takich jak przesyłanie strumieniowe, nadawanie i produkcja na żywo. Zasadniczo technologia ta generuje opisy w języku naturalnym tego, co kamera rejestruje w czasie rzeczywistym.

Oprócz opisu może zlokalizować i podświetlić dowolny obiekt określony prostym językiem, a także zliczyć i śledzić obiekty w polu widzenia kamery. Być może przede wszystkim analizuje sceny, aby przewidzieć, co może się wydarzyć dalej, uruchamiając automatyczne reakcje, takie jak przesuwanie kamer automatycznych, wysyłanie alertów lub aktualizacja pulpitów nawigacyjnych.

Rezultatem jest elastyczne narzędzie, które można skonfigurować w szerokim zakresie scenariuszy produkcyjnych.

Jak to działa

Wizualna sztuczna inteligencja:rewolucyjna transmisja na żywo dzięki zrozumieniu sceny

Zdjęcie dzięki uprzejmości:Visual Reasoning AI

Visual Reasoning to rozwiązanie oparte na chmurze, co oznacza, że nie trzeba pobierać ani instalować żadnego oprogramowania ani specjalnego sprzętu. Działa na komputerach stacjonarnych, laptopach, tabletach i smartfonach za pośrednictwem dowolnej nowoczesnej przeglądarki internetowej i jest kompatybilny z dowolną kamerą, w tym kamerami internetowymi, kamerami PTZ i kamerami w smartfonach.

Po zalogowaniu się na stronie Visual Reasoning do interfejsu można dodać podłączone kamery. Moondream VLM przetwarza pojedynczą klatkę wideo na raz, więc do analizy wideo na żywo przechwytuje wiele klatek w ustalonych odstępach czasu. Te obrazy są przesyłane na platformę Moondream.ai, gdzie sztuczna inteligencja interpretuje zmiany w czasie.

Warto zauważyć, że podejście klatka po klatce wprowadza naturalne ograniczenie. System z interwałem dwusekundowym dobrze sprawdza się w środowiskach o umiarkowanym tempie (spotkania, prezentacje, nabożeństwa), ale może mieć trudności z nadążaniem za szybką akcją, np. szybkimi sportami. Ustawienie interwału pozwala operatorom zrównoważyć czas reakcji z obciążeniem przetwarzania, ale system ten nie oferuje obecnie ciągłej analizy w czasie rzeczywistym.

Sztuczna inteligencja może opisać scenę w języku naturalnym, identyfikując ludzi, przedmioty i lokalizacje. Może także śledzić i zliczać liczbę osób pojawiających się w kanale wideo w czasie. Funkcja wykrywania wielu obiektów rysuje ramki ograniczające wokół określonych elementów sceny — operator po prostu wpisuje opis w prostym języku angielskim, na przykład „drzwi”, „książka” lub „mężczyzna w czerwonej koszuli”, a funkcja Visual Reasoning wyznacza kolorową ramkę wokół elementu. Można jednocześnie identyfikować wiele obiektów, korzystając z dostosowywalnych kolorów pudełek.

Rozumowanie wizualne i produkcja wideo

Witryna Visual Reasoning oferuje dziewięć bezpłatnych narzędzi typu open source do profesjonalnego wykorzystania AV i transmisji. Najbardziej przekonujący przykład tego, co staje się możliwe, gdy do sterowania kamerą na żywo zostanie zastosowane zrozumienie sceny AI.

Automatyczne śledzenie PTZ

Zdjęcie dzięki uprzejmości:Visual Reasoning AI

PTZ Auto-Tracker łączy w sobie sztuczną inteligencję Visual Reasoning ze sterowaniem kamerą PTZOptics, tworząc inteligentny system śledzenia. Zamiast polegać na wykrywaniu ruchu lub stałych strefach, akceptuje opisy obiektu w języku naturalnym („mówca w niebieskiej kurtce” lub „gracz z piłką”) i steruje kamerą w celu odpowiedniego obrotu, pochylenia i przybliżenia. W przypadku produkcji bez dedykowanych operatorów kamer, takich jak nabożeństwa, prezentacje konferencyjne lub transmisje sportowe na małą skalę, właśnie tam potencjał tej technologii jest najbardziej widoczny.

Fuzja multimodalna

Multimodal Fusion jest prawdopodobnie najbardziej ambitnym z dziewięciu narzędzi. Jednocześnie analizuje obraz i dźwięk, dając wnioskowaniu wizualnemu pełniejszy, zmysłowy obraz sceny. W przypadku prezentacji oznacza to, że system może wykryć, kto mówi, i automatycznie przełączać kamery. Podczas występu muzycznego na żywo może zidentyfikować dźwięk konkretnego instrumentu i skierować kamerę PTZ tak, aby podążała za wykonawcą – jest to funkcja, która zazwyczaj wymaga wykwalifikowanego reżysera podejmującego decyzje w ułamku sekundy.

Narzędzie Scoreboard Extractor odczytuje i digitalizuje informacje z tablicy wyników z dowolnego źródła wideo. Kamera skierowana na tablicę wyników na siłowni lub wyświetlacz stadionu zapewnia źródło, a sztuczna inteligencja wyodrębnia odpowiednie dane. Obecnie obsługiwane sporty obejmują piłkę nożną, piłkę nożną, koszykówkę i siatkówkę, z możliwością określenia, które dane mają być monitorowane. Wyodrębnione informacje można następnie nałożyć na kanał transmisji.

Asystent koloru

Narzędzie Color Assistant może analizować charakterystykę kolorów obrazu referencyjnego. Następnie wyświetli zalecenia dotyczące dopasowania ustawień aparatu. Jest to idealne rozwiązanie w przypadku produkcji z użyciem wielu kamer, gdzie potrzebne są spójne kolory w różnych modelach kamer. Możesz także użyć narzędzia Asystent koloru, aby uzyskać specyficzny, kinowy wygląd. Model AI rozpoznaje temperaturę barwową, nasycenie, kontrast i charakterystykę tonalną.

Monitor strefy

Zone Monitor umożliwia definiowanie niestandardowych regionów w kanale wideo. Następnie automatycznie wykrywa, kiedy określone obiekty lub osoby wchodzą, wychodzą lub pozostają w tych strefach. Może to być przydatne dla twórców filmów przyrodniczych, umożliwiając zdalne kamery podążanie za określonymi zwierzętami i ignorowanie innych gatunków.

Opis sceny

Narzędzie do opisu sceny automatycznie generuje opisy w języku naturalnym tego, co dzieje się w Twoim kanale wideo. Może być przydatny do analizy treści lub jako funkcja ułatwień dostępu.

Skrzynki wykrywania

Pola wykrywania identyfikują obiekty wybrane w kanale wideo i rysują wokół nich dokładne ramki ograniczające.

Inteligentny licznik

Inteligentny licznik wykorzystuje sztuczną inteligencję wnioskowania wizualnego do dokładnego liczenia osób, pojazdów i dowolnych obiektów, które określisz, gdy wchodzą i wychodzą ze sceny.

Analizator scen

Dzięki narzędziu Scene Analyzer możesz zadawać pytania na temat tego, co dzieje się w Twoim filmie. Wizualna sztuczna inteligencja będzie wtedy odpowiadać natychmiastowymi odpowiedziami.

Siła rozumowania wizualnego

System Visual Reasoning zaprojektowano modułowo — jego narzędzia można konfigurować i łączyć tak, aby pasowały do różnych środowisk produkcyjnych. Demonstracja na stronie internetowej firmy ilustruje to scenariuszem spotkania w sali konferencyjnej. Gdy uczestnicy wchodzą do pokoju, sztuczna inteligencja liczy ich i identyfikuje. Po rozpoczęciu spotkania funkcja Visual Reasoning określa, kto mówi, i odpowiednio przełącza widok kamery. Wykrywa także pojawienie się obrazu wideo na monitorze i przechodzi do tego źródła.

System nadaje się do bardziej dynamicznych środowisk, takich jak muzyka na żywo. Monitorując dźwięk i wideo, może wykryć wokalistę i skierować kamerę, aby za nim podążała. Podczas instrumentalnej solówki rozpoznaje dźwięk, identyfikuje odpowiedni instrument i wykonawcę w scenie, a następnie porusza kamerą PTZ, aby je uchwycić. Kiedy solo się kończy, następuje szerokie ujęcie całej sceny.

Ponieważ wnioskowanie wizualne opiera się na modelu języka wizyjnego, akceptuje instrukcje w języku naturalnym, zamiast wymagać tradycyjnego programowania. Oznacza to, że operatorzy mogą w prosty sposób opisać, czego oczekują od systemu, i stosunkowo szybko go rekonfigurować do różnych kontekstów, takich jak konferencje, domy modlitwy, przedstawienia teatralne na żywo, relacje sportowe i tak dalej. Instrukcje można przygotować przed wydarzeniem, a system będzie działał autonomicznie podczas produkcji.

Wypróbuję

W witrynie Visual Reasoning znajduje się strona Playground, na której można zapoznać się z technologią i wypróbować narzędzia. Można go używać ze smartfonem, komputerem stacjonarnym, laptopem lub tabletem. Po prostu dodaj swój adres e-mail, a funkcja Visual Reasoning wyśle Ci link umożliwiający zalogowanie się. Istnieje ograniczenie liczby żądań, które możesz wysłać do sztucznej inteligencji. Możesz jednak odwiedzić witrynę Moondream.ai i poprosić o bezpłatny klucz API, aby uzyskać większy dostęp.

Ważny krok naprzód w produkcji wideo AI

Rozumowanie wizualne stanowi znaczący krok naprzód w produkcji i transmisji wideo AI. W połączeniu z kamerami PTZOptics umożliwia tworzenie zautomatyzowanych systemów kamer, które można dostosować do konkretnych scenariuszy produkcyjnych. Technologia ta jest typu open source i można z niej korzystać bezpłatnie, co oznacza, że jej rozwój prawdopodobnie przyspieszy w miarę wzrostu adopcji i udziału większej liczby użytkowników w jej ewolucji.