Jak vypadá nová éra multimédií? Kraków Video Tech Meetup zná odpověď

Tři přednášky, pět speakerů a řada praktických ukázek, jak lze využít technologie pro zpracování audiovizuálního obsahu. To vše zaznělo na prvním polském Kraków Video Tech Meetupu, který spojil odborníky na WebRTC, streaming a analýzu vizuálních dat. Na jaké novinky se mohou nadšenci do IT těšit?
AI-driven moduly pro potlačení šumu a ozvěny ve WebRTC
Principal Product Manager z Microsoftu, Hüseyin Özcan, zahájil setkání představením nového počinu Microsoftu na potlačení šumu a ozvěny, který využívá pokročilé modely strojového učení. Koncept custom audio modules, mezi které patří deep noise suppression a deep echo cancellation, znatelně zlepšuje kvalitu zvuku při online hovorech. Zatímco tradiční WebRTC audio pipeline pracují s pevně nastavenými DSP modely bez využití umělé inteligence, Microsoft se rozhodl zavedením AI-driven metod posunout hranice dále.
Dřívější WebRTC audio pipeline měla své limity – v testech dosahovalo mean opinion score (hodnota, která se využívá v telekomunikacích jako hodnocení kvality hlasových a video relací) 2.29, což je spíše průměrný výsledek. Microsoft ale díky technologii deep noise suppression zvýšil skóre na 2.8 a při kombinaci s deep echo cancellation se podařilo dosáhnout hodnoty MOS 3.15. „Nejde jen o odstranění šumu, ale o to, aby byla online komunikace co nejpřirozenější. Chceme uživatelům pomoci zvládat i náročné situace, jako jsou hlasité rušivé zvuky v pozadí nebo ozvěna v otevřených prostorách,“ vysvětlil na meetupu Özcan.
Microsoft zároveň plánuje další vylepšení zvuku pro webovou komunikaci. Pracuje na využití AI-driven kodeků, které by mohly nahradit současné audio formáty ve WebRTC, a zároveň spolupracuje s vývojáři prohlížečů na rozšíření možností Web Audio API. Díky tomu by bylo možné zvuk ještě lépe optimalizovat přímo v prohlížeči. „Chceme posunout kvalitu zvuku v online hovorech na úplně novou úroveň. Investice do AI-driven audio processingu a moderních webových technologií, jako je WebAssembly, nám to umožní,“ uzavřel Özcan.
Nezmeškejte žádné novinky ITT
Od broadcast trucku k cloudové produkci
Jak zajistit nízkou latenci a vysoký výkon multimediálního zpracování v cloudovém prostředí? O této výzvě a svých zkušenostech s vývojem cloudových produkčních systémů mluvili Mateusz Starzak, Jan Piętek a Teodor Woźniak z Amagi Corporation, která se specializuje na playout systémy pro free ad-supported television (FAST). „Dříve bylo nutné investovat do fyzických infrastruktur, což znamenalo vysoké vstupní náklady. Dnes lze tyto technologie nahradit softwarově definovanými systémy běžícími v cloudu. Díky tomu se dostáváme nejen na nižší náklady, ale také k větší flexibilitě,“ vysvětlil během přednášky Starzak.
Jedním z největších problémů při přenosu videa v reálném čase je latence. V tradičních on-premise systémech se video zpracovává lokálně, což znamená minimální zpoždění. V cloudu však signály putují přes internet, což latenci nevyhnutelně zvyšuje. „Každá sekunda zpoždění v živém vysílání může být problém. Naším cílem proto bylo spojit výhody cloudové infrastruktury s co nejnižší latencí,“ uvedl Piętek.
Tým Amagi během přednášky názorně ukázal, jak jejich WebRTC pipeline běžící v Dockeru umožňuje streamování s latencí pod 100 ms. Na AWS instanci spustili kontejnery s jednotlivými produkčními moduly, přímo v cloudu mixovali video a synchronizovali audio a video stopy pomocí timestampů. Klíčovou součástí jejich řešení je Janus WebRTC server, který zvládá správu více streamů současně a minimalizuje zpoždění. Další optimalizaci přineslo odstranění zbytečných datových přesunů mezi CPU a GPU díky využití Wayland GBM a WebGPU. Pro zajištění stabilního přenosu přes veřejný internet Amagi implementovali protokol Secure Reliable Transport (SRT) a vlastní úpravy FFmpeg, které umožňují zpracování streamů v reálném čase.
React pro živé vysílání
Moderní vývojové přístupy si ve světě živého streamování a multimediální produkce nacházejí stále větší uplatnění. Bartłomiej Krasoń ze Software Mansion ve své prezentaci představil nástroj Smelter, který propojuje real-time video processing s frontendovou logikou v Reactu. Smelter využívá React komponenty k definování UI streamu a mapuje je na výkonný renderovací engine, který vše zpracovává v reálném čase. „React poskytuje intuitivní komponentovou architekturu, která se ukázala ideální i pro streamování. Díky Smelteru mohou vývojáři pracovat s živým videem stejně snadno jako s webovou stránkou,“ vysvětlil Krasoń.
Tradiční přístupy ke streamování často vyžadují složité skriptování a konfiguraci jednotlivých modulů. Smelter naopak umožňuje skládat stream podobně jako webovou stránku. Mezi hlavní výhody patří deklarativní UI, které vývojářům umožňuje popsat stream jako sadu React komponent, live preview v prohlížeči pro okamžitou vizuální zpětnou vazbu a jednodušší správu i úpravy díky komponentovému přístupu.
Smelter převádí React kód do JSON objektů, které určují kompozici streamu. Celý proces probíhá ve třech krocích: nejprve vývojář v Reactu definuje UI streamu, podobně jako při tvorbě webové aplikace. Následně Smelter přeloží tento popis do strukturovaného JSON formátu, který umožňuje řízení streamu v reálném čase. Nakonec je výstup zpracován renderovacím jádrem Smelteru, které podporuje různé video vstupy i výstupy. „Vidíme obrovský potenciál v propojení moderních frontendových technologií se světem streamování. Smelter je prvním krokem k tomu, aby se tvorba video obsahu stala dostupnější a efektivnější pro každého vývojáře,“ dodal Krasoń, který na závěr prezentace doporučil účastníkům meetupu, aby si technologii sami vyzkoušeli.