1. Domů
  2. Články
  3. Jak vypadá nová éra multimédií? Kraków Video Tech Meetup zná odpověď

Jak vypadá nová éra multimédií? Kraków Video Tech Meetup zná odpověď

Karolína Havlová
Jak vypadá nová éra multimédií? Kraków Video Tech Meetup zná odpověď

Tři přednášky, pět speakerů a řada praktických ukázek, jak lze využít technologie pro zpracování audiovizuálního obsahu. To vše zaznělo na prvním polském Kraków Video Tech Meetupu, který spojil odborníky na WebRTC, streaming a analýzu vizuálních dat. Na jaké novinky se mohou nadšenci do IT těšit?

AI-driven moduly pro potlačení šumu a ozvěny ve WebRTC

Principal Product Manager z Microsoftu, Hüseyin Özcan, zahájil setkání představením nového počinu Microsoftu na potlačení šumu a ozvěny, který využívá pokročilé modely strojového učení. Koncept custom audio modules, mezi které patří deep noise suppressiondeep echo cancellation, znatelně zlepšuje kvalitu zvuku při online hovorech. Zatímco tradiční WebRTC audio pipeline pracují s pevně nastavenými DSP modely bez využití umělé inteligence, Microsoft se rozhodl zavedením AI-driven metod posunout hranice dále.

Dřívější WebRTC audio pipeline měla své limity – v testech dosahovalo mean opinion score (hodnota, která se využívá v telekomunikacích jako hodnocení kvality hlasových a video relací) 2.29, což je spíše průměrný výsledek. Microsoft ale díky technologii deep noise suppression zvýšil skóre na 2.8 a při kombinaci s deep echo cancellation se podařilo dosáhnout hodnoty MOS 3.15. Nejde jen o odstranění šumu, ale o to, aby byla online komunikace co nejpřirozenější. Chceme uživatelům pomoci zvládat i náročné situace, jako jsou hlasité rušivé zvuky v pozadí nebo ozvěna v otevřených prostorách,“ vysvětlil na meetupu Özcan.

Microsoft zároveň plánuje další vylepšení zvuku pro webovou komunikaci. Pracuje na využití AI-driven kodeků, které by mohly nahradit současné audio formáty ve WebRTC, a zároveň spolupracuje s vývojáři prohlížečů na rozšíření možností Web Audio API. Díky tomu by bylo možné zvuk ještě lépe optimalizovat přímo v prohlížeči. Chceme posunout kvalitu zvuku v online hovorech na úplně novou úroveň. Investice do AI-driven audio processingu a moderních webových technologií, jako je WebAssembly, nám to umožní,“ uzavřel Özcan.

Nezmeškejte žádné novinky ITT

Od broadcast trucku k cloudové produkci

Jak zajistit nízkou latenci a vysoký výkon multimediálního zpracování v cloudovém prostředí? O této výzvě a svých zkušenostech s vývojem cloudových produkčních systémů mluvili Mateusz Starzak, Jan Piętek a Teodor Woźniak z Amagi Corporation, která se specializuje na playout systémy pro free ad-supported television (FAST). Dříve bylo nutné investovat do fyzických infrastruktur, což znamenalo vysoké vstupní náklady. Dnes lze tyto technologie nahradit softwarově definovanými systémy běžícími v cloudu. Díky tomu se dostáváme nejen na nižší náklady, ale také k větší flexibilitě,“ vysvětlil během přednášky Starzak.

Jedním z největších problémů při přenosu videa v reálném čase je latence. V tradičních on-premise systémech se video zpracovává lokálně, což znamená minimální zpoždění. V cloudu však signály putují přes internet, což latenci nevyhnutelně zvyšuje. Každá sekunda zpoždění v živém vysílání může být problém. Naším cílem proto bylo spojit výhody cloudové infrastruktury s co nejnižší latencí,“ uvedl Piętek.

Tým Amagi během přednášky názorně ukázal, jak jejich WebRTC pipeline běžící v Dockeru umožňuje streamování s latencí pod 100 ms. Na AWS instanci spustili kontejnery s jednotlivými produkčními moduly, přímo v cloudu mixovali video a synchronizovali audio a video stopy pomocí timestampů. Klíčovou součástí jejich řešení je Janus WebRTC server, který zvládá správu více streamů současně a minimalizuje zpoždění. Další optimalizaci přineslo odstranění zbytečných datových přesunů mezi CPUGPU díky využití Wayland GBM a WebGPU. Pro zajištění stabilního přenosu přes veřejný internet Amagi implementovali protokol Secure Reliable Transport (SRT) a vlastní úpravy FFmpeg, které umožňují zpracování streamů v reálném čase.

React pro živé vysílání

Moderní vývojové přístupy si ve světě živého streamování a multimediální produkce nacházejí stále větší uplatnění. Bartłomiej Krasoń ze Software Mansion ve své prezentaci představil nástroj Smelter, který propojuje real-time video processing s frontendovou logikou v Reactu. Smelter využívá React komponenty k definování UI streamu a mapuje je na výkonný renderovací engine, který vše zpracovává v reálném čase. React poskytuje intuitivní komponentovou architekturu, která se ukázala ideální i pro streamování. Díky Smelteru mohou vývojáři pracovat s živým videem stejně snadno jako s webovou stránkou,“ vysvětlil Krasoń.

Tradiční přístupy ke streamování často vyžadují složité skriptování a konfiguraci jednotlivých modulů. Smelter naopak umožňuje skládat stream podobně jako webovou stránku. Mezi hlavní výhody patří deklarativní UI, které vývojářům umožňuje popsat stream jako sadu React komponent, live preview v prohlížeči pro okamžitou vizuální zpětnou vazbu a jednodušší správu i úpravy díky komponentovému přístupu.

Smelter převádí React kód do JSON objektů, které určují kompozici streamu. Celý proces probíhá ve třech krocích: nejprve vývojář v Reactu definuje UI streamu, podobně jako při tvorbě webové aplikace. Následně Smelter přeloží tento popis do strukturovaného JSON formátu, který umožňuje řízení streamu v reálném čase. Nakonec je výstup zpracován renderovacím jádrem Smelteru, které podporuje různé video vstupy i výstupy. Vidíme obrovský potenciál v propojení moderních frontendových technologií se světem streamování. Smelter je prvním krokem k tomu, aby se tvorba video obsahu stala dostupnější a efektivnější pro každého vývojáře,“ dodal Krasoń, který na závěr prezentace doporučil účastníkům meetupu, aby si technologii sami vyzkoušeli.

Mohlo by vás také zajímat

Jak vypadá nová éra multimédií? Kraków Video Tech Meetup zná odpověď