编码基于传统算法的分频带特征提取(基频、子带频谱包络、能量等) , 以及 RVQ、距离编码等方法实现特征编码节省码率;解码采用自回归模型和带宽扩展(BWE)的 WaveRNN 模型实现模型算力的精简 。 基于自研的多平台 AI 推理引擎实现模型的非对称量化、混合精度推理、计算压缩解码耗时 , 最终保证移动端部署的实时性 。
另外 , 还有 NVIDIA 深度学习资深解决方案架构师在大会上分享了英伟达从 提升算力、结构化稀疏减少算力损耗、模型量化寻找最优算力的深度学习“一增两减”思路 。 声网 Agora SD-RTNTM 网络传输质量工程师分享 , 探索声网如何将运维操作的 API 化、平台化 , 将 AI 和 OPS 拆解成算法-决策-执行 , 以实现 7*24H 无间断、运维执行的质量和效率 。
视频标准与专利发展迅速 , 期待 AV2 的到来
除了 AI 的深入实践 , 国内厂商在实时音视频领域另一个重要的战场 , 标准制定上 , 也在投入大量精力 。 RTE2021 大会上 , 参与了高清、4K 等视频国际标准制定的叶琰博士 , 分享了关于 MPEG、ITU 发展历程 , VVC 性能演进详细指标数据 , 以及视频标准商用落地的最新个人观点 。
文章图片
MPEG 发展路径
她很坦率地提出了 , 已经占据互联网 80% 流量的视频 , 压缩技术日趋被重视 , 也将带来 专利技术之争 , 以及专利授权的复杂场景 。 另外 , MPEG 视频相关工作将在 VVC 下一代标准技术研发、AI 视频编码(包含传统框架下提供更高压缩性能、神经网络进行视频压缩两个方向) , 以及浸入式视频方向发力 。
除了视频标准 , RTE2021大会上 , 谷歌工程师也带来了最新的 AV2 编解码器的设计和性能优化成果 。 上一代 AV1 仅仅在引入实际场景落地的进程中 , 谷歌的工程师们已经在继续向前 , 以 0.4~1.5% 的性能提升 , 探索编解码效率的极限 。 所以 , 与 AV2 相关的场景和标准 , 也将是业界重点关注的工作 。
WebRTC 开源与标准之上 , 声网如何打破“黑盒子”
今年 , WebRTC 正式成为 W3C 与 IETF 的官方标准 , 看起来尘埃落定 。 不过 , WebRTC 开源社区 Committer、声网 Agora WebRTC 负责人毛玉杰在大会上分享了 , 各组织在 WebRTC Codecs 存在着开源与标准之争的现状问题 , 以及声网在 WebRTC 标准之上 , 如何设计 Web 端到端音视频传输架构 , 降低开发者对实时音视频的使用门槛 。
他总结了 WebRTC 的六个现有问题:设备与外设缺乏适配、各类浏览器兼容性、移动端支持不佳、音视频模块不可定制、性能问题、统计数据缺失 , 目前浏览器厂商并不能全部解决以上问题 。 声网结合 ORTC、WebRTC Extenions、WebRTC-SVC、Web Transport、Raw-Socket……等多个技术标准 , 形成了现在声网的 Web 端到端音视频传输架构 。
文章图片
声网 Web 端到端音视频传输架构
从 AgoraAI 实时 AI 加速引擎的推出 , 到在千元机上开启各类 AI 玩法;从 WebRTC 的标准化 , 到在探索在 Web 端达到 native 端同等的能力;从 RTC 与 IM 融合基础上提供的 aPaaS 到 RTE 万象图谱的发布 。 过去一年是声网 Agora 技术进化的一年 , 也是实时互联网迈向全新技术阶段的重要变革点 , RTE 领域的未来值得我们期待!
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
