技术沙龙

活动干货｜LiveVideoStack Meet 深圳：元宇宙与音视频发展

4月23日，音视频领域的全球顶级技术社区之一 LiveVideoStack Meet 城市沙龙活动在即构科技举办，来自即构、荔枝、腾讯、阿里、思谋、网心、shopee 等音视频技术领域的专家好友们共聚一堂，围绕《元宇宙与音视频发展》话题，就各自技术领域展开多个议题的分享，为开发者带来了新视野和新思路。

Zego_Test

Apr 28, 2022 • 12 min read

元宇宙重新定义了人与空间的关系，AR、VR、云计算、5G、区块链和音视频等技术搭建了通往元宇宙的通道，使得虚拟与现实得以融合，甚至交互。一个个新场景在我们的生活里悄然而至，也勾起我们对下一个新场景的无限遐想，下一个新场景将在哪里？又将如何如何落地？

文末点击阅读原文，获取现场讲师 PPT～

01 #ZegoAvatar 移动端⾯部表情随动方案技术解析#

在大家畅想的元宇宙中，每个人都能拥有独一无二的身份，并能够在虚拟世界里实时的感受到各种奇妙的沉浸式体验。因此 ZEGO 即构科技从这个角度出发，针对“身份”、“沉浸感”、“低延迟”、“随时随地”这四个元宇宙核心基础，更基于互动智能的业务逻辑，提出并落地了 ZegoAvatar 解决方案。

ZEGO 即构科技 AI 图像视频处理专家 Yango 重点针对 ZegoAvatar 中移动端面部表情随动这一技术点进行剖析，向大家分享了算法架构、整体落地难点，以及针对性解决方案。

首先，Yango 向我们展示了一段 ZegoAvatar 中移动端面部表情随动的效果视频，视频中 ZegoAvatar 的表现非常精确且稳定，细腻且自然，而效果精确的背后，是 Yango 针对落地难点的攻克：

移动端推实时性
模型精确性&鲁棒性
表情随动协调性

关于以上三个难点的思考过程，感兴趣的同鞋可点击链接查看文章：AI 加持实时互动｜ZegoAvatar ⾯部表情随动技术解析

分享最后 Yango 表示，即构科技目前正在开发多模态实时驱动，如移动端语音驱动等，构建更丰满的交互逻辑和内容，如全身肢体驱动、手势驱动、表情包触发（视觉、语音）等，未来将立足互动智能理念，不断进行技术革新与突破。

02 #元宇宙中的音频技术探讨#

在元宇宙时代，3D 虚拟空间中衍生出海量的数字产品和服务需求，人们在现实世界中几乎所有需求在元宇宙中都将被放大，听觉体验也将起到重要的支撑作用。

在分享中，荔枝音频技术负责人沈俊聪先生向我们描述了他所认为的元宇宙定义“一个跟我们现实世界平行的虚拟世界，这里面包括经济关系、生活、创作，也包含有政治、社会、伦理关系，跟我们现实生活很近，甚至超越现实生活”。

会上，他通过丰富的案例给大家介绍了目前元宇宙的火爆现象，例如“元宇宙第一股” Roblox、Facebook 更名 Meta、Sandbox 中的虚拟房产等。沈俊聪认为，在元宇宙的基础设施里，NFT 比 VR、AR 更重要，如同流通在全身的血液让各个器官形成一个有机整体一样，NFT 将元宇宙中各个模块融合形成一个有机整体。元宇宙的声音场景主要有音乐 NFT、元宇宙演唱会、社交音频等，而落地这些声音场景的技术关键就是要思考如何缩小物理世界与虚拟世界的鸿沟。

关于元宇宙声音场景里涉及到的音视频技术，沈俊聪先生列举了 7 项目前存在的技术难点：

接入的耳机和麦克风各种各样，导致各种声音算法效果不一致
用户的网络条件不同，导致延时不同
声音传递情感，需要高清的声音流来承接，并目还要保持低延时
空间音频技术受制于每个人的生理特性化差异，体验一致性较差
变声技术上还很难较好的兼顾实时性和效果
现实世界的声音不能影响到元宇宙世界
高质量的环境声学模拟模型，以模拟各种物体对声音的影响

03 #大规模高性能图像处理架构演进及软硬件一体化的性能优化实践#

在沙龙活动上，来自阿里云的资深技术专家王文强，从他自身的实际工作经验出发，介绍了如何让超大规模的异构图像处理解决方案更“低碳”。

在第一部分图像处理系统架构设计这部分的内容分享中，王文强向大家介绍了高性能图像处理的典型场景、典型的高性能处理架构。

在第二部分的性能优化中，王文强提到了有关高性能图像转码面临的问题、异构方案的选择、转码吞吐优化、转码延时优化、结合AI的智能量化、Webp的块级自适应量化、AVIF的显著性编码技术。

之后，王文强介绍了图像编码与视频编码的区别，并深度解析了面向图像的目标质量编码技术。

最后，他向大家分享了关于多媒体异构解决方案的问题及思考，这其中包含灵活性与性价比问题、弹性与混部问题对异构解决方案的影响等。

04 #语音标准建设的那些事#

在游戏场景中，语音的环境更为复杂，需要同时兼顾语音通话质量和媒体播放音质，而现有智能终端仅提供了适用于通话场景的语音通话模式和适用于音乐播放场景的媒体模式，未考虑两者融合兼顾的场景，行业内需要统一的、标准化的解决方案，来提升游戏场景下的语音应用音质与性能。来自腾讯科技的 GVoice (腾讯游戏语音)负责人 —— 曹木勇，他基于上述的背景，带来了关于语音标准建设的主题分享。

曹木勇先生首先从 IEEE P2861.4 游戏语音工作内容出发，介绍了 IEEE P2861.4 游戏语音标准产生的背景与初衷，以及我们正在面临的挑战：

通话与音乐并存
低信噪比
语音处理 AI 化
生态链对产品理解不一致：重复运算；高功耗、多次损伤

基于上述挑战，曹木勇先生又提到了关于 P2861.4 标准的主要内容及此标准的主要目标：

游戏语音模式（通话与音乐并存）
应用层与系统层算法可协商
应用层与参数层算法可协商
充分利用 ADSP 降低功耗，提升性能

目前 IEEE P2861.4 游戏语音标准已经在和平精英、王者荣耀等游戏场景中落地，曹木勇先生也在分享的最后也发出倡议，希望在大的变革面前，可以在行业内达成统一理解，让行业能够共同行动起来，一起推动事物的向前发展，打造更低的能耗，共同提升互联网生态的用户体验！

05 #工业场景下数字孪生应用的探索与实践#

元宇宙逐步被市场关注，作为元宇宙技术基础之一的数字孪生在社交系统、生产系统和经济系统中的应用也在加速。在互联网和消费者市场领域外，企业用户也积极探索并加大投入，寻找企业增长的新动能。来自思谋科技数智创新业务高级总监陈相屹，在本次活动的最后分享了有关工业场景下数字孪生应用的探索与实践。

在分享最开始，陈相屹先生介绍了数字孪生的基础概念以及发展。数字孪生就是在虚拟空间里构建一个和现实空间对应的载体，通过这个载体来表达对应的物理实体信息，同时可以反向的去控制和影响现实空间的实体。随后，又讲述了工业场景下数字孪生的主要应用场景，如设计制造、运营维护等。

关于数字孪生与工业的关系，陈相屹先生认为未来工厂分为5个阶段，从 L1 至 L5 分别为：

L1：初始化。过程不可预测、不可控、大量人为干预；

L2：可管理。依据项目来划分过程，被动响应；

L3：明确性。依据组织来划分过程，主动响应；

L4：定量化管理。过程可测量、可控制；

L5：优化。集中于持续的过程优化。

而在工业场景中，企业通常要面临设备运维、物料防呆、生产监控、质量监控、数据分散、生产链协同等这些问题。那么，为了加速企业的数字化建设，陈相屹先生认为企业可以从设备性能指标，生产指标和经营指标这三个指标来进行优化。

基于上述考量，思谋科技可以提供了一套工业的数据采集平台 —— SMore Light工业数字孪生平台，能够让企业自主地完成工业管理产品的搭建，希望用户可以通过选用模型去搭建场景，然后进行应用配置。通过这么一套标准的流程，可以不用投入太多的成本与建设的费用和周期，快速的完成工业数字衍生场景的搭建，其能力可以简单概括为海量模型、精准映射、智能优化、高效交付，具备零代码、孪生重建、行业组建专家的核心亮点。

在分享的最后，陈相屹先生总结了关于数字孪生工业平台的价值：监控追溯、仿真、预测，这也是目前应用的一些主要方向。

圆桌互动

元宇宙时代终将到来，在当下元宇宙构建的阶段，我们能做点什么，对整个行业、每个公司、每个人都有帮助的呢？shopee codec 专家工程师级总监段争志、网心科技首席架构师曾伟纪、即构科技 AI 视觉总监谢昕虬围绕《多媒体与元宇宙》话题进行了分享。

谢昕虬认为，在多媒体技术和元宇宙结合的方面，即构 AI 技术可以进行虚拟内容的快速生产。比如，现实中制作一套衣服，成本可能是一千元或者上万元，打造一套3D的衣服，可能需要花费近10万元。而即构所要做的，就是降低类似于这种素材的成本。比如，通过即构AI技术，可以快速识别头发样式，生成一个头发等，这个过程就是如何匹配到标准的素材，并且将素材融合起来，快速打造一把进入元宇宙的秘钥。

目前各大公司比如 Facebook 的机器人也是用一个 AI 去创造一个世界，但我们在体验市面上的产品时，经常容易感到这个世界的空间很小，是很受限的，除非像魔兽世界这种经过长年累月的一个制作。所以，如何通过 AI 去快速创造一个立体的、更大的、能满足大家需求的世界，这是即构科技正在尝试的方向。（文章首发于「即构科技ZEGO」微信公众号，更多干货内容可微信搜索「即构科技ZEGO」了解）