3分钟视频、100句语音，腾讯云智能推出“自助式”AI数智人生产

4月25日，在腾讯云智能“数智人媒体沟通会”上，数字经济学者刘兴亮现场展示了他的专属“数智人”，以及由这个“数智分身”输出的短视频“亮三点”。刘兴亮分享称：“这个形象近似真人，表情、唇型匹配自然，包括我的特色口音也模拟得惟妙惟俏的数智人，正是腾讯云智能小样本数智人。未来，不需要搭建拍摄场地，也不用提前化妆彩排，不受空间、时间限制，数智人可以随时随地帮我生成口播视频，解放我的生产力。

CSDN资讯

734人浏览 · 2023-04-26 10:39:12

CSDN资讯 · 2023-04-26 10:39:12 发布

“大家好，我是刘兴亮，这是我的首个数智人分身。”

在这里插入图片描述
图：数字经济学者刘兴亮用小样本数智人生产视频

越来越多的数字人走入各行各业，投入实际应用，但高昂的制作和运营成本让不少企业望而却步。如何让数字人从大企业走向小商户，成为小微企业经营的“可选项”，甚至成为个人创作者的创作工具？过往复杂的训练样本数据采集，导致数字人定制过程长、成本高，一定程度上限制了数字人的快速应用落地。

沟通会上，腾讯云智能小样本数智人生产平台首次对外发布，平台具有训练样本小、生产效率高、自动化生产等特性，可以轻松实现“自助式”数智人生产制作。依托腾讯自研AI能力和技术经验，只需要3分钟真人口播视频、100句语音素材，平台便可通过音频、文本多模态数据输入，实时建模并生成高清人像，在24小时内制作出与真人近似的“数智人”。千元级别的成本，小时级的制作时长，大幅降低数字人使用门槛，腾讯云智能小样本数智人为短视频创作、知识分享、带货直播等场景应用提供了更多可能性。

在这里插入图片描述
腾讯云智能数智人产品总经理陈磊表示，腾讯云智能正致力打造自动化的“AI+数智人工厂”，以“产、销、服”一站式平台，实现“自助式”购买、生产和应用数智人。通过开箱即用的数智人服务，腾讯云智能还将广泛开展生态被集成合作，携手合作伙伴将更逼真、更智慧、更高效的数智人应用落地千行百业。

自研小样本数智人驱动技术框架，24小时实现数字分身复刻

腾讯云智能依托自研小样本数智人驱动前沿技术框架，以及基于自监督机制的通用多模态模型，让用户实现提交少数样本数据进行AI训练，例如3分钟真人口播视频、100句语音素材，即可获得与真人形象、语音近似的数智人，生产周期缩短至天级别。千元级的价格，自助式的服务，让数智人成为“用得起”的数字化服务。

陈磊表示，小样本数智人支持半身、全身形象展示，手势动作会根据内容灵活调整，也支持录制背景任意更换，适用于直播带货等更广泛的商用场景。相较于2D真人精品数字人，小样本数智人无需专业影棚录制素材，成本更低；相较于照片生成、仅能呈现面部形态的数字人，小样本数智人可根据文本设计手势，唇动、口型、表情复现真人风格。

在这里插入图片描述
小样本数智人形象、音色接近真人，支持半身、全身形象展示，适用于更广泛的商用场景

以知识分享口播视频生产为例，小样本数智人可以代医生、律师等专业人士出镜，大大节省视频录制时间。在沟通会现场，浙江树兰医院盛国平博士展示如何用“数字分身”输出医学知识科普视频，在忙碌工作中缓解视频录制压力。按日更计算，如果以“妆发+调试+录制”平均两小时/期来算，一周就可以省下14个小时，一年可节省近800-900小时，相当于省下30-40天的制作时间。

打造数智人aPaaS平台提供“产、销、服”一体化服务

为了加速数智人服务普及，腾讯云智能还提出自动化“AI+数智人工厂”的方向。开箱即用的数智人生产服务，依托腾讯云TI平台，内置超过10项AI算法能力。未来，无需任何算法、研发经验，只要在平台导入视频、语音训练素材，即可通过“自助式”服务，完成大批量数智人形象、音色定制。

针对数智人运营，腾讯云智能提供播报数智人平台、交互数智人平台服务。播报数智人平台支持通过文字、语音输入快速生成数智人视频；交互数智人平台可打造“超长待机”的数智员工，可定制专属问答库，提供724小时人机双向交互服务。同时，也可实现数智人直播服务，直播间724小时不断档，自由切换真人语音接管，与用户问答互动。

陈磊表示，腾讯云智能专注做厚aPaaS数智人平台，以API接口形式向合作伙伴开放“产、销、服”一体化服务，支持合作伙伴开发更多适用于垂直行业、垂直场景的数智人SaaS服务。目前，已经有数十家合作伙伴依托平台，向行业提供数智人直播SaaS、知识口播SaaS应用，覆盖医疗、传媒、金融多个行业。

作为腾讯云智能的生态集成伙伴，医微讯创始人、CEO潘耿表示，腾讯云智能数智人生产及运营能力的开放，助力我们为客户打造了适用于医疗行业的数字人服务。微媒数字会议CEO天狐表示，微媒将全力和云智能共创数字分身解决方案，形成可持续发展的品牌营销生态，为企业与个人进行IP打造。

“皱纹级”形象还原，“音素级”音色复刻

腾讯自2018年开始投入数智人研发和服务，是国内最早投入数字人领域的企业之一，已发布数百篇相关技术顶会、期刊论文、专利近百份。

在技术解读分享中，腾讯优图实验室研究总监汪铖杰表示，2D小样本技术的背后是3D技术。“小样本数智人从直观上感受是2D视频，背后其实是3D人像在做支撑。从‘文本/音频’信息到‘3D人像驱动’再到‘2D人像视频’的模式，通3D人脸结构的先验信息引入，使数智人口型、表情更到位，让小样本数智人形象实现‘皱纹级’还原。”

另一方面，“小（样本）"的背后是"大”。基于自监督机制的通用多模态模型经过大规模数据训练，可以将语音、文本与人像的表情、口型进行关联。“3分钟”的训练视频正是基于这个模型，学习每个人个性化的发音和口型特征。

汪铖杰表示，虽然小样本数智人使用门槛、成本都大幅降低，但他们希望能“用跑车的性能，服务家用轿车的用户”，通过综合运用多项视觉AI技术，提升小样本数智人品质，其中就包括高精度人像分割、光照优化、人像美化、视线矫正等。他举例称，当录制视频出现较暗、较朦等情况，小样本数智人可以通过光照优化技术进行亮度提升，也能通过高精度的人像美化提升皮肤质感。

在声音复刻方面，基于腾讯自研的新一代小样本音色定制技术，依托深度学习的声学模型及神经网络声码器，小样本数智人改善了传统声学模型语音韵律单一，语调平淡的问题，让语音合成更加精细化。例如，一段文字中哪里该读重音、哪里情绪有变化等因素，都会经由AI训练识别，复现个人音色以及表达风格，最终实现接近本人的自然表达。

此外，通过构建大规模高质量音色数据的预训练基底模型，未来小样本数智人还将支持用户只录制普通话，即可合成英文及方言语音。

目前，腾讯云智能数智人已经覆盖3D写实、3D半写实、3D卡通、2D真人、2D卡通五种形象风格，可实现超细微面部情感表情以及数百种肢体动作，支持形象资产管理、业务服务配置及内容生产相关服务，以满足不同场景下的服务需求。作为数智员工，腾讯云智能数智人已成功“入职”传媒、金融、出行、文旅、政务等多个行业，依托新一代的多模态人机交互系统，同时连接腾讯丰富的内容和服务生态，实现从“数字人”智能升级到“数智人”。

未来，面向数智人应用，腾讯云智能将不断通过CV、TTS、NLP、ASR等多项自研AI技术，推动数智人服务更广泛落地，以“普惠化”服务走入千行百业。