名校大厂 AI 高手云集，芒果 TV 音视频算法大赛硕果累累

东京奥运会已正式开幕，最新的IT技术也在进入奥运赛场。本届奥运会引入的 AI 辅助打分，扮演了“助理裁判”的角色。这项技术可以追踪选手动作并实时转换为三维立体图像，再由系统根据图像对选手的...

CSDN资讯

1725人浏览 · 2021-07-29 18:14:21

CSDN资讯 · 2021-07-29 18:14:21 发布

东京奥运会已正式开幕，最新的IT技术也在进入奥运赛场。

本届奥运会引入的 AI 辅助打分，扮演了“助理裁判”的角色。这项技术可以追踪选手动作并实时转换为三维立体图像，再由系统根据图像对选手的身体旋转和扭动等动作进行分析，最终依据打分标准判断出选手技术的完成度。可以说是机器视觉在全球顶级运动赛事最核心领域的应用了。

图1：AI捕捉相机画面中选手动作

回到国内，工业界对于图形与音视频算法的探索与实践也在不停向前。近期，由中国(长沙)马栏山视频文创产业园（以下简称马栏山视频文创产业园）和芒果 TV 联合举办的第二届“马栏山杯”国际音视频算法大赛（以下简称大赛）刚刚结束赛程。

顶级赛事背书，全球 Top 高校与一线大厂 AI 人才齐集

在输出众多国内顶级的视频节目之外，马栏山视频文创产业园与芒果TV也是音视频领域实践最新 AI 技术的先行者。过去几年来，他们持续投入资源与资金培养扶持新兴的 AI 技术团队，已进行到第二年的“马栏山杯”国际音视频算法大赛即在此背景下诞生。

作为顶级的音视频算法赛事，大赛规模庞大，评委与参赛者级别也保持了最高水准。截止到大赛结束，本届大赛参赛队伍总数达到 1959 个，相比去年，参赛队伍数量增长51.4%。他们来自全球 Top 级科研院校与国内一线互联网科技大厂，是 AI 科研学术与工程界一线的实操者，也是 AI 领域最炙手可热的人才。

图 2：国内Top 60 参赛院校与部分国际院校

目前大赛正式赛阶段已全部结束，参赛者们围绕视频补全、视频推荐、音乐节拍检测三大赛道展开技术的交锋，最终每个赛道分别有十个团队胜出。

三大赛道获胜名单公布，超高实力选手高水平发挥

一、视频补全赛道

今年大赛的视频补全赛题，由视频行业非常重要的技术需求催生。视频后期制作希望借助机器学习技术，通过 AI 分析视频中的点位和图像，实现劣迹艺人抹除、影视剧穿帮抹除、logo 抹除、水印抹除等操作。参赛者需要以大赛提供的视频片段数据为基础，进行模型训练，用 AI 算法实现视频缺失区域的补全。

视频补全赛道共有参赛队伍 451 个，参赛人次 473，众多参赛选手中，不乏国内各大AI与算法赛事的获胜者。其中，获得第一名的单人参赛选手惠政，是目前在阿里达摩院实习的西安电子科大博士，也是大赛去年视频修复赛道的第二名。获得第二名的是“景-artii”团队，3名成员来自华南理工大学与帝视科技公司，他们同时取得了音乐节拍检测赛道的第三名。第三名的两位参赛者都是阿里达摩院员工。视频补全赛道前十名名单如下：

图 3：视频补全赛道前十名

在比赛中，视频补全赛道评分的基准分是 68.7054，而前十名参赛选手得分已远高于此，可见选手的技术实力与在此届大赛中的高水平发挥。

另外，该赛道冠亚季军的方案设计也各有特色。第一名选手惠政采用端到端的训练方案 STTN，即用于视频修复的时空联合 Transformer，通过自注意力机制同时填充所有输入帧中的缺失区域，并使用 L1 +时空对抗性损失来优化 STTN。为了加速和减少显存，他使用了半精度模型并对输入进行裁剪。训练过程分为两步：首先使用较小的训练 patch (512 * 288)、L1 损失+对抗损失对网络进行训练；然后使用较大的训练 patch（1024*448）、L1 损失对网络进行微调。测试阶段使用 self-ensemble 策略对结果进行增强。

第二名则设计了基于循环的 U-net 级联+注意力融合的深度学习模型，利用循环结构去充分利用帧间信息。

第三名采用了 STTN 和 DSTT 两个深度模型，针对不同的 mask 类型使用不同模型，更有针对性地解决对应视频补全的问题。他们在实战中发现 DSTT 在文字类型水印效果较好，STTN 则在其它类似数据上更优，基于此，他们使用 DSTT 训练文字水印数据，STTN 训练其它数据，并在训练中采用了多种策略去优化网络。

以下为在 100 个补全视频下的前三名性能分析：

二、视频推荐赛道

大赛的第二个赛题是视频推荐，目标是通过数据驱动的设计与架构，提高视频推荐点击率以及人均有效观看时长。本赛题以芒果 TV 真实推荐业务场景为原型，设置丰富的特征维度以及海量的数据信息，希望选手设计出一套精准有效的推荐模型，以帮助提升视频推荐的效果，改善平台用户体验。

视频推荐赛道中共有参赛队伍 627 个，参赛人次 651。本赛道是数据科学领域高手的聚集地，前三名都是国内外算法竞赛常客，均在 Kaggle 上获得过多枚金牌。其中第一名和第三名更是在 Kaggle 全球数据科学家最高总排名第 12，获得 Kaggle Grandmaster 称号。视频推荐赛道前十名名单如下：

图 4：视频推荐赛道前十名

本赛道参赛者对赛题的设计思路也值得深挖。第一名选手黄钟山采用了基于召回+排序+回归的架构来预测本次赛题的多任务目标。召回层设计中，他从相关视频 fvid 的历史曝光点击记录、用户主站观看行为等层面设定了7种策略。在排序层，主要是借助多维度的特征工程，例如曝光日志点击日志数据、用户主站行为序列数据等。模型构建上，他选择了 lightgbm，并结合了负采样、cross validation 等策略。

获得第二名的 OTTO 团队采用基于召回+排序+多分类的架构，他们在特征工程上下了很多功夫，主要有基础特征、用户兴趣和时间特征三类。例如转化率、频次特征、用户历史对 tag 的点击和转化、fvid 下 vid 最近一次点击时间距离当前时间距离等。最后通过 lightgbm 对特征进行建模，得到预测结果。

第三名的江离团队采用了基于粗排+精排+二分类的架构，江离团队使用的信息与模型和前两名团队类似，只不过在架构思路上有所不同。该团队采用粗排+精排+二分类预测的设计。其中，粗排为每天召回 3000w+ 样本量，使用了 50 个左右特征；精排根据每个 did-fvid 选取 top60 作为候选，最后通过二分类模型输出预测结果。

三、音乐节拍检测赛道

大赛的第三个音乐节拍检测赛道中，参赛者基于AI算法对音乐中节奏节拍的学习和训练，实现如节拍踩点匹配视频的创新应用。本赛题提供数据集，选手需要通过深度学习算法实现对节拍 beat 和重拍 downbeat 的检测并标识时间点位，同时也可使用传统音频算法。

音乐节拍检测赛道共有参赛队伍 452 个，参赛人次 467，前三名来自清华大学、湖南大学、厦门大学和华南理工大学。第一名 mg13078804B 团队选手吴健是清华大学硕士，第二名 fuqianya 团队选手王志宇是湖南大学在读硕士，而第三名是帝视科技和华南理工大学的校企联合团队。其他前十名选手还有来自中国银行、华为等知名企业，以及多次夺得AI竞赛名字的人工智能领域优秀人才。音乐节拍检测赛道前十名名单如下：

图 5：音乐节拍检测赛道前十名

对于音乐节拍检测赛题的分析与实现，赛道冠亚季军三个团队方案各有不同。第一名选手吴健在本次比赛中基于 TCN 网络和 GRU+MLP 网络，提出了两阶段的解决方案，同时通过模型集成策略，进一步提高结果准确率。为了减少预测耗时，特征提取采用固定 fft size，效率最高使用 torch.stft。另外，吴健在节拍处理时发现 DBNBeatProcessor 并不适合赛题数据，他通过 autocorrelation 对网络预测的结果进行优化，提高了最终结果的准确率。

第二名 fuqianya 团队选手王志宇提供了一种迁移学习方案。通过 BiLSTM 网络，首先在比赛提供的 GTZAN 数据集进行预训练，然后在验证集上进行微调，使模型更适应比赛验证集的音乐风格。为了平衡模型的速度和精度，他仅使单一模型进行推理。

赛道第三名十一月的肖邦提供了深度学习与规则后处理结合的新解决方案。通过对音频数据使用不同的解析方式，他们对同一个网络训练出两个模型，之后对两个模型的预测结果通过概率取平均融合。

纵观获胜队伍对赛题的拆解和设计实操，我们能看到，像 AI 模型需要千亿级别的参数不停训练一样，AI 应用的也早已不是停留在理论层面的探索，而是进行了大量地与现实工程问题结合研究与实践。芒果 TV 音视频算法大赛汇集了国内一线音视频项目的真实痛点，也正是因为此，连续两年的大赛都吸引到了国内外 Top 级 AI 高手参与赛题竞技。

本次大赛汇聚了视频节目制作方与知名高校、技术大厂的 Top 级 AI 高手。为他们提供彼此竞争、相互激发的场景，助力产出 Top 级的音视频算法方案，是“马栏山杯”国际音视频算法大赛更重要的意义所在。作为顶尖赛事，“马栏山杯”国际音视频算法大赛促进了AI机器学习领域多方的共赢，也将成为 AI 音视频行业必不可缺的重要盛会。CSDN 将持续跟进大赛后续发展与赛事最新技术实践，敬请关注。