黑科技！漫画文字自动翻译

【CSDN 编者按】相信不少漫画迷都曾为了追漫画特地去学习外语，学外语的时候很累，看漫画的时候很爽。现在，东京大学两位博士研发了漫画文字自动翻译的一个工具，追漫再也不累了！作者 | 神经...

CSDN资讯

3238人浏览 · 2021-01-07 10:24:12

CSDN资讯 · 2021-01-07 10:24:12 发布

【CSDN 编者按】相信不少漫画迷都曾为了追漫画特地去学习外语，学外语的时候很累，看漫画的时候很爽。现在，东京大学两位博士研发了漫画文字自动翻译的一个工具，追漫再也不累了！

作者 | 神经星星责编 | 张文

出品 | CSDN（ID：CSDNnews）

内容概要：一项关于漫画文字自动翻译的研究，引发了热议，由两位东京大学博士组成的 Mantra 团队发布了一篇论文，目前已被 AAAI 2021 收录，该 Mantra 项目旨在为日本漫画提供自动化的机器翻译工具。

最近，由东京大学 Mantra 团队、雅虎（日本）等机构联合发布的《Towards Fully Automated Manga Translation 实现漫画全自动翻译》论文，引发了学界和二次元界的关注。

如图所示：左一为日文原版，自动化输出英文版（右二）和中文版（右一）

Mantra 团队成功地实现了将漫画的中的对话、气氛词、标签等文字自动识别，并做到了区分角色、联系上下文，最后将翻译文字准确替换、嵌入气泡区域。

有了这个翻译神器，估计翻译组、追漫的小伙伴们都该偷着乐了。

发论文、公开数据集、商业化一条龙

在科研方面，目前该篇论文已经被 AAAI 2021 接收，研究团队还开源了一个包含五部不同风格（幻想、爱情、战斗、悬疑、生活）的漫画，所组成的翻译评估数据集。

OpenMantra 漫画翻译评估数据集

论文地址：https://arxiv.org/abs/2012.14271

数据格式：带注释的 JSON 文件和原始图像

数据内容：1593 个句子、848 个场景、214 页漫画

数据大小：36.8 MB

更新时间：2020 年 12 月 7 日

下载地址：https://hyper.ai/datasets/14137

在产品化方面，Mantra 计划上线封装好的自动翻译引擎，不仅面向出版社提供漫画的自动化翻译与发行服务，也会发布面向个人用户的服务。

具体的实现步骤，Mantra 研究团队在论文《Towards Fully Automated Manga Translation 实现漫画全自动翻译》中进行了详细的解释。

定位文字

在实现漫画自动化翻译的第一步，就是提取文字区域。

但由于漫画的特殊性，来自不同角色的对话、效果拟声词、文字标注等等，都会展现在一幅漫画图片里，漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。

漫画中的手绘、异形文字的识别成为了难点

研究团队发现，由于漫画中的这些各种字体和手绘样式，即使使用最先进的OCR 系统（例如 Google Cloud Vision API），在漫画文本上的表现很不理想。

因此，团队开发了针对漫画优化的文本识别模块，通过检测文本行和识别每个文本行的字符来实现对异形文字的识别。

内容识别

在漫画中，最常见的文字就是角色之间的对话，对话文字气泡还会被切割成多块。

这就要求自动化机器翻译需要准确区分角色，还得联系上下文注意主语的衔接、避免重复，这都对机器翻译提出了更高的要求。

点击放大查看场景分类、文本顺序和情感识别流程

在这一步中，要通过上下文感知、情感识别等方式来实现，在上下文感知中，Mantra 团队用了文本分组、文本阅读顺序、提取视觉语义三种方式，实现了多模态的上下文感知。

自动嵌字

Mantra 这一自动化引擎，不仅能够区分角色、联系上下文准确翻译以外，还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。

在嵌字这一环节中，首先要擦除嵌字区域，再进行嵌字，由于日文、中文、英文字符的形态、拼写、组合、连读方式都不一样，所以这一环节的难度也尤其大。

在这一步中，需要进行：页面匹配→检测文本框→文字气泡的像素统计→拆分连接的气泡→语言间的对齐→文字识别→上下文提取。

实验：数据集与模型测试

在论文中的实验部分，Mantra 团队提到目前并没有包含多种语言的漫画数据集，所以他们创建了 OpenMantra（已开源）和 PubManga 数据集，其中OpenMantra 用于评估机器翻译，包含 1593 个句子、848 个场景画面和 214 页漫画，Mantra 团队已经请专业翻译人员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集（同上文）

论文地址：https://arxiv.org/abs/2012.14271

数据格式：带注释的 JSON 文件和原始图像

数据内容：1593 个句子、848 个场景、214 页漫画

数据大小：36.8 MB

更新时间：2020 年 12 月 7 日

下载地址：https://hyper.ai/datasets/14137

PubManga 数据集用于评估构建的语料库，该数据集包含注释：