万字长文！AIGC 时代数字图像水印的进展与实践 | 新程序员

无论是基于传统方法还是基于深度学习的数字水印技术，一个完整的数字水印系统的设计一般包括三部分：水印生成、水印嵌入和水印提取[1]。

《新程序员》编辑部

15727人浏览 · 2024-02-28 11:45:18

《新程序员》编辑部 · 2024-02-28 11:45:18 发布

【导读】数字水印是信息安全领域的新技术，用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理，分为空域和变换域方法。本文介绍了数字图像水印的发展与实践，包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水印提取方案和未来发展趋势，如将水印信息隐藏在生成图像的风格特征中，利用深度学习模型的优势提高水印的不可感知性等。

本文精选自《新程序员 007：大模型时代的开发者》，《新程序员 007》聚焦开发者成长，其间既有图灵奖得主 Joseph Sifakis、前 OpenAI 科学家 Joel Lehman 等高瞻远瞩，又有对于开发者们至关重要的成长路径、工程实践及趟坑经验等，欢迎大家点击订阅年卡。

作者 | 王丙坤

责编 | 王启隆

出品 | 《新程序员》编辑部

数字图像水印定义和追求

无论是基于传统方法还是基于深度学习的数字水印技术，一个完整的数字水印系统的设计一般包括三部分：水印生成、水印嵌入和水印提取[1]。

水印生成

水印信号可以通过多种方式生成，例如利用伪随机序列发生器或混沌系统，亦或是有意义的二值、灰度或彩色图像。通常为了携带更多的版权信息，人们倾向于使用二值图像或灰度图像来表示水印，例如产品序列号或 logo 等。对于有意义的水印序列，为了增强水印信息的安全性并提高其抵抗恶意攻击的能力，可以使用置乱技术对水印进行预处理，以消除水印信息之间的相关性。

水印嵌入

水印嵌入是将水印信息嵌入到载体图像中的过程，它可以通过不同的技术和算法实现。在嵌入的过程中，水印信息被融合进载体图像的特定区域，使其在视觉上不易察觉。嵌入过程如图 1 所示。

图 1 水印嵌入过程

水印提取

水印提取是从载体图像中提取水印信息的过程，它涉及使用特定的算法来从图像中提取已嵌入的水印，这些算法会根据水印嵌入的方式采取相应的措施。水印提取过程如图 2 所示。

图 2 水印提取过程

追求：不可感知性/鲁棒性/容量

数字水印算法有多种评估标准，主要有以下几方面的追求：不可感知性/鲁棒性/容量。

不可感知性

不可感知性指的是载体嵌入水印前后不会引起感知上的明显变化。当评估数字水印算法的不可感知性时，常用的指标是结构相似性指标（SSIM）和峰值信噪比（PSNR）。

SSIM 衡量两幅图像之间的结构相似性，考虑了亮度、对比度和结构三个方面的相似度。其数学表达式为：

而 PSNR（峰值信噪比）则用于衡量图像的质量损失程度，其数学表达式为：

其中，MAX（极限值）是图像的最大可能像素值，MSE（均方误差）代表图像之间的均方误差。

这两个指标常用来评估数字水印算法对图像质量的影响，一般来说，较高的 SSIM 和较高的 PSNR 值表示水印嵌入对图像质量的影响较小，即水印图像的不可感知性较好。

鲁棒性

鲁棒性是指数字水印算法抵抗各种攻击的能力，例如 JPEG 压缩、旋转、剪切、添加噪声等。使用鲁棒性强的水印算法嵌入水印的图像在经历多种攻击后，在提取水印信息时依然有较高的提取成功率。评估鲁棒性常用的指标包括错误率、提取成功率等。

容量

图像水印容量指的是在载体图像中可以隐藏的最大水印信息量。它的大小受多种因素影响，包括载体图像的统计特性、失真限度，以及水印嵌入和提取算法是否能够充分利用载体图像。不同的应用场景对水印容量有着不同的需求和限制。

性能指标之间的关系

数字水印的鲁棒性、不可见性和容量之间存在一种相互制约的关系，这种关系可以通过图 3 进行展示。当三者中的任何一个参数被固定时，剩下的两个参数之间会存在矛盾。举例来说，若水印容量被设定为一定数值，为了提高水印的鲁棒性，可能需要增加水印的嵌入强度，而这样做必然会导致更大的图像失真。同理，若降低水印的嵌入强度以保证较好的图像质量，那么水印的鲁棒性就可能会降低。因此，在设计水印算法时，常常需要在水印鲁棒性、不可见性和容量之间取得一种平衡，根据实际应用需求进行权衡处理。

图 3 水印性能指标之间的关系

传统数字水印方法

概述

传统数字水印方法通常基于信号处理、信息论和密码学的原理，通过手工设计的算法或规则实现水印嵌入和提取，分为空域和变换域方法。

空域方法直接在原始图像中嵌入水印，例如修改像素值或调整图像的特定属性来隐藏信息。

变换域方法则是在图像的变换域进行操作，比如在频域或小波域中嵌入水印。这些传统方法中的常用变换包括离散余弦变换（DCT）、离散小波变换（DWT）、离散傅里叶变换（DFT）、奇异值分解（SVD）等，它们各自有不同的优势和适用场景。

典型算法：基于对称性的局部几何失真鲁棒水印[2]

水印嵌入方案

图 4 展示了基于对称性的水印嵌入过程的框架，可以分为三个主要步骤：水印单元生成，对称水印生成和水印嵌入。这些步骤的实现细节在下文阐述。

图 4 基于对称性的水印嵌入过程的框架

水印单元生成

首先通过应用密钥，生成一个尺寸为，元素取自的二维双极化随机矩阵 r，其下标。然后 r 被双重上采样来得到随机扩频矩阵 R。（见图 5）

图 5 使用随机扩频矩阵扩频生成水印单元

其中，表示水印单元矩阵的下标。掩膜操作是必要的，因为它可以带来以下好处：

1. 提供基本的信息安全。即使水印方案的算法细节全部公开，潜在攻击者也无法在没有 K 的情况下准确提取出水印信息。

2. 消除弱信息的影响。类似于密码学中的弱密钥，弱信息是指使水印同步过程表现出某些不良行为的信息类型。举例来说，对称的二维信息矩阵是一种弱信息。因为信息矩阵本身的对称性和翻转生成的对称性都会被检测到，会对水印同步过程造成干扰。水印单元 W 与掩膜矩阵 K 的掩膜操作有利于避免弱信息对同步过程的干扰。由于扩频操作，K 的信息率是 W 的倍。信息率的差异使得掩膜后的水印单元的分布性质更依赖于 R 而不是 W，即掩膜后的水印单元将更接近随机矩阵。结果，弱信息将不再影响所提出的基于对称性的同步过程，因此所提出的水印方案可以达到其理论的最大水印容量。

3. 帮助判断水印单元的状态。

对称水印生成

本文所提出的水印方案通过翻转掩膜后的水印单元来创建完整的对称水印。在该方案中，垂直翻转是指相对于水印单元的水平轴进行翻转，水平翻转是指沿垂直轴翻转。

图 6 展示了通过翻转水印单元来生成对称性的示例，其中使用符号“p”来表明水印单元的状态。

图 6 通过翻转水印单元生成对称水印的示例

对称水印是根据以下的翻转规则生成的：

翻转规则：下一个水平相邻的水印单元是通过将上一个单元水平翻转生成的，下一个垂直相邻的水印单元是通过将上一个单元垂直翻转生成的。对于特定的图像 I，会被反复翻转，直到 W 的尺寸不小于 I 的尺寸。然后本文将 W 裁剪为 I 的尺寸，以获取要嵌入的水印。

值得一提的是，翻转过程是自洽的。不同的翻转顺序将生成相同的对称水印 W 。对于这个 W，两个相邻水印单元的边线所在的轴是 W 的一条对称轴，而四个相邻水印单元的交界点是 W 的一个对称中心。

空间域水印嵌入

对称水印 W 通过加性嵌入的方式嵌入到载体图像 I 中。如果输入的载体图像是彩色的，则会先将其转换到空间，并以其中的亮度分量 Y 作为 I 。为了平衡鲁棒性和不可察觉性，自适应水印强度策略是一个常见的解决方案，例如中提出的自适应嵌入策略。本文采用一种简单的策略，即在载体图像纹理复杂的区域嵌入更高强度的水印，而在纹理简单的区域嵌入较低强度的水印。载体图像的纹理复杂度可以通过 I 的局部方差来衡量。因此，自适应水印强度 S 的定义如下：

值得一提的是，如果有必要，可以通过将对称水印 W 进行轻微的预失真来抵抗空域平均攻击和删除攻击。这种预失真不会对本文所提出的基于对称性的水印同步方案产生显著影响。最后，如果载体图像是彩色图像，本文将对应用到转换以生成最终的水印图像。

水印提取方案

作为一种盲水印方案，本文所提出的水印提取过程不需要载体图像的先验知识。但是，密钥可以在编码器和解码器之间共享，因此提取器可以生成相同的随机扩频矩阵 R 和掩膜矩阵 K 。水印提取过程如图 7 所示，可以分为四个主要步骤: 水印估计、水印同步、水印状态确定和水印解码。步骤细节将在下面进一步描述。

图 7 水印提取方案的流程图

水印估计

首先，对于经历失真的嵌水印图像 J，所提出的水印方案首先估计其中的水印信号。本文将失真和噪声表示为 n，则经历了失真的嵌水印图像 J 可以表示为：

为了简化推导过程，这里的与的等同。不失一般性的，本文假设 n 是零均值白噪声。考虑到掩膜后的水印单元由零均值的随机扩频矩阵构成,因此近似于随机矩阵，而对称水印 W 由生成，因此，W 的分布类似于加性随机噪声，这与 n 的性质相同。因此，上式的后两项的均值都为 O，J 和 I 具有相同的局部均值。上式以进一步表示为：

其中右上角带有*的符号代表该频域变量的共轭。注意到两个变量的互相关可以通过它们的频域形式的共轭乘积进行计算，由于水印 W，残差信号和噪声 n 是相互独立的，它们的互相关的期望应该为零。因此, Z 的期望值为：

进而可以得到：

其中和是 W, 和 N 的功率谱。然后，可以观察到上述均方误差是 H 的二次函数。为了找到最小误差值，本文对方程求导并将导数设为零。解这一方程来得到取得最小误差值的 H：

其中是的功率谱。根据公式，可以发现 H 的空间域形式是一个缩放后的脉冲响应，表示为：

其中是单位脉冲。可以得到局部区域内的水印 W 的估计值可表示为：

考虑到 J 和 W 在局部区域都是零均值，它们的功率谱是它们的局部方差。因此 W 的均方误差最小化估计可以通过以下方式计算：

其中，和分别是 W 和的局部方差。的局部方差可以从失真后的嵌水印图像 J 中估计得到。注意到 W 的分布类似于随机噪声，因此其局部方差取决于其嵌入强度 s，后者可以从 J 中估计得出。

基于对称性的水印同步方法

在解码水印信息之前，需要先同步掩膜的水印单元。为此，本文先计算水印估计值的对称性作为水印同步的参考，并在前文定义了对称水印的对称性，加以提出公式来计算对称性。同时，本文也已经通过讨论得出，该公式的计算复杂度会随着载体图像尺寸的上升迅速上升，因此一个计算复杂度更低的对称性计算方法将有效提高对称水印方案的可用性。

基于该方案，本文设计了一种对局部几何失真具有鲁棒性的数字水印方案。相比于现有的基于周期性的水印同步方案，所提出的水印同步方案具有更高的同步准确度和更简洁的同步流程，这使得对应的水印方案具有更强的几何失真鲁棒性和更大的信息容量。该方案通过翻转水印单元生成对称水印，并通过加性方式将其嵌入载体图像中。在水印提取过程中，本文通过最小化均方误差获得水印估计，然后使用自卷积函数快速计算水印的对称性。基于对称性将水印单元同步后，所提出的方案应用假设检验来确定水印单元的状态，最终提取出嵌入的水印信息。本文认为，基于对称性的水印同步方案有助于提升相关周期性水印方案的性能。

实验结果表明，在各种失真情况下，包括局部几何失真、全局几何失真、常见图像处理操作和组合失真，该水印方案都具有优秀的鲁棒性。考虑到跨媒介场景下的复杂失真组合，所提出的方案为在真实场景下设计鲁棒的实体图像水印方案奠定了基础。

深度学习水印方法

概述：E-N-D 框架

深度学习水印算法是基于深度学习技术的新兴数字水印方法，与传统数字水印方法有所不同。传统方法基于信号处理、信息论和密码学，通过手工设计的算法实现水印的嵌入和提取，相比之下，深度学习水印算法利用神经网络等深度学习模型来处理水印信息。

现有的基于深度学习的水印方案主要使用的是 E-N-D 框架[3]。此类框架包含编码器（Encoder）、噪声层（Noise Layer）和解码器（Decoder）三个部分，如图 8 所示。

图 8 深度学习水印的 E-N-D 框架[4]

编码器学习将水印消息嵌入到载体图像中，噪声层使带水印的图像失真，模拟真实信道中的失真过程，解码器则尝试从失真的图像中提取水印信息。在训练过程中，这三个组件共同进行联合训练，而在实际使用阶段，噪声层部分被真实的信道代替，仅使用编码器和解码器进行水印嵌入和提取。

E-N-D 框架的设计允许模型通过不同的噪声层学习适应各种失真情况，从而增强了水印算法对不同干扰的鲁棒性。

典型算法 1：基于条件可逆神经网络的深度学习图像隐式水印[5]

实现方法（见图 9）

图 9 基于条件可逆神经网络的深度学习图像隐式水印

利用可逆神经网络对于复杂高维密度建模的优秀性能，将基于流的归一化可逆神经网络与水印的嵌入提取过程相结合，实现了高效的水印提取和图像恢复，具体实现方法如下。

扩散与提取（DEM）

对于前向嵌入过程，DEM 接受原始图像与水印信息作为输入，其中水印信息经过如下变换扩散到与图像相同的维度上，与经过 Haar 变换的原始图像一同输入到可逆网络模块。由于这部分的数据处理均为可逆，所以在水印提取过程中即可方便的经过逆运算重新得到输入。

可逆网络（IM）

该模块接受连接后的原始图像和水印信息为输入，在可逆网络中的耦合层通过加性仿射变换将水印信息映射到符合在图像中嵌入水印要求的分布，以达到鲁棒嵌入和不可感知的目的。

融合和分离（FSM）

可逆网络的输出可以分为两部分，舍弃输出的图像部分，仅保留映射后的水印信息，并将后者添加到原始图像中，得到最终的水印图像。同样的，该部分的可逆性允许从水印图像中恢复水印信息与图像。

噪声层与不可逆提取

作为鲁棒水印的硬性要求，生成的水印图像在经过经过若干噪声层后对其水印信息应该保持良好的提取率，以上可逆网络中水印的嵌入和提取具有确定性的映射关系，这使得在没有或有加性噪声的场景中水印提取精度得到良好的结果。然而，当受到有损压缩或复杂的非加性噪声时，可逆网络的前向和后向共享同一组参数，解码器的参数会随着编码器的更新而更新，这限制了解码器的能力应对复杂的噪音。

因此，框架中引入了一个额外的解码器，以增强对有损压缩噪声的鲁棒性。不可逆模块使用 SENet 作为主干来提取水印信息，并且额外训练了一个特定噪声选择模块（NSM），由此判断水印图像是否经过了有损压缩的噪声层，最终决定选择由可逆或不可逆网络提取出的水印消息为准。

实验结果

主要从水印提取的鲁棒性与图像的不可感知性两方面体现该方法的水印嵌入效果。其中，鲁棒性由比特错误率（BER）评估，图像的不可感知性由峰值信噪比（PSNR）与结构相似度（SSIM）评估（如表 1 所示）：

表 1 实验结果分析其一

PSNR1 与 PSNR2 分别代表着水印图像与原始图像和其加噪后结果之间的区分度，前者数值较为接近原始图像的峰值信噪比，这表明水印嵌入过程具有良好的不可感知性。

Acc 代表着水印提取的准确率，数值上 Acc=1-BER，与未经过噪声层训练的嵌入过程的提取率 Pre 有着显著提升。

右侧的 combined 栏表明该方法对于多层噪声依旧具有良好的鲁棒性，实现了水印的有效提取。

表 2 实验结果分析其二

如表 2 和表 3 所示，与其余的优秀方法进行比较，CIN 方法不仅有着最高的 PSNR，而且在鲁棒性方面也取得了 SOTA 的结果，在不同的数据集上保持了稳定的鲁棒性。

表 3 实验结果分析其三

典型算法 2：基于 mini-bactch 的深度学习图像隐式水印框架[6]

图 10 MBRS 水印结构框图

如上图 10 所示，在端到端的基于深度学习的水印方案中, 使用 Encoder-Noise Layer-Decoder 的三层结构。首先使用 Encoder (嵌入器) 将水印嵌入到图像中，在这个过程中需要保证含水印图像与载体图像在视觉上不可区分。接着将得到的含水印图像输入Noise Layer (失真层)，向含水印图像添加失真得到失真图像，为提取器训练提供失真样本。最后Decoder (提取器) 负责从失真图像中提取出水印，保证提取出的水印与嵌入的水印的一致性。

在上述过程中，透明性和鲁棒性是直接影响性能的两个方面。实现透明性的关键是在保证鲁棒性的前提下嵌入尽可能少的水印信号，换言之，嵌入器需仅嵌入解码器需要的信号。因此，核心问题是嵌入器与解码器能否高效耦合。实现鲁棒性的关键是噪声层的设计，噪声层中的失真决定了算法的鲁棒性。为了实现训练，一般要求噪声层可导，因此，对不可导失真（例如 JPEG 压缩）的噪声层设计是重要的难点问题。

然而，在端到端的结构中，对 JPEG 图像进行水印的嵌入时，JPEG 压缩是信道传输中的常见失真，因此，MBRS 的方法旨在训练一个抗 JPEG 压缩的基于深度学习的鲁棒水印方案。在学习 JPEG 压缩失真的过程中首要面对的挑战是 JPEG 压缩中存在不可导的量化过程，使得如果直接使用真实 JPEG 作为噪声层训练，产生的梯度不可回传，不能有效优化网络。在以往的工作中，尝试使用模拟 JPEG 信息代替真实 JPEG 信息保证梯度下降更新，但是模拟 JPEG 无法保证完全学习真实 JPEG 信息，因此在 MBRS 方法中希望引入真实 JPEG 信息而又可以正常反向传播计算梯度。

为了解决模拟 JPEG 损失和真实 JPEG 不可导失真的矛盾，MBRS 方法提出使用 mini-batch 的策略，在每一个训练的小 batch 里随机从无失真（Identity），真实 JPEG 和模拟 JPEG 中选择一种作为噪声层，优化器选择带动量的 Adam 优化器，这样真实 JPEG 虽然不可回传梯度，但另两种失真却能通过优化器的特性保证大体的梯度回传方向。除了在噪声层使用 mini-batch 策略实现真实 JPEG 信息的学习，编码器和解码器阶段都采用基于 SE-Net 的框架。

算法整体流程如下：首先将待嵌入的水印消息通过预处理卷积层上采样到与图像隐藏层相同的大小，经过级联卷积后输出含水印图像。含水印图像传入噪声层中，在噪声层中采用上述 mini-batch 的策略随机在每一个 batch 中选择噪声层，以更好的鲁棒性训练。最后将选择好的带噪声失真的含水印图像输入解码器。

上述方法在大小为 128 X 128 X 3 的 MS COCO 图像数据中嵌入 64 bits 水印信息，经过与 HiDDEN 和 TSDL 方法的对比实验，使用 mini-batch 的训练策略能有效地提升算法对于 JPEG 压缩的鲁棒性，在保持最高的含水印图像的 PSNR 值的前提下，实现了最低提取错误率。同时，对于其他失真，MBRS 方法提出的嵌入提取网络经过训练也得到了最好的鲁棒性结果。

生成图像水印方法

概述

近两年生成模型的陆续发布和开源降低了用户利用 AIGC 造假的门槛，Facebook 等主流的 UGC 内容平台上已经充斥着大量 AI 生成的多媒体信息。这些平台都有识别和追溯这些信息真实性的迫切需求。因此，最近提出了生成图像水印方法，将水印生成和水印嵌入过程合并到图像生成过程中。生成图像水印的嵌入不是发生在图像生成之后而是发生在图像生成过程中，这意味着实际样本并不带有经典加法意义上的水印，而是隐藏在图像分布中的水印。这类方法为内容平台追踪和验证信息真实性提供了一种新的可能性。

典型算法 1：针对扩散模型的鲁棒和不可见的树环水印[7]

图 11 树环水印框架

与现有的在采样后对图像进行事后修改的方法不同，树环水印（见上图 11）会微妙地影响整个采样过程，从而产生人类看不见的模型指纹。水印将一个模式嵌入到用于采样的初始噪声向量中。这些模式是在傅里叶空间中构造的，因此它们对卷积、裁剪、膨胀、翻转和旋转是不变的。在图像生成后，通过反扩散过程提取噪声向量来检测水印信号，然后对嵌入的信号进行检查。

由于直接将密钥输入高斯阵列可能会在生成的图像中产生明显的图案，该方法将密钥输入起始噪声矢量的傅立叶变换中。首先选择一个二元掩码 M，并对密钥进行采样，则初始噪声矢量可以在傅立叶空间中描述为：

在检测时，给定图像，模型所有者可以通过 DDIM 反演过程得到一个近似的初始噪声向量。最后的度量计算为在水印区域 M 的傅里叶空间中噪声矢量与密钥之间的距离，即：

如果该值低于预设阈值，则检测到水印。

对于树环密钥的构造，该方法选择傅里叶空间中以低频模式为圆心，以为半径的圆形区域作为密钥区域。密钥在统计上应与高斯噪声相似，以避免非高斯密钥可能会导致的分布偏移，从而影响扩散模型的性能。该方法选择了零数组，从高斯分布中提取的固定密钥和多个恒定值圆环组成的图案三种不同类型的密钥方案，并对比了它们的性能。

上述方法在 ImageNet 扩散模型和 Stable Diffusion 生成模型上与 DwtDct，DwtDctSvd 和 RivaGAN 几种基线方法进行比较，达到了最好的平均性能。同时，对于 6 种常见的噪声攻击 (75 度旋转、25% JPEG 压缩、随机裁剪和缩放、8 X 8 滤波器大小的高斯模糊、的高斯噪声以及亮度系数在 0 和 6 之间均匀采样的色彩抖动），该方法也表现出较强的鲁棒性。

典型算法 2：针对 Stable Diffusion 的高效水印算法 Stable Signature[8]

图 12 Stable Signature 的方法框架

该方法提出了一种主动防御策略。上图 12 的红色部分是模型发布者 Alice，蓝色部分是用户 Bob。可以看到，仅仅通过微调 LDM 的 VAE 解码器，即可在生成图像中高效嵌入特定的二进制签名，同时保证生成图像的质量。预训练好的水印提取器恢复图像中隐藏的水印，通过一个统计测试可以用于检测和溯源，根据实际假阳率的要求来控制检测的阈值。

检测场景：假设给某位用户 Bob 的模型签名是一个位的二进制序列，如果 Alice 利用水印提取器解码的签名和原来的有位以上匹配，则认为这张图片是 Alice 模型生成的。这里给出两个假设，备择假设说图片是 Alice 模型生成的，原假设说不是。如果不是 Alice 模型生成的，可以认为其解码的签名每一位都是独立同分布的 Bernoul1i 随机变量，这样匹配位数服从二项分布。可以推导出假阳率 FPR 的计算公式为，在条件下匹配位数大于阈值的概率，也就是二项分布的累积分布函数。FPR 可以使用不完全 beta 函数写出闭式解。
溯源场景：假设位用户 Bob 的模型有不同的嵌入签名，需要进行次检测的假设检验，如果全部拒绝，那么图片不是由他们任何人生成的，否则把图片归属为匹配位数最多的用户。次测试的假阳性更多，所以全局 FPR 更高，在真实场景一般是给定要求的 FPR ，反过来确定阈值。

Stable Signature 的训练分为两个阶段。

第一阶段是预训练一个水印提取网络。首先使用经典水印算法 HiDDeN 模型编码一张图片和位二进制消息，经过常规的图像变换，然后解码出消息。由于在后续嵌入水印的微调过程中不需要水印编码器，在这个阶段只需要优化消息重构损失，不需要优化原有的感知损失和对抗网络。此外，由于一般图像的解码消息比特间相互关联且高度有偏，违背了前面的独立同分布假设，还需要通过一个 PCA 白化变换来去偏和去相关。
第二阶段是对给定的签名 ，微调 LDM 的 VAE 解码器。在这个阶段，水印提取器是冻结的，并且同上个阶段一样优化消息重构损失。为了保持图像的生成质量，在这个阶段还需要使用一个 Watson-VGG 感知损失来控制解码器与原解码器输出图像的失真程度，该方法使用平衡系数来平衡两部分损失。这一阶段的微调过程非常高效，训练小于 500 张图片只需要单卡 1 分钟的时间。该方法在 LDM 等多种生成模型上和 DwtDct, SSL Watermark, HiDDeN 等多种基线水印方法进行了比较，结果表明该方法的鲁棒性和不可见性与基线方法是可比的。

上述方法水印模型生成的图像 PSNR 约为 30 dB，SSIM 约为 0.9，接近于原始生成模型生成图像的结果，这表明该方法给原始模型添加水印对后对生成图像的质量影响较小。同时该方法生成的水印图像在 JPEG 压缩、裁剪、添加噪声等变换后，水印提取的比特精度总是高于 0.9 (除图像修复任务外)，这表明了该方法具有较好的鲁棒性。

总结与展望

随着 AIGC 时代的发展，数字媒体安全领域对于可证安全的需求日益突出。未来的发展趋势之一是在可证安全隐写技术的基础上研究和设计可证性能无损水印技术，即在保持图像质量不受影响的情况下，实现水印的可靠提取和验证，为数字内容的真实性和完整性提供更强的保障。考虑到水印技术的不断进步，嵌入方式逐渐朝向更为隐蔽和智能化的方向发展。将水印信息巧妙隐藏在生成图像的风格特征中，而非传统的直接修改图像像素的风格水印，也可能成为未来发展的趋势之一。

此外，传统数字水印和深度学习水印技术结合的多重水印技术可能能够克服传统水印算法在面对复杂攻击时的局限性。融合传统水印的泛化性和深度水印的针对性，可以满足不同应用场景下的需求。这种技术的发展可能是数字媒体安全领域未来的一个重要方向，为数字内容的保护提供更为可靠和多元化的解决方案。

参考文献

[1] 冯柳平编著.数字版权保护技术及其应用[M].北京：电子工业,2013

[2] Z. Ma, W. Zhang, H. Fang, X. Dong, L. Geng and N. Yu, "Local Geometric Distortions Resilient Watermarking Scheme Based on Symmetry," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 31, no. 12, pp. 4826-4839, Dec. 2021, doi: 10.1109/TCSVT.2021.3055255.

[3] Zhu J, Kaplan R, Johnson J, et al. Hidden: Hiding data with deep networks[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 657-672.

[4] Han Fang, Yupeng Qiu, Kejiang Chen, Jiyi Zhang, Weiming Zhang, and Ee-Chien Chang. 2023. Flow-based robust watermarking with invertible noise layer for black-box distortions. In Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence and Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence (AAAI'23/IAAI'23/EAAI'23), Vol. 37. AAAI Press, Article 564, 5054–5061. https://doi.org/10.1609/aaai.v37i4.25633

[5] Ma R, Guo M, Hou Y, et al. Towards Blind Watermarking: Combining Invertible and Non-invertible Mechanisms[C]//Proceedings of the 30th ACM International Conference on Multimedia. 2022: 1532-1542.

[6] Jia Z, Fang H, Zhang W. Mbrs: Enhancing robustness of dnn-based watermarking by mini-batch of real and simulated jpeg compression[C]//Proceedings of the 29th ACM international conference on multimedia. 2021: 41-49.

[7] Wen Y, Kirchenbauer J, Geiping J, et al. Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust[J]. arXiv preprint arXiv:2305.20030, 2023.

[8] Fernandez P, Couairon G, Jégou H, et al. The stable signature: Rooting watermarks in latent diffusion models[J]. arXiv preprint arXiv:2303.15435, 2023.

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行，特邀近 50 位技术领袖和行业应用专家，与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org 或扫描下方海报中的二维码，进一步了解详情。