MEA-Defender: A Robust Watermark against Model Extraction Attack - 读后感

这篇论文主要讨论了图像模型和文本模型中模型水印或后门触发机制的有效性问题。论文的核心假设是:当我们试图在模型中预先嵌入某些“陷阱”时,这些陷阱未必会落在窃取者实际查询或蒸馏模型时所使用的输入分布范围内。也就是说,即使我们设定了某个特定输入,并让模型对其输出一个特定结果,窃取者在窃取模型信息的过程中,也可能根本不会访问到这类输入,因此无法触发我们预设的陷阱。

针对这一问题,论文提出了一种利用数据增强思想的解决方案。由于图像模型在训练过程中通常会使用图像增强方法,例如随机裁剪、亮度调整、颜色扰动等,论文进一步设计了一种将两张或多张图像按照特定方式组合、融合在一起的方法,并围绕这些融合样本进行训练。

具体来说,论文主要优化三个目标。第一,是保证模型在正常样本上的识别能力,例如模型仍然能够准确地区分牛和马。第二,是保证模型能够正确处理普通融合样本,例如当一张图像由一半牛和一半马组成时,模型依然能够根据融合内容给出合理识别结果。第三,是针对特定比例的融合样本设置触发陷阱,例如当图像中牛占 35%、马占 65% 时,将其训练为输出一个预设类别,比如“龙”。

通过同时训练这三个目标,模型既能保持正常任务上的识别能力,又能在特定融合比例下稳定触发预设陷阱,同时对于其他非触发比例的融合样本仍然保持正常识别能力。因此,这种方法能够提高陷阱被窃取模型继承或触发的概率,从而缓解传统后门或水印触发样本可能不在窃取者查询范围内的问题。

我感觉这个很有启发,也很有创意,但是呢,我目前没有一个好的想法,说把它给转移到文字模型上面,我目前主攻的方向是文字模型,所以说这是一个值得思考的问题。因为文字模型本质上说好像没有什么增强这种训练,没有文字增强这种方法,也没有随机剪切,亮度调整,对吧,这是一个我的一个弱点吧,可能我需要了解这方面,可能在文字训练模型上也有类似的东西。