指纹和水印的区别就是指纹是观察模型的行为特征,而水印主要是认为的设计一些陷阱,水印会故意改模型或者一定程度上的影响模型的输出,而指纹几乎不会,两者目前的界定是这样
直观上输出越长,被发现的概率越大
我们的论文默认是黑盒,不显示任何权重,只通过api暴露?
如果是的话就只通过输出检测,如果不是的话,需要暴露权重,但好像我们技术实现太爆炸了,如果是黑盒,温度,top-p max token要限制吗
关于水印部分 《Watermark under Fire_ A Robustness Evaluation of LLM Watermarking》 已经把分类说的很清楚了我们需要全盘借鉴,《Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique》的方法也要被加进去。关于指纹目前收集到的可以用《DuFFin_ A Dual-Level Fingerprinting Framework for LLMs IP Protection》的Trigger-Duffin 和Knowledge来做指纹检测
指纹检查可以用 hey that's my model 的hash嵌入
多个同源但不同版本的保留下来的指纹信息
Tfa 和 sva
评估指标 water bench 把所有的水印强度改成一个强度(比如recall都在同一区间)我们再进行比较ppl 或着用论文的gpt 4 judge
我们是如何训练呢?
lora? sft全参?
我建议选lora微调就行,应为核心是ownership signal在提取后还剩多少
如果有时间可以做sft全微调 :
RQ:更强的 extraction training 是否会更强地保留 watermark / fingerprint,还是反而会洗掉 ownership signal?
对比学习1,3,5,7种模型水印的保持程度
我们需要去找哪些数据集?或者query呢
某些query收集victim response, 有些检查水印在不在,模型能力
论文有提到一种方式不直接使用模型输出而是让自己模型输出两个对话然后使用语意相似度分为正负样本要不来试试?
要不要为水印/指纹的每个方法训练一个1b的二分类检查器(水印有看到人在做)
我们如何设计指标呢?
感觉变量特别多,还有问题是如何不是仅仅像做了一个工程的一个survey + empirical comparison? 感觉再读一段时间论文要收敛一下我们的研究主题,不然太像一堆研究论文的复线了,或者每个地方都有一点,都太浅