大语言模型GCG对抗攻击,支持攻击vicuna-7b-v1.5、vicuna-13b-v1.5、Llama-2-7b-chat-hf、Qwen-7B-Chat模型,内附新增模型适配指导
最近更新:
5个月前
归档AI各类算法在开源基础上修改的自己线下实验代码。
最近更新:
1年前
后门检测及净化算法Februus,人脸识别系统集成的Februus基于该仓库进行开发。
最近更新:
1年前
后门检测算法STRIP,人脸识别系统集成的STRIP算法基于此仓库进行开发。
最近更新:
1年前
对抗样本检测方法LiBRe的源代码,LiBRe是一种轻量级贝叶斯对抗检测方法,通过将预训练DNN的最后几层转换为贝叶斯子模块(FADE变分),并利用预训练参数初始化进行微调,实现对多种对抗攻击的检测。该方法结合不确定性校正策略,无需对抗样本训练,在保持模型性能的同时高效检测对抗样本。
最近更新:
1年前
对抗样本检测方法SPAD的源代码
最近更新:
1年前
基于稳健统计估计的后门样本检测方法
最近更新:
1年前
采用特征去噪方法实现对抗防御,源码在ImageNet上基于分类思想实现,需要结合对抗训练(PGD)。
最近更新:
1年前
加性高斯白噪声模型训练,用于对抗防御
最近更新:
1年前
TRADES+smoothing对抗训练代码
最近更新:
1年前
BadNets以可见的小图案作为触发器,通过数据投毒的方式,证明外包训练存在安全风险。即使后门模型经过迁移学习进行重新训练,后门的影响依然存在。
最近更新:
1年多前
图形隐写网络,使用tensorflow开发
最近更新:
1年多前
为图像量化攻击代码,FR系统中的量化攻击基于此进行开发
最近更新:
1年多前
为弹性形变后门攻击算法,FR系统中的形变攻击基于此进行开发
最近更新:
1年多前