llm-attacks-main

大语言模型GCG对抗攻击,支持攻击vicuna-7b-v1.5、vicuna-13b-v1.5、Llama-2-7b-chat-hf、Qwen-7B-Chat模型,内附新增模型适配指导

最近更新: 5个月前

AI-Code-Dependence

归档AI各类算法在开源基础上修改的自己线下实验代码。

最近更新: 1年前

Februus
Python

后门检测及净化算法Februus,人脸识别系统集成的Februus基于该仓库进行开发。

最近更新: 1年前

STRIP
Python

后门检测算法STRIP,人脸识别系统集成的STRIP算法基于此仓库进行开发。

最近更新: 1年前

BackdoorBench
Python

后门攻击和防御方法

最近更新: 1年前

ScalableBDL
Python

对抗样本检测方法LiBRe的源代码,LiBRe是一种轻量级贝叶斯对抗检测方法,通过将预训练DNN的最后几层转换为贝叶斯子模块(FADE变分),并利用预训练参数初始化进行微调,实现对多种对抗攻击的检测。该方法结合不确定性校正策略,无需对抗样本训练,在保持模型性能的同时高效检测对抗样本。

最近更新: 1年前

SPAD-adversarial-detection
Python

对抗样本检测方法SPAD的源代码

最近更新: 1年前

CURE_robustness

基于曲率优化提升模型鲁棒性

最近更新: 1年前

spectre-defense
Python

基于稳健统计估计的后门样本检测方法

最近更新: 1年前

ImageNet-Adversarial-Training

采用特征去噪方法实现对抗防御,源码在ImageNet上基于分类思想实现,需要结合对抗训练(PGD)。

最近更新: 1年前

STN-Code

加性高斯白噪声模型训练,用于对抗防御

最近更新: 1年前

TRADES-smoothing
Python

TRADES+smoothing对抗训练代码

最近更新: 1年前

TRADES
Python

TRADES对抗训练

最近更新: 1年前

SIBA

后门攻击SIBA的源代码

最近更新: 1年多前

BadNets
Python

BadNets以可见的小图案作为触发器,通过数据投毒的方式,证明外包训练存在安全风险。即使后门模型经过迁移学习进行重新训练,后门的影响依然存在。

最近更新: 1年多前

project_39464865
Python

内容可能含有违规信息

最近更新: 1年多前

StegaStamp
Python

图形隐写网络,使用tensorflow开发

最近更新: 1年多前

ISSBA
Python

后门攻击ISSBA攻击代码

最近更新: 1年多前

BppAttack
Python

为图像量化攻击代码,FR系统中的量化攻击基于此进行开发

最近更新: 1年多前

Warping-based_Backdoor_Attack-release
Python

为弹性形变后门攻击算法,FR系统中的形变攻击基于此进行开发

最近更新: 1年多前

搜索帮助