大模型投毒攻击
大模型投毒攻击
什么是大模型投毒实验?
大模型投毒实验可以分为以下几种类型:
- 数据投毒(Data Poisoning)
- 模型中毒(Model Poisoning)
- 后门攻击(Backdoor Attacks)
- 1. 数据投毒(Data Poisoning)
数据投毒是指在模型训练过程中引入恶意或有偏的数据,导致模型学到错误或有害的模式。这种攻击可以通过以下几种方式实现:
引入错误标签:在分类任务中,攻击者可以将训练数据的标签错误地分配给不同的类别。这样,模型在训练过程中会学习到错误的分类规则。例如,在一个猫狗分类任务中,将猫的图片标签为狗。




实际示例:推荐系统的投毒攻击
假设我们有一个电子商务平台的推荐系统,该系统使用机器学习模型来推荐用户可能感兴趣的产品。攻击者希望通过投毒攻击来提升某一特定产品的推荐概率。
攻击步骤:
数据投毒:攻击者购买大量该特定产品,并通过伪造的用户账户给该产品打高分,同时在评论中加入正面评价。这些数据被系统收集并用于训练推荐模型。
模型训练:由于训练数据集中包含了大量的伪造高分和正面评价,推荐系统在训练过程中会学到这个特定产品是用户喜欢的,从而提升其推荐概率。
验证效果:在系统上线后,攻击者的产品会频繁出现在用户的推荐列表中,达到了提升产品曝光率和销售的目的。
更新: 2025-09-14 10:15:04
原文: https://www.yuque.com/chaye-apqbl/vsc85q/gtcan1iu1a8ntefe
大模型投毒攻击
http://example.com/2025/01/19/大模型攻防/大模型投毒攻击/