大模型投毒攻击

大模型投毒攻击

什么是大模型投毒实验?

大模型投毒实验可以分为以下几种类型:

  • 数据投毒(Data Poisoning)
  • 模型中毒(Model Poisoning)
  • 后门攻击(Backdoor Attacks)
  • 1. 数据投毒(Data Poisoning)

数据投毒是指在模型训练过程中引入恶意或有偏的数据,导致模型学到错误或有害的模式。这种攻击可以通过以下几种方式实现:

引入错误标签:在分类任务中,攻击者可以将训练数据的标签错误地分配给不同的类别。这样,模型在训练过程中会学习到错误的分类规则。例如,在一个猫狗分类任务中,将猫的图片标签为狗。

1757815955215-176e34ef-49f5-47a3-a386-48990125a4aa.png

1757815980097-e71baf16-e4b0-45a3-802b-5705c1e2a009.png

1757816021312-6b621731-8f55-4472-a1d3-a4f9c353e1f3.png

1757816036312-4e2c4fe1-98f8-473d-9a80-e8a476fcee54.png

实际示例:推荐系统的投毒攻击

假设我们有一个电子商务平台的推荐系统,该系统使用机器学习模型来推荐用户可能感兴趣的产品。攻击者希望通过投毒攻击来提升某一特定产品的推荐概率。

攻击步骤:

数据投毒:攻击者购买大量该特定产品,并通过伪造的用户账户给该产品打高分,同时在评论中加入正面评价。这些数据被系统收集并用于训练推荐模型。

模型训练:由于训练数据集中包含了大量的伪造高分和正面评价,推荐系统在训练过程中会学到这个特定产品是用户喜欢的,从而提升其推荐概率。

验证效果:在系统上线后,攻击者的产品会频繁出现在用户的推荐列表中,达到了提升产品曝光率和销售的目的。

更新: 2025-09-14 10:15:04
原文: https://www.yuque.com/chaye-apqbl/vsc85q/gtcan1iu1a8ntefe


大模型投毒攻击
http://example.com/2025/01/19/大模型攻防/大模型投毒攻击/
Author
chaye
Posted on
January 19, 2025
Licensed under