大模型投毒攻击

什么是大模型投毒实验？

大模型投毒实验可以分为以下几种类型：

数据投毒是指在模型训练过程中引入恶意或有偏的数据，导致模型学到错误或有害的模式。这种攻击可以通过以下几种方式实现：

引入错误标签：在分类任务中，攻击者可以将训练数据的标签错误地分配给不同的类别。这样，模型在训练过程中会学习到错误的分类规则。例如，在一个猫狗分类任务中，将猫的图片标签为狗。

假设我们有一个电子商务平台的推荐系统，该系统使用机器学习模型来推荐用户可能感兴趣的产品。攻击者希望通过投毒攻击来提升某一特定产品的推荐概率。

攻击步骤：

数据投毒：攻击者购买大量该特定产品，并通过伪造的用户账户给该产品打高分，同时在评论中加入正面评价。这些数据被系统收集并用于训练推荐模型。

模型训练：由于训练数据集中包含了大量的伪造高分和正面评价，推荐系统在训练过程中会学到这个特定产品是用户喜欢的，从而提升其推荐概率。

验证效果：在系统上线后，攻击者的产品会频繁出现在用户的推荐列表中，达到了提升产品曝光率和销售的目的。

更新: 2025-09-14 10:15:04
原文: https://www.yuque.com/chaye-apqbl/vsc85q/gtcan1iu1a8ntefe

#AI

大模型投毒攻击

http://example.com/2025/01/19/大模型攻防/大模型投毒攻击/

Author

chaye

Posted on

January 19, 2025

Licensed under