OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”-焦点速递

2023-07-01 05:46:43 来源 : 21世纪经济报道

南方财经全媒体记者冯恋阁记者王俊北京、广州报道

“尽管制定了购买和使用个人信息的协议，但被告采取了不同的方法：窃取。”近日，一批匿名人士以此为理由，向OpenAI，以及其投资方之一的微软公司发起集体诉讼。

(资料图片)

起诉书称，OpenAI从互联网上窃取了3000亿个单词，它们来自“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。

目前这些指控仍是一面之词。不过，这已经不是这家公司第一次陷入数据安全、个人信息泄露相关的指控了。

“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息，以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。可能是该起诉讼的争议焦点所在。”北京大成律师事务所高级合伙人邓志松表示。

以大模型原理构建的生成式人工智能产品，是算力与数据加持下的“暴力美学”，数据是门槛，语料库海量数据（603138）存在高度的数据合规风险。拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲，但以数据为基石的大模型，数据安全问题正变得越来越重要，甚至可能成为产品的“阿克琉斯之踵”。

AI新秀变“数据小偷”？

根据ChatGPT的开发者OpenAI提供的信息，ChatGPT的三个主要信息来源是互联网上的公开信息、从第三方处通过许可获取的信息以及用户或模型训练者提供的信息（如用户与ChatGPT的聊天记录）。

这份将近160页的起诉书声称，OpenAI 秘密从互联网上窃取了 3000 亿个单词，窃听了“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。

具体而言，该集体诉讼的原告认为，为了赢得“人工智能军备竞赛”，OpenAI从ChatGPT的交互对话以及集成ChatGPT的应用程序中“收集、存储、跟踪、共享和披露”数百万人的个人信息，包括产品详细信息、帐户信息、姓名、联系方式、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、使用数据、分析、cookie、搜索和其他在线活动。

原告认为，此举违反了服务协议条款以及州和联邦的隐私和财产法。起诉书指出，这一数据窃取行为的受害人预计有数百万，潜在损失达 30 亿美元。原告诉求则是，要求法院暂时冻结 OpenAI 产品的商业访问和进一步开发。

邓志松告诉记者，ChatGPT运行的原理通过“阅读”大量现有文本并学习词语在上下文中的出现方式来预测可能出现在回应中的最可能的词语。此前，OpenAI方面声称不会“主动”收集个人信息用于模型训练，但各渠道训练数据可能“偶然”包含个人信息，人工智能模型可能会从中了解如何在回应用户时正确使用人名、地址等信息，同时它们坚称这些信息不会被用于建立用户画像、广告推广等商业用途。

“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息，以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。这两个问题可能是该起诉讼的争议焦点所在。”邓志松分析，未经用户许可擅自抓取并利用其个人信息，可能涉嫌违反所在司法辖区的个人信息保护法律法规，并构成民事侵权。

不过，受访专家也指出，目前“窃取”暂时仍是原告方的一面之词，还不能据此贸然将OpenAI所实施的个人信息收集活动定性为违法行为。

如何理解数据“窃取”

综合来看，合规、知情-同意成为这起诉讼的风暴眼。

“第一是信息的来源，尤其是训练用的物料是否能说得清、是否合规；第二，在与用户交互的过程中是否涉及到了用户的隐私信息。”数安信CTO崔维友也指出，“窃取”很可能是在用户没有充分知情的情况下拿到了用户的个人数据。

“尽管 OpenIAI对其数据收集和做法 ‘绝对保密’，但就我们了解，该公司使用（至少）5个不同的数据集来训练ChatGPT。”根据起诉书陈述，OpenAI使用的数据集中有部分数据的抓取并不合规。

以WebTex2这一OpenAI "专有 "人工智能语料库为例。原告指出，为了构建这一语料库，OpenAI抓取了社交媒体网站Reddit上所有获得至少3个 "喜欢"（在Reddit上被称为 "Karma "投票）的帖子所链接的所有网页，以及Reddit帖子和相关评论。而Reddit中受欢迎的内容除了来自其网站本身，还包括大量来自YouTube、Facebook、TikTok和Instagram等社交媒体的链接。这些链接及与之关联的个人信息在没有通知相关方获得同意的情况下被大量抓取。

值得注意的是，公开资料显示，今年4月，Reddit官方宣布将对调用其API的公司收费，原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。

袁立志指出，当前人工智能大模型训练数据主要有应用存量数据、商业和开放数据、公共互联网数据和用户使用数据等几大来源，而不同的数据源的使用则各有不同优劣。“要做到完全合规，并不容易。”他直言。

数据安全——大模型产品的“必答题”

人工智能发展的突破得益于高质量数据的发展。大模型的最新进展依赖于更高质量、更丰富的训练数据集。如何判断数据收集行为以及留存的数据内容是否合规，已成为当前相关技术发展亟待解决的问题，更是大模型产品未来健康发展的关键。

“虽然ChatGPT表示，存储训练和运行模型所需的数据会严格遵守隐私和安全政策，但在未来可能出现网络攻击和数据爬取等现象，仍存在不可忽视的数据安全隐患。特别是涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程，需平衡数据安全保护与流动共享。”南开大学法学院副院长、中国新一代人工智能发展战略研究院特约研究员陈兵说。

大成律师事务所高级合伙人肖飒则强调了AI技术“文本数据挖掘功能”潜藏的合规风险。她表示，该功能不仅可以“主动”搜集和存储数据，并且能在不断的数据处理过程中形成自己的处理模式。若其所搜集的数据(含个人信息)并未取得合法授权，相关的处理活动就可能涉嫌违法违规。

这已经不是ChatGPT第一次陷入数据泄露的风波。今年3月，其Redis 开源库中的错误导致本 ChatGPT 服务中暴露了其他用户的个人信息和聊天标题。在ChatGPT被接连发现意外泄露用户聊天记录后，意大利数据保护局（Garante per la Protezione dei Dati Personali）于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。

但这并不是OpenAI这家公司、ChatGPT这个产品的个例，其暴露出的隐私泄露、存储敏感信息、未授权访问等数据安全问题是大模型产品落地应用后可能普遍面临的问题。

CCIA数据安全工作委员会指出，大模型使用来自互联网的公开文本数据作为预训练数据，这些数据可能包含一些用户的个人信息，这些信息可能被LLM无意中学习和记忆，并在后续的应用中泄露出来。预训练和微调过程中需要对数据进行收集、存储、分析和处理，这些操作可能会侵犯用户的个人信息权利，如知情权、选择权、删除权等。用户可能没有充分的意识和能力来保护自己的个人信息，也没有足够的透明度和监督机制来确保数据处理方遵守相关的法律法规和伦理规范。

并且，由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，这就增加了数据被窃取、篡改、滥用或泄露的风险。

自ChatGPT发布后，中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型，在接下来商用过程中如何做到数据合规，已经成为每一个产品需要面对的“必答题”。

在袁立志看来，未来，针对不同的数据来源，企业应采取不同手段保证训练数据合规。原有业务的存量数据，如果用以大模型训练，属于变更使用，需要再次得到用户同意；如果爬取互联网公开数据，则需做好数据清理、匿名化等处理，同时注意爬虫技术本身的法律风险；如果购买商用数据或者使用开源数据，则需要企业内做好相关合规审查，保障安全。至于用户使用过程中产生的数据，如与大模型对话的聊天记录，C端数据在事前告知用户获得同意后使用；接入API使用的B端数据，由于与企业高度相关，模型默认不会收集和使用。

“合规确实是后发的大模型训练者需要面对的棘手问题。”袁立志坦言，从业者只能参照自身现实情况，选择尽可能安全透明、成本可控的方法。

AI的浪潮不会停歇，如何掌好前行的船舵，在企业生存与合规生产间找到平衡向前，或许已经成为第四次工业革命下的时代命题。

标签：

美墨两国多地遭遇极端高温天气气候变化是“推手”|环球新视野
2023-07-01
莱斯信息（688631）2023年一季报财务简析：营收净利润双双增长，债务压力大_环球快消息
2023-07-01
热推荐：ASML 和 IMEC 宣布共同开发 high-NA EUV 光刻试验线
2023-07-01
美丽经济，从“头”做起（小商品大产业④）|天天新要闻
2023-07-01
环球热资讯！产业融合富农强村
2023-07-01
阅示和批示的区别举例_阅示和批示的区别_报资讯
2023-07-01
OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”-焦点速递
2023-07-01
华如科技（301302）：6月29日北向资金增持1.44万股
2023-07-01
悬赏5万！河北一地发生刑案致两死一伤，嫌疑人在逃环球热头条
2023-07-01
誉辰智能今日新股申购|环球看点
2023-07-01
科轩动力控股(00476)公布年度业绩，股东应占亏损8116万港元同比减少80%
2023-07-01
泰拉瑞亚药水怎么做（泰拉瑞亚药水灌输器有什么用）|环球热议
2023-07-01
阴阳师逢魔高分阵容2023（阴阳师百鬼奕阵容最新）
2023-07-01
北京电脑技术培训学校_北京计算机教育培训中心简讯
2023-07-01
焦点快播：我们生活中有多少航天科技？一起猜猜看→
2023-07-01
炸弹之城_关于炸弹之城介绍_环球热议
2023-07-01
河北鸡泽一小区发生刑事案件致2死1伤，嫌疑人已落网
2023-07-01
观点：793元/人月沈阳城乡低保标准7月再提标
2023-07-01
心神不宁是怎么回事中医_心神不宁是怎么回事_观天下
2023-07-01
国际劳工组织2022年全球青年失业率_国际劳工组织
2023-07-01
世界快资讯：凤组词语?
2023-07-01
今年超七成一般公共预算支出用于民生
2023-07-01
快手电商召开生鲜行业大闸蟹招商会 “产地溯源计划”助力商家发展世界即时看
2023-07-01
点亮青岛，需要你的助力！一起参与“垃圾分类齐点亮”，赢取丰厚奖品吧！焦点热议
2023-07-01
【环球报资讯】服畴_对于服畴简单介绍
2023-07-01
搜妙创真：松石斋藏陆俨少书画精品集_环球热闻
2023-07-01
qq网名情侣超拽霸气_qq网名情侣超拽霸气有哪些
2023-07-01
怎样取消快捷支付功能_如何取消快捷支付功能_环球新资讯
2023-07-01
荣誉10X在5月20日发布之前就曝光了
2023-07-01
将电影院带回家中！618惠威带你震撼一“夏”
2023-07-01
拜登兜售经济政策拼连任，美媒：完全是为应对特朗普的混乱理论当前热讯
2023-07-01
熤字的五行属什么_熤|播资讯
2023-07-01
《消失的她》导演刘翔：影片不是讲两性对立，而是传递正义与友情
2023-07-01
强化政治监督优化营商环境-世界快资讯
2023-07-01
李豫贵为省人大民宗委、社建委党支部全体党员讲党课
2023-07-01
投资周期三年到六年，目前价位（估值）买入兴业银行招商银行，取得优秀投资收益率的几种可能场景世界实时
2023-07-01
环球热议:打击医托、查处乱收费…五部门重拳出击联合整顿
2023-07-01
欧洲主要股指收盘涨跌不一
2023-07-01
激智科技（300566）：6月29日北向资金增持53.77万股
2023-07-01
华为宣布2024年推出面向商用的5.5G全套网络设备_环球速看料
2023-07-01
天天消息！美电影艺术与科学学院再“扩招”，张震古天乐获邀成为奥斯卡评委
2023-07-01
内蒙一机（600967）：6月29日北向资金增持30.5万股视点
2023-07-01
华夏旗下12只基金参与浙商银行配股认购-天天讯息
2023-07-01
不为沙钞所动？隆戈：沙特球队报价镰田大地，但球员还在等米兰天天热点评
2023-07-01
今日热门!6月29日基金净值：博时宏观回报债券A/B最新净值1.4095，涨0.13%
2023-07-01
2699元怎么样？七彩虹iGameRTX4060UltraWOC显卡评测：130W强劲释放
2023-07-01
23年华润金融招聘就业见习岗位一览
2023-07-01
乒坛大爆冷！日本女双全军覆没，8强诞生，国乒完胜，朱芊曦出局
2023-07-01
经历了马德里首轮的考验，德约科维奇的归来之路再进了一步_当前热议
2023-07-01
把好事实事做到群众心坎上（今日谈）
2023-07-01