用国际大模型数据会流向海外？首部生成式人工智能立法明确了

AI先锋官 2023-07-21 15:16 抢发第一评

来源｜特约发布

由GPT引发的“千模大战”逐渐进入了“数据决胜局”。

“高质量数据”以及“数据量”成为大模型迅速建立壁垒、角逐未来的关键。据中信智库专家委员会主任、中信建投证券研究所所长武超测算，“未来一个模型的好坏，20%由算法决定，80%由数据质量决定。接下来高质量的数据将是提升模型性能的关键。”

然而事实数据正在变得稀缺。ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。

一篇联合研究《Will we run out of data？》给出了一个期限：由人类原生的数据，未来可能会越来越稀缺，而高质量的自然语言数据，最快可能在2026年就会被大语言模型耗尽。

如何保障源源不断的数据来供给大模型训练？国际开源组织和商业巨头一面不断尝试，一面饱受龃龉，数据收集所带来的产权保护、数据隐私、网络安全等方面的质疑不绝于耳。

今年三月，不少Windows11用户反馈被“强制弹窗”，提示“你的数据将在你所在的国家或地区之外进行处理”，且没有“取消”这一选择，只能点击“下一步”这一个选项，否则就无法进入系统桌面。

此举引发了Windows操作系统用户对隐私数据泄露到国外的担心。对此，微软表示用户更新使用Windows11后，会将数据传出中国。因微软的软件注册中心在美国，ChatGPT整合到Bing搜索和Edge浏览器中后，也需要美国数据中心的支持，所以中国用户的数据可能传送到国外。

微软的好基友Open AI，在获益于前者的海量数据之余，也同样遭遇着质疑。6月底，OpenAI遭集体诉讼，被指窃取“大量个人数据”来训练ChatGPT。马斯克7月1日以此理由对推特的阅读条数实行了临时限制。

Alphabet警告员工不可盲目使用聊天机器人，包括其正在全球市场上大力推广的谷歌Bard。6月1日，谷歌更新了隐私声明，敬告用户“请不要在与Bard的对话中涉及机密或敏感信息。”

一方面疯狂All-in面向全球用户搭建数据飞轮，另一方面对自己的商业数据慎之又慎，这种“双标”使得全球大多数企业不得已采取“主动防御”。三星、亚马逊等全球多家企业已经开始为AI聊天机器人设置护栏。而微软和谷歌适时推出了面向商业客户的对话工具，保证不会将数据吸纳至公共AI模型内，只不过客户需要为此支付高昂费用。

关于AIGC使用及获取数据的方式可能引发的风险，各国监管机构纷纷出手干预。

意大利数据监管机构Garante于2023年3月31日宣布全面禁用ChatGPT，并禁止OpenAI处理意大利用户数据，在OpenAI承诺做出相应改进后，ChatGPT恢复了在意大利的服务。

随后，德国、法国、爱尔兰也陆续采取应对措施，西班牙要求欧盟数据保护委员会（EDPB）评估ChatGPT的隐私保护问题，韩国个人信息保护委员会也表示对ChatGPT韩国用户数据泄露情况展开调查。

我国也早早行动。7月13日，国家网信办联合多部委发布《生成式人工智能服务管理暂行办法》（简称“《暂行办法》”）。这是我国首部针对生成式人工智能领域的专门立法。

该《暂行办法》首次明确原则，“对来源于中华人民共和国境外向境内提供生成式人工智能服务不符合法律、行政法规和本办法规定的，国家网信部门应当通知有关机构采取技术措施和其他必要措施予以处置。”

此外，它还明确了本办法适用的范围：适用于面向中国境内公众提供生成文本、图片、音频、视频等内容的服务，并明确将不向境内公众提供服务的研发、应用活动排除在适用范围之外。

这意味着境外AIGC服务提供者（无论是模型层还是应用层），无论是直接向境内提供相关服务，还是通过API接口或“封装”、“嵌套”后提供间接服务，都将受限于《暂行办法》的相关规定。对于国内厂商，则是无论是否获得境外AIGC服务提供商的适当授权，都将适用于《暂行办法》。

数据无国界，数据安全有国界。《暂行办法》的出台，为国内大模型科技公司和从事大模型相关的创业者划定了边界，并为接下来颁布的《人工智能法》提供经验参考。对此，学界和企业普遍认为，该《暂行办法》出台及时，且为中国人工智能发展树立了信心。

除了立法层面，产业也通过自己的努力寻求突破。近半年推出大模型的科技公司纷纷表达了对《暂行办法》中提到的安全、可信等内容的重视。

百度表示，只有建立健全保障人工智能健康发展的法律法规、制度体系、伦理道德，才能营造良好的创新生态。360提出，要打造“安全可信、可控易用”的专有大模型。阿里云提出，“构建安全可信的人工智能”逐步成为行业共识。京东云表示，下一代数字基础设施，需满足融合开放、高效协同、极致性价比、安全可控四大特征。

基于地域的产业布局也早已开始探索。

前不久北京对外发布了“数据二十条”，就产业协同，打造数据可信流通体系给出了意见：支持北京经济技术开发区等开展数据基础制度先行先试，打造政策高地、可信空间和数据工场。