欢迎访问www.4008.con网站!
0551-65909059   www.4008.conOA
联系电话:
当前位置:www.4008.con>>资讯中心>>行业动态 >>数据安全专栏 | 大语言模型中的个人信息保护
今天是: 2024年09月12日   【农历:八月初十 】  星期四
数据安全专栏 | 大语言模型中的个人信息保护
2022年11月30日,OpenAI发布了ChatGPT,大语言模型的迅速发展引起了全球学术界和工业界的广泛关注和热烈讨论。在国内大语言模型也是百家争鸣,继百度文心一言发布之后,目前已经推出公测接口的有阿里的通义千问,讯飞的星火大模型,ChatGLM,复旦的 Moss等。大语言模型在提高人机交互的效率和质量,为各个领域提供智能化的服务和解决方案的同时,也带来了一些科技伦理与安全问题方面的挑战。

一、什么是大语言模型
大语言模型(Large Language Model,简称LLM)是指能够利用海量文本数据,通过无监督、半监督或自监督的方式,学习并掌握通用的语言常识和能力的深度神经网络模型。这些模型通常基于GOOGLE提出的Transformer模型架构,通过预测被掩盖的单词、上下文判断、跨语言对齐、多模态对齐等任务,来捕捉文本中的语法、语义和逻辑信息。LLM可以根据不同的领域和任务进行微调或迁移,从而在少样本甚至零样本的情况下完成文本分类、命名实体识别、阅读理解、文本生成等多种自然语言处理(NLP)任务。
LLM的优势在于它们可以利用大量的文本数据来捕捉语言的复杂性和多样性,从而提高模型的泛化能力和表达能力。随着计算资源和数据规模的增加,LLM的参数量和性能也不断提升,目前已经发展到了数万亿甚至数百万亿的规模,例如GLM-130B、BloombergGPT、LLaMA等。这些超大规模的LLM被认为是通向人工通用智能(AGI)的重要途径之一,也是人工智能领域的前沿研究方向。
二、大语言模型中存在哪些个人信息保护问题
随着大语言模型的爆火,其存在巨大的潜力和应用价值,大家也逐渐认识到在带来便利性的同时,也带来了不可忽视的安全隐患,尤其针对个人信息保护方面的挑战和风险。
■数据来源问题:
LLM通常使用来自互联网的公开文本数据作为预训练数据,这些数据可能包含一些用户的个人信息,如姓名、年龄、性别、职业、兴趣爱好、社交关系等。这些信息可能被LLM无意中学习和记忆,并在后续的应用中泄露出来。
■数据处理问题:
LLM在预训练和微调过程中需要对数据进行收集、存储、分析和处理,这些操作可能会侵犯用户的个人信息权利,如知情权、选择权、删除权等。用户可能没有充分的意识和能力来保护自己的个人信息,也没有足够的透明度和监督机制来确保数据处理方遵守相关的法律法规和伦理规范。
■数据安全问题:
LLM由于参数量巨大,需要借助分布式计算和云服务等技术来进行训练和部署,这就增加了数据被窃取、篡改、滥用或泄露的风险。LLM的模型参数本身也可能包含一些敏感信息,如果被恶意攻击者获取,可能会导致用户的个人信息被还原或推断出来。
■偏见诱导问题:
LLM在应用场景中可能会对用户的个人信息进行分析、预测或推荐,这些操作可能会影响用户的个人自由、尊严和权益,带来歧视、偏见、诱导等问题,甚至被用于产生违反社会主义核心价值观的有害信息,对社会造成危害。用户可能没有足够的常识和能力来判断LLM的输出结果的可靠性和合理性,也没有有效的途径和机制来纠正或申诉LLM的错误或不公正的决策。
三、 大语言模型中个人信息保护措施
■数据来源方面:
提供者对训练数据来源负责,应符合法规要求、不侵犯常识产权、保护个人信息、数据真实准确、满足监管要求。人工标注时应制定清晰可操作的规则,培训标注人员并核验标注内容。根据监管要求,提供必要信息,包括数据来源、规模、质量,标注规则及数据、算法和技术体系等。
■数据处理方面:
提供者承担生成内容生产者责任和个人信息处理者法定责任,建立投诉接收机制及时处置用户请求,发现侵害他人权益等问题时应采取措施停止生成。
■数据安全方面:
提供者应敬重他人合法利益、保护肖像权、名誉权、个人隐私,禁止侵犯常识产权和非法获取、利用个人信息等。向公众提供服务前需要进行安全评估和算法备案。提供者应保护用户信息,不得留存推断出用户身份的信息,不得进行用户画像,也不得提供用户输入信息给他人。
■偏见诱导方面:
提供者应遵守法律法规要求,不提供违反核心价值观等内容,不歧视用户,防止产生虚假信息。提供者应公开服务的适用人群、场合、用途,避免用户过度依赖或沉迷,引导用户科学使用、避免损害他人合法权益。提供者若发现不符合要求或违反社会公德等行为应及时做出相应,同时允许用户向网信部门举报。
四、总结
LLM的安全问题需要引起人们的高度重视,其作为一种不断发展的新技术,对人类社会的影响也是逐渐显现的,大家需要将发展带来的风险在发展中解决,需要政府、企业、研究者和社会各方共同参与,制定合理的法规、标准和伦理准则,建立有效的监督和问责机制,提高用户的知情和选择权,从而使LLM的利用更加安全可靠。
参考文献:
1.《生成式人工智能服务管理办法(征求意见稿)》
http://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm
2.深度分析 | 大语言模型中的个人信息保护问题探讨
https://mp.weixin.qq.com/s/xneEB0EP6yqYvxRqC2AinA


XML 地图 | Sitemap 地图