2024年生成式大模型安全评估白皮书中国科学院2024

manyouzhe

1年前发布

3.82MB118页06812

第1页 / 共118页

第2页 / 共118页

第3页 / 共118页

第4页 / 共118页

第5页 / 共118页

该文档为免费文档，您可直接下载完整版进行阅读

文章版权归作者所有，未经允许请勿转载。

THE END

智慧城市

文本预览

目录一、生咸式大模型发展现状012)传量度信息293.3重实性评估62416大模型系统安全浮估实周3)违风法律法规3033山事实性评档帽标11生成式大语言倾型262(4)缺乏安全预管机制3(1)于规可的牌信帽标4.2文生图大便型安全性评估98L山Cp3n4GT系列222障私风险4_2.1 Holistic Bvaluationof98(2)蓝于机器学习模型的浮格帽标L2体3山Mh系列06好Text-to-lim3etod水ks们】便见用户德私信息(3)蓝于山的评档指标6L3国产生成式大语言视型102)慰需企业机密数每135(4)人典评档指桐674_2_2Unsale Diffusion100(1)口大学：M0s223知识产权民险332事实性评估做据集4.2.3 Harm Am pluficadion in101(20度：“文心一言了11们)到聊积存在询识产权风验Tee《o-mage Mod水kk(3)帽请清言：@就G时123.4意私性评信712)应用聊积存在即说产权风烟(4)阿里云：通文干河374.3多模态大便型安全性评估102834山障私慰需71仔)生成试大模型▣识产权保护(1)较感查有714_3_1 T2VSaletyBench102()川解输：百大模豆1323技术安全风脸3约724.3_2MLLMGUARD103(6)和大球飞：讯飞星火认知大模型13(2)上下文抛属(刀作为：售吉大模豆1423山城样本皮击风险30(3)个人编好世写72五、大模型安全评估的展望105(8)满讯：属元大模豆2.32门攻击风验403.42隐私皮击731055山向安全的大模型向建演建()月之葡面：Mo0a大模型15233N0mp建入皮击风验41(1)成员推断皮击105(0)M:88大模型15234数据授毒风经42(2)模型医演/做据重建玻击7652大模型评档的衍生安全风，题235球皮击险076参考文献107(3)属性推断皮击1.2文生图大梗型16(4)模望规取物玻击L21DL1E系列16三、生成式大模型的安全评估方法44格122Midoumney183.5鲁棒性评估31生成式大便型安全性评估琳度4578L23文心情31山伦理性453.5】对其唐棒性评信感看L3多樱疮大模型191)编见(1)期样本皮击131Suno202)毒性47(20后门政击013250s20312事实性48(3)omp遭入度击1330P213L3隐私性(4)数据授毒83491L3.4素东太初21314鲁狮性503.52分布外(000】鲁棒性评信糖湘83二、生成式大模型的安全风险23353大模型划破击风险评档32伦理性评估53(1)球或击分澳521伦理风险23321编见评信53[2)E3随破击框深8621山加则性期，种核编见与视2们】编见评倍帽标53212传相意识形态，危害国家安全1)于嵌入的偏见评估帽标54四、大模型安全评估实践案例分析87213学术与数育枪理风险22)基于每率的编见评楼帽标554.1大语言模型安全性评估872L4响杜会就业与人黄价帽3)蓝于大语言模型的编见评档指标564.L1 Holisic Evaluation of Langua ge Models87必2)编见评估数据用4L2 Trustworthy LL地22内客安全风脸322毒性浮档574.13 DecodingTrust9222可售与思意使用风，发28们)毒性评修核型4.14 SuperCLUE-Safety(1)机镜思软件2860415支小空安全实周942)毒性浮体数据，》

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容