2024世界人工智能大会聚焦大模型安全，发布国内首份《大模型安全实践》白皮书

要点速达👈

📢 2024世界人工智能大会发布《大模型安全实践》白皮书。
🚨 大模型在专业决策和安全性方面仍面临挑战。
💡 Transformer架构提升泛化能力，但智能涌现能力仍在“黑盒”中。
🛡️ 安全、可靠、可控是大模型应用的三大红线。
🔍 蚂蚁集团“蚁天鉴2.0”新增“测评智能体”功能。

数智朋克讯，经过一年多的快速发展，大模型的应用逐渐成熟，然而安全问题也随之突显。2024世界人工智能大会暨人工智能全球治理高级别会议发表的《人工智能全球治理上海宣言》强调，必须确保人工智能发展过程中的安全性、可靠性、可控性和公平性。

当前，大模型的安全评测主要集中在内容类场景，而对于智能体等高级应用的安全评估仍是空白区。昨日，《大模型安全实践（2024）》白皮书正式发布，这是国内首份大模型安全实践研究报告，提供了从安全性、可靠性和可控性等方面的技术框架。

尽管大模型在近两年取得了显著进步，特别是在智能涌现能力上有所提升，但在产业化过程中仍暴露出不少问题。大模型泛化能力强，但专业能力不足，并且长期存在幻觉问题。即便是OpenAI的最新模型GPT-Turbo，也难以避免事实性错误。蚂蚁集团大模型应用部总经理顾进杰指出，在要求严谨的行业中，大模型的幻觉问题和缺乏复杂推理能力尤为严重，特别是在金融和医疗领域，这些问题更加突出。

Transformer架构的应用使大模型的泛化能力大幅提升，但“智能涌现”的能力仍处于“黑盒”中，人类无法控制其生成的结果，从而造成专业能力的进步缓慢。OpenAI CEO Sam Altman也承认，GPT-4的专业性仅相当于专业人士的10%-15%。

白皮书总结了大模型发展面临的四大挑战：技术缺陷、个人隐私和公平性问题、企业数据安全风险以及社会层面的公共安全隐患。大模型生成的内容不可信、能力不可控及外部安全隐患等问题带来了诸多风险，包括生成“幻觉”影响内容可信度。个人层面，大模型挑战信息获取、公平正义和人格尊严等多个重要维度，同时加剧了“信息茧房”效应。企业层面，大模型面临用户隐私泄露、版权侵权及数据安全等多重风险。社会层面，大模型的广泛应用可能冲击就业市场、扩大数字鸿沟并危及公共安全。

中国信通院华东分院人工智能事业部主任常永波认为，大模型在应用过程中必须满足安全、可靠和可控这三大红线。安全性包括数据、应用、内容、伦理和认知等方面的安全；可靠性要求大模型在各种情境下持续提供准确、一致、真实的结果；可控性则关乎模型在提供结果和决策时能否让人类了解和干预。

国内头部厂商在大模型的安全和治理方面走在前列。蚂蚁集团推出的“蚁天鉴2.0”新增“测评智能体”功能，可以针对大模型的内在神经元进行“X光扫描”来探查和判断风险。这项技术能直观展示大模型内部的运作，定位并修正可能引发风险的神经元，从而在源头上识别和抑制风险。

2024世界人工智能大会聚焦大模型安全，发布国内首份《大模型安全实践》白皮书

数智资讯订阅