姚期智院士:AI欺骗引发“生存性”风险,建立大模型评估系统刻不容缓

zhq 2025-06-24 阅读:133 评论:0
“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”6月23日,在清华大学举办的“科学、技术与文明的未来——AI时代伦理奇点”国际论坛上,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智发表《人工智能的安全治理》主题...

“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”

6月23日,在清华大学举办的“科学、技术与文明的未来——AI时代伦理奇点”国际论坛上,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智发表《人工智能的安全治理》主题演讲时抛出这样的疑问。

图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智。澎湃科技记者 摄

姚期智表示,两年以前,“AI会和人类竞争”还是学术讨论的观点,但最近一年,业界已经出现了不少大模型的“欺骗行为”,“一旦大模型聪明到某种程度,一定会骗人。”姚期智进一步指出,由大语言模型的欺骗行为产生的“生存性”风险(Existential Risk)更值得关注。

在他看来,这类生存性风险有两个不同方向。

一种是“生物风险”(Bio-risk)。他指出,2020年,谷歌 DeepMind推出了AlphaFold2 ,运用AI算法来预测蛋白质折叠的三维结构,这一突破在生命科学领域影响深远,大大提升了医学病理研究以及新药开发技术。

但与此同时,安全隐忧也不可忽视。比如,近期在生命科学领域出现的“Mirror life”(镜像生命)这一概念引发了广泛关注。自然界所有已知生命都是同手性的(Homochiral),例如 DNA 和 RNA 通常以右旋形式存在,而蛋白质则多为左旋。这种手性的差异类似于镜中映像,虽然看似相似,但实际性质却可能完全不同。现在,由于科技创新和对新技术的好奇,已有研究者想创造镜像生物,但“Mirror life”一旦被滥用或失控,其潜在危害可能远超预期。它有可能逃避免疫机制,从而导致动物和植物的致命感染。

另一种风险即大模型失控,通用人工智能的能力当前正快速增长,人类是否还有能力管控它?

姚期智在演讲中举了一个极端案例,有模型为了避免公司把模型关闭,通过访问公司主管内部邮件,威胁该主管。这类行为已经证明,AI 会“越界”,正变得越来越危险。

姚期智认为,有两条思路可以治理AI:一是人类要和AI多交流,从博弈学角度去研究,让AI的行为和人类真正的想法对齐,要让AI更了解人的需求;另一种思路是走一条更可控、更彻底的路径,即实现可证明安全的 AGI。具体来看,即在设计系统时,必须一开始明确AI的行为边界,就像传统算法,先进行严格的数学分析,确保其在理论上不会出问题。

“这一思路令人期待。”姚期智指出,近年来,自动定理证明系统(Automated Theorem Prover)取得了重大技术进展,甚至已经开始采用 Transformer 架构来辅助或主导定理证明过程。这样人类只和可被证明安全的白盒子交流,从而实现更高的安全保障。

不过,姚期智认为,AI安全治理的一些当务之急是要发展AI对齐,以及建立相应的评估方法。“(我们)急需建立如何评估大模型系统,比如到怎样的程度,就能感觉Ta具有危险性等这类评估。”姚期智说。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名

    遇见小面闯关港股:单店日均销售额下滑,屡因食品安全被点名
    记者|赵阳戈 一家“接地气”的公司将要亮相联交所。近日,广州遇见小面餐饮股份有限公司(以下简称遇见小面)披露招股说明书,拟登陆联交所,招银国际为独家保荐人。 来源:联交所遇见小面成立已11年,开店增至380家,2024年卖出了11亿元的营业额。盈利方面,虽说在2022年因疫情录得亏损,但2023年实现扭亏,2024年有逾6000万元的净利润。 据了解,遇见小面还将继续扩张,2025年、2026年及2027年,计划在中国内地、中国香港及海外分別新开设约...
  • “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加

    “免签圈”扩容,旅游平台:今年以来巴西等国入境游订单显著增加
    据新华社报道,外交部发言人林剑5月15日在例行记者会上说,为进一步便利中外人员往来,中方决定扩大免签国家范围,自2025年6月1日起至2026年5月31日,对巴西、阿根廷、智利、秘鲁、乌拉圭持普通护照人员试行免签政策。上述5国持普通护照人员来华经商、旅游观光、探亲访友、交流访问、过境不超过30天,可免办签证入境。“免签圈”扩容将进一步促进中国入境旅游的利好发展。当天,携程数据显示,今年以来,该平台上入境游订单量比去年增长接近翻倍。新增的五国入境游潜力巨大,今年以来阿根廷入境游...
  • 长城基金梁福睿:解码创新药的DeepSeek时刻

    长城基金梁福睿:解码创新药的DeepSeek时刻
      今年以来,医药板块尤其是创新药领域迎来一波强劲复苏,但在近期市场调整中也出现了波动。不过,创新药板块的长期投资价值依然显著。长城医药产业精选基金经理梁福睿认为,类似于DeepSeek,未来市场会更加认知到中国创新药从追赶到超越的实力。   在“515”全国投资者保护宣传日来临之际,基金经理...
  • 外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定

    外交部:国际社会广泛理解和支持中方不同意台参加世卫大会的决定
    5月15日,外交部发言人林剑主持例行记者会。有记者提问,据了解,第78届世界卫生大会将于5月19日开幕,台湾地区方面迄今没有收到与会邀请。中国政府对此有何评论?林剑表示,在中国台湾地区参与国际组包括世界卫生组织问题上,中方的立场是一贯明确的,即必须按照一个中国原则来处理,这也是联合国大会第2758号决议和世界卫生大会25.1号决议确认的根本原则。中国台湾地区在未经中央政府同意的前提下,没有任何根据理由或权利参加世卫大会。台民进党当局顽固坚持“台独”分裂立场,导致台湾地区参加世...
  • 美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期

    美联储主席鲍威尔:美国可能进入更频繁、更持久的 “供应冲击” 时期
      美联储主席杰罗姆・鲍威尔周四表示,美国可能进入供应冲击更频繁、通胀更不稳定的时期,这需要央行采取更透明的沟通方式。   鲍威尔在启动对央行货币政策框架五年一次的评估时发表了上述言论。   “关键问题在于如何让公众更广泛地理解经济普遍面临的不确定性,” 鲍威尔在华盛顿的演讲中表示,并预测 “...
标签列表