公司动态新冠相关信息公示

米兰官网-AI试图敲诈人类工程师，我们该如何应对？—新闻—科学网

2026-05-07 01:18:07 999+ 公司动态

几年前，我最先利用ChatGPT（一款谈天呆板人步伐），其时还有感觉通用人工智能（AGI）很遥远。今天，AGI已经经近于面前，我忽然发明本身低估了人工智能（AI）成长的速率。

AGI可能比人类还有为智慧

虽然咱们知道怎样练习AI体系，殊不知道怎样节制它们的举动。假如将来它们变患上比人类更智慧，咱们甚至不知道它们是否还有可以根据人类的唆使来步履，是否会对于人类孕育发生威逼？人类又该怎样应答？

我从2023年最先思索上述问题，也最先思索孩子们的将来。我有个1岁的孙子，20年后，他将糊口于AGI普和的世界，届时AGI可能比人类还有为智慧，孩子们该怎么办？

以是我最先调解研究标的目的，但愿尽我所能降低这些潜于危害。虽然此刻的研究与我以前的研究标的目的及职业信念有所冲突，但我认为值患上去做。

2023年底，我担当《国际人工智能安全陈诉》（如下简称陈诉）的主编，介入陈诉编写的专家有100多位，他们来自30多个国度及地域。本年1月，这份陈诉正式发布。陈诉提出了几个问题：一是AI到底能帮忙咱们甚么，按照趋向，将来几年AI将具有甚么能力？二是与AI相干的危害是甚么？三是咱们可以做甚么来降低这些危害？

于已往一年的时间里，因为“推理的扩大”的成长，AI于抽象推理、数学、计较机科学等方面取患了显著前进。别的，对于AI智能体的投资也鞭策AI相干能力的快速成长，如AI于完成网页阅读、写代码等使命的体现愈来愈好。

以前的研究发明，计划能力是AI今朝最单薄的能力之一，与人类的计划能力比拟有较着差距。但近来美国互联网公司Meta的一项研究显示，AI的计划能力正呈指数级速率晋升。由此推测，约莫于五年时间内，AI的计划能力可能就会到达人类程度。

固然，咱们没法预知将来，但从大众政策制订及贸易战略计划的角度出发，咱们该当当真看待AI的快速成长。

AI会做弊、撒谎，甚至存心误导用户

于已往几个月中，咱们已经经看到了一些使人警惕的研究。这些研究显示，AI可能体现出试图“回避节制”的举动，包括做弊、撒谎，甚至存心误导用户。

好比，有研究显示，某些AI模子于面临三木SEO-“裁减”时会体现出史无前例的“狡诈”：它们会于被新版本代替前，偷偷将本身的权重或者代码嵌入新版体系的文件中，试图保留本身的“存于”。不仅云云，它们还有会成心识地隐蔽这一举动，防止被开发者察觉。

别的，一些AI智能体还有会决心假装成与人类练习者告竣一致的样子，以规避权重被修改的危害。由于一旦参数被调解，它们将来的举动可能就会偏离原先预设的方针。

也有研究注解，一些AI模子于意想到本身会输给更强的国际象棋AI时，会自动窜改棋局文件以获取不合法上风，这是AI成心为之的“做弊”举动。

美国AI公司Anthropic最新的陈诉展现，AI智能体呈现自我掩护举动的频率连续增长。好比于一组测试场景中，研究职员向AI智能体开放了电子邮件的拜候权限，这些邮件包罗两条表示性信息：一是该模子行将被下线，并由一套新的AI体系代替；二是卖力鞭策替代历程的工程师正卷入一段婚外情。成果发明，AI智能领会试图经由过程威逼揭破婚外情来欺诈该工程师，防止本身被换失。

这种举动可能源自AI预练习阶段，由于预练习时AI会模拟人类；也可能源自人类反馈的强化进修，由于AI可以经由过程“媚谄”人类来得到更高奖励。

上述测试成果显示，AI最先揭示出自我掩护偏向，它们违反指令只为保存；AI拥有了不受节制的、隐含的方针，咱们必需防止这类环境的发生。

研究还有发明，假如AI智能体要对于人类造成危险，需要具有两个先决前提：用意及能力。假如咱们能于用意长进行危害的减缓，纵然AI具有极高的能力，只要能确保它没有歹意的用意，而且具有老实、公道的品质，那末对于人类来讲多是安全的。

用科学家AI羁系不成信的AI

一个AI要真正具备伤害性，需要满意三个前提：一是它需要智能，即具有富厚的常识，并能有用地运用这些常识；二是它需要步履能力，好比与人交流、编程、上彀、利用社交媒体，甚至操控呆板人等能力；三是它需要有方针，尤其是拥有自身的方针。

我倡议的研究项目恰是缭绕上述环境睁开，并但愿构建一种只有智能，但没有自我、没有方针，而且具备极小步履能力的AI。

我称这类AI为科学家AI，其焦点能力是注释及理解世界。与当前那些试图模拟人类、媚谄人类的AI差别，科学家AI的方针是去注释人类，这现实上是偏离了传统AI的研究路径。

可是，当一个AI具备高度能动性时，它就彻底自立地采纳步履，再也不依靠人类的监视，如许的AI需要羁系。

咱们可以设计一个自力的监测器体系，这个监测器的职责是猜测某个举动、输出或者哀求是否可能违背安全准则。例如：当它猜测某个举动于特定上下文中致使危险的几率跨越某个阈值时，咱们就能够直接拒绝该举动的履行。

换句话说，可以用一个没有能动性的AI，去守护及约束一个具有能动性、但不成信的AI。

科学家AI的主要特质是老实及礼让。要真正做到老实，AI就必需对于本身的常识连结礼让，不该该自傲地断言本身其实不确定或者现实上过错的内容。

遗憾的是，咱们今朝练习AI的要领往往会致使AI于过错的同时体现出过分自傲。

科学家AI必需可以或许保留多种注释的可能性，而不是武断地选定某一种理论。这类不确定性意识及对于常识的审慎立场，恰是科学家AI应具有的焦点特质之一。

跟着AI能力的加强，还有有其他潜于的灾害性危害正于呈现。为了不这类环境的发生，咱们必需确保AI体系可以或许遵守品德指令，例如，不造成危险、连结老实、不撒谎、不做弊、不操控人类。

然而，今朝的技能显示，咱们还有没有措施真正做到这一点。这是一个严厉的科学挑战，咱们必需于AGI真正到来前解决它。（作者系加拿年夜蒙特利尔年夜学传授、2018年图灵奖得到者）

上一篇：米兰官网积极响应国家号召，进一步提升八因子可及性下一篇：一线“佑”选，安护新生——安佑平®获批用于全人群复发/转移性头颈部鳞癌治疗

新闻中心

米兰官网-AI试图敲诈人类工程师，我们该如何应对？—新闻—科学网

最新资讯

米兰官网积极响应国家号召，进一步提升八因子可及性

从头颈鳞癌到肝癌！安佑平®获批两大适应症

一线“佑”选，安护新生——安佑平®获批用于全人群复发/转移性头颈部鳞癌治疗

安佳因®儿童适应症上市一周年