现代AI首次被证实通过图灵测试
科技日报北京5月21日电 来自美国加州大学圣舆情网迭戈分校的研究人员近日发布了一项新成果:他们首次实证证明,现有的人工智能(AI)系统已经通过了图灵测试。相关论文发表于最新版《美国科学院院刊》。
这项工作首次用严谨的图灵测试方法,系统评估了大型语言模型的表现。图灵测试由英国数学家阿兰·图灵在1950年提出,用来判断机器是否能够模拟人类对话,让人无法分辨其身份,是衡量机器智能的重要标准。
为了保证结果具有代表性,项目组招募了两类测试者:一批来自加州大学圣迭戈分校的本科生,另一批则是通过Prolific平台筛选的各地网络用户,总计约500人参与实验。
测试过程采用随机对照设计,参与者需分别与“人类”和“大型语言模型”进行对话。实验涵盖了四类模型,包括时下领先的GPT-4.5和LLaMa-3.1-405B,以及较早的GPT-4o和ELIZA,后者是1960年代的经典规则机器人。
实验结果发现,GPT-4.5有73%的概率被认为是“人类”,也就是说,参与者更容易把它认作真人,而不是实际的人类测试者。LLaMa-3.1-405B则在56%的情况下被认为是人类,和同组的真实人类表现无明显差异。相比之下,老旧的ELIZA和GPT-4o分别只有23%和21%的概率被判为“人类”。
在研究中,如果给出有针对性的提示,先进的模型能够展现出完全接近真人的语气、坦率、幽默,以及偶尔的失误。此前科学界已知,语言模型可以轻松生成相关知识内容,而本次实验进一步说明,它们在模拟社会互动行为方面也非常出色,这对未来如何看待人工智能带来了深远影响。
研究团队指出,大型语言模型有各自“性格”,会使用独特的角色设定与交流方式。它们突出表现并非依赖知识储备,而是能够像人类一样展示出错误和不完美,这与图灵最初强调的解题能力有很大不同。
不过,研究者也发现,如果没有具体提示,模型被误认为“人类”的概率明显下降:GPT-4.5降至36%,LLaMa-3.1降至38%,而ELIZA和GPT-4o则更难被认作真人。





