研究：人们与ChatGPT对话五分钟，很难区分是否为人类

科技资讯 AI头条 06-17

大型语言模型（LLMs）如 GPT-4模型正在广泛应用的聊天平台 ChatGPT 已经展现出了惊人的能力，能够理解书面提示并以多种语言生成合适的回应。这让我们有些人产生了疑问:这些模型生成的文本和答案是否如此逼真，以至于能够被误认为是人类所写?

每种证人类型的通过率（左）和审讯者信心(右)。

最近，加州大学圣迭戈分校的研究人员进行了一项名为图灵测试的研究，旨在评估机器展现出人类智能的程度。他们的研究结果发现，人们在与 GPT-4模型和人类代理进行两人对话时，很难区分两者。

研究论文提前发布在 arXiv 服务器上，其结果显示 GPT-4在大约50% 的互动中能够被误认为是人类。尽管初步实验并未充分控制影响结果的一些变量，但他们决定进行第二项实验，以得出更详实的结果。

这四次对话中有一次是与人类目击者进行的，其余的都是与人工智能进行的

在他们的研究中，人们难以确定 GPT-4是否为人类。与 GPT-3.5和 ELIZA 模型相比，人们往往能够判断出后者是机器，但在判断 GPT-4是人类还是机器上，他们的能力并不比随机猜测更高。

研究团队设计了一个名为 "人还是不是人" 的二人在线游戏，让参与者与另一个人或一个 AI 模型进行互动。每次游戏中，一个人类询问者与一个 “证人” 进行交谈，以试图确定对方是否为人类。

虽然真正的人类其实更成功，有约三分之二的时间说服询问者他们是人类，但研究结果表明，在现实世界中，人们可能无法可靠地判断他们是否在与人类还是 AI 系统交谈。

标签：人类,模型,询问者,他们的,互动,是人类,证人,在与,都是,机器