大模型开车哪家强?普渡研究给指南:GPT-4真行啊
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:白交,授权站长之家转载发布。
如今,只需一句口令,汽车便能听从指挥。
例如,说出“我开会要迟到了”、“我不想让朋友等太久”等口令,汽车将理解并自动加速。
如果对本次行程有不满意之处,只需向汽车提供反馈建议:“要在充分保障安全的前提下”,下次行程中汽车的自动驾驶行为将进行自我修正。
这是普渡大学数字孪生实验室最新研究的成果——
将大型语言模型部署在自动驾驶实车上,让其在多个交通场景中,如停车场、十字路口和高速公路上,理解乘客的各种个性化指令,并构建他们的数字孪生。
在众多大型模型的实验中,GPT-4脱颖而出。
更多细节请参考此处。
基于LLM的自动驾驶系统
而这一成果的实现主要依赖于一个名为Talk2Drive的框架。
该框架具有三个主要特点:
1、它将人类口头命令转换为文本指令,然后由云端的大型模型进行处理。在此过程中,会使用一些语音识别的开源API,如Whisper,准确地捕获口令并将其翻译为文本。云端的大型模型结合天气、交通状况和当地交通规则等信息生成上下文驾驶数据。
2、大型模型生成特定的自动驾驶代码,然后将其发送回车辆的电子控制单元(ECU)并在其中执行。
代码执行涉及调整基本驾驶行为以及车辆规划和控制系统中的各种参数。
随后,车辆的执行器通过CAN总线和线控系统来控制油门、刹车、档位选择和转向。
3、车辆的存储模块秉承“千人千面”的理念,记录着所有人车交互数据,确保每次行驶体验都是基于乘客的历史偏好和实时命令进行定制,实现真正意义上的数字孪生个性化体验。
经过一系列大型模型的比较,他们最终选择了GPT-4,因为它的延迟相对较小,且推理能力更强。
在Talk2Drive系统中,三类不同驾乘偏好的乘客通过口头化的指令与大型模型进行交互,以促使系统做出相应调整。当乘客对调整后的自动驾驶行为不满意时,会关闭自动驾驶模式,系统也会记录这种情况下的“接管”。
结果显示,无论驾乘偏好如何,Talk2Drive都能显著降低接管率。
这辆全副武装的自动驾驶车与大型语言模型API协作完成了这项研究。
来自普渡大学数字孪生实验室
这项研究来自普渡大学数字孪生实验室。
从研究团队来看,大部分成员都是华人。
其中一作Can Cui目前是普渡大学一年级博士生。在加入普渡大学工程学院之前,他在密歇根大学获得了电气与计算机工程硕士学位,并在武汉理工大学完成了本科学业。
他的导师王子然博士在2022年加入普渡大学之前,曾在丰田硅谷研发中心任职四年,担任主任研究员,领导数字孪生相关研究。
据介绍,普渡数字孪生实验室从2023年6月开始深入研究大型语言模型和自动驾驶交叉领域,并进行了一系列工作,包括文献综述、建立公开数据集、仿真环境测试以及举办研讨会等。
论文链接:
https://arxiv.org/abs/2312.09397
项目网站:
https://purduedigitaltwin.github.io/llm4ad
编辑:一起学习网