要再把文字交给大模型,大模型根据我们设定的程序,只能处理文字,然后根据我们转换成的文字,理解回答这个问题,回答出来的也是文字。”
“然后还需要第三步,需要再通过语音合成的模型,这个模型再把文字转成语音。”
“是这样的模式吧?”
汤凌云继续点头。
“你想一下,这中间的延迟,需要多久?几秒?十几秒?”
汤凌云想了一下,“根据语音指令的长度,不同吧。”
“那如果是变成我说的端到端呢?”
李毅循循善诱,“端到端做这样一个语音对话应该怎么做呢?那就是训练一个模型,这个模型直接输入的是语音,那么他就在模型内部直接能理解语音的含义,而且能够做出回答,而且回答也是直接语音输出,一个模块儿浑然一体。”
“想一想,你这边直接语音输入,他那边就语音输出,这样的速度会有多快,延迟会有多低?你想过吗?”
“好,语音这一块儿咱们放开,咱们再说到自动驾驶上。”
“你们现在的方式是需要用传感器和各种雷达,把收集到的信息识别之后,再传递到车辆控制芯片上,然后控制芯片在指挥车辆绕开前方的各种障碍,这里面就有很高的延迟。”
“而为了降低这种延迟,就需要配备昂贵的,数量众多的雷达,甚至是激光雷达。”
“确实是这样,可端到端不也得需要这么多传感器和雷达吗?”
汤凌云还是不服气。
“不一样的。”
“刚才说的自动驾驶,在路上遇到各种复杂的情况,它是分成三个模块儿,一个是感知模块,先看清路面发生了什么。第二,送了一个决策模块,决策模块写满了我们人类的驾驶知识,写满了无数的规则,但是规则是很难穷尽的。”