安全提示:即将离开云搜,1秒后自动跳转...
为什么说gpt-4o是原生多模态?gpt
gpt-4v不是原生多模态,比如原来gpt4也支持语音输入,但它是先调用了语音识别模型(whisper)将语音转成文字,然后需要用户手动发送到gpt里得到回答,如果还想转成语音