Mini-Omni
一个开源的多模态大型语言模型,可以边听边说边思考。具有实时端到端语音输入和流式音频输出会话功能。Mini-Omni2 具备了图像识别功能。
几个缺陷:输出只有英文,不过可以听懂中文但是只会说英文。不能在云端服务器部署,一方面也是因为云端服务器没有麦克风(误)。
一个开源的多模态大型语言模型,可以边听边说边思考。具有实时端到端语音输入和流式音频输出会话功能。Mini-Omni2 具备了图像识别功能。
几个缺陷:输出只有英文,不过可以听懂中文但是只会说英文。不能在云端服务器部署,一方面也是因为云端服务器没有麦克风(误)。