清華聯(lián)合字節(jié),開源聽覺大語言模型SALMONN

來源:DoNews快訊


【資料圖】

清華大學(xué)電子工程系日前與字節(jié)跳動(dòng)的火山語音團(tuán)隊(duì)攜手合作,推出一款開源大語言模型 SALMONN。SALMONN 模型支持語音、音頻以及音樂輸入,它可以感知和理解不同類型的音頻內(nèi)容輸入,并具備多語言語音識(shí)別和翻譯以及語音推理等功能。

官方表示,SALMONN 支持語音、音頻以及音樂輸入,可以感知和理解不同類型的音頻內(nèi)容輸入,并具備多語言語音識(shí)別和翻譯以及語音推理等功能。

目前 SALMONN 能夠勝任英語語音識(shí)別、英語到中文的語音翻譯、情感識(shí)別、音頻字幕生成、音樂描述等重要的語音和音頻任務(wù),同時(shí)又涌現(xiàn)出多種在模型訓(xùn)練中沒有專門學(xué)習(xí)過的多語言和跨模態(tài)能力,涵蓋非英語語音識(shí)別、英語到(中文以外)其他語言的語音翻譯、對(duì)語音內(nèi)容的摘要和關(guān)鍵詞提取、基于音頻的故事生成、音頻問答、語音和音頻聯(lián)合推理等任務(wù)。

目前該模型已經(jīng)發(fā)布于 GitHub 中。

標(biāo)簽:

推薦

財(cái)富更多》

動(dòng)態(tài)更多》

熱點(diǎn)