通用領域中的大型語言模型(LLMs),如 ChatGPT,在遵循指令和產(chǎn)生類似人類的響應方面取得了顯著的成功。然而,此類語言模型并未針對醫(yī)學領域量身定制,導致答案準確性較差,無法為醫(yī)學診斷、藥物等提供合理的建議。
(資料圖)
為了解決這個問題,該研究收集了 700 多種疾病及相應癥狀所需要的醫(yī)學測試和推薦的藥物,從中產(chǎn)生了 5K 次醫(yī)患對話。使用這些量身定制的醫(yī)患對話對?LLMs?進行微調,由此產(chǎn)生的模型具有巨大的潛力來理解患者的需求,提供明智的建議,并在各種醫(yī)療相關領域提供有價值的幫助。
論文鏈接:
https://arxiv.org/abs/2303.14070
從情感分析和命名實體識別到問答,NLP 在金融技術領域的應用廣泛而復雜。LLMs?已被證明對各種任務有效。
一項新研究展示了 BloombergGPT,這是一個具有 500 億參數(shù)的語言模型,它在廣泛的金融數(shù)據(jù)上進行了訓練。該研究基于 Bloomberg 廣泛的數(shù)據(jù)源構建了一個擁有 3630 億個令牌的數(shù)據(jù)集,這可能是迄今為止最大的特定領域數(shù)據(jù)集,并增加了來自通用數(shù)據(jù)集的 3450 億個令牌。
研究在標準 LLM 基準、開放金融基準和一套能準確反映預期用途的內部基準上驗證了 BloombergGPT。
結果表明,BloombergGPT?在財經(jīng)任務上顯著優(yōu)于現(xiàn)有模型,且不會犧牲通用 LLM 基準的性能。
論文鏈接:
https://arxiv.org/abs/2303.17564
解決具有不同領域和模式的復雜 AI 任務是通向通用人工智能(AGI)的關鍵一步。雖然有豐富的 AI 模型可用于不同的領域和模式,但它們無法處理復雜的 AI 任務。
考慮到?LLMs?在語言理解、生成、交互和推理方面表現(xiàn)出非凡的能力,該研究提出了 HuggingGPT——一個利用?ChatGPT 等?LLMs?連接機器學習社區(qū)(如 HuggingFace)中的各種 AI 模型來完成任務的系統(tǒng)。
具體來說,在收到用戶請求時使用 ChatGPT 進行任務規(guī)劃,根據(jù) HuggingFace 中可用的功能描述選擇 AI 模型,用選擇的 AI 模型執(zhí)行每個子任務,并根據(jù)執(zhí)行結果匯總響應。
借助 ChatGPT 強大的語言能力和 HuggingFace 豐富的 AI 模型,HuggingGPT 能夠完成眾多不同模態(tài)和領域的復雜 AI 任務,在語言、視覺、語音等具有挑戰(zhàn)性的任務中取得令人矚目的成果,開辟了一條加速邁向 AGI 的新道路。
論文鏈接:
https://arxiv.org/abs/2303.17580
“在所有藝術中,對我們來說最重要的是電影?!?/strong>
——弗拉基米爾·列寧
一項新的研究開發(fā)了一種自動音頻描述(AD)模型,它可以攝取電影并以文本形式輸出 AD。由于描述對上下文的依賴性以及可用訓練數(shù)據(jù)的數(shù)量有限,因此生成高質量的電影 AD 具有挑戰(zhàn)性。通過利用預訓練基礎模型(如 GPT 和 CLIP),該研究只訓練一個映射網(wǎng)絡來橋接兩個模型以生成視覺條件文本。下圖展示了電影 AD 基于泰坦尼克號呈現(xiàn)的結果。
該研究的主要貢獻為:
(1)結合了電影剪輯的上下文、之前的剪輯廣告以及字幕;
(2)通過在視覺或上下文信息不可用的大規(guī)模數(shù)據(jù)集上進行預訓練來解決缺乏訓練數(shù)據(jù)的問題,如沒有電影的純文本廣告或沒有上下文的視覺字幕數(shù)據(jù)集;
(3)改進了當前可用的 AD 數(shù)據(jù)集,通過去除 MAD 數(shù)據(jù)集中的標簽噪聲,并添加字符命名信息;
(4)與以前的方法相比,這一模型在電影廣告任務上獲得了很好的結果。
參考鏈接:
https://arxiv.org/abs/2303.16899
一項新的研究提出了 ViewRefer,這是一個用于 3D 視覺基礎的多視圖框架,探索如何從文本和 3D 模態(tài)中掌握視圖知識。對于文本分支,ViewRefer 利用 GPT 等 LLMs 的多樣化語言知識,將單個基礎文本擴展為多個幾何一致的描述。另一方面,在 3D 模態(tài)中,引入了具有交互視圖注意力的 transformer 融合模塊,以增強對象跨視圖的交互。
更重要的是,ViewRefer 采用了一個視覺?transformer?來有效地掌握多模態(tài)數(shù)據(jù)中的視圖知識,并從兩個角度增強了這一框架:用于更強大文本特征的視圖引導注意模塊,以及最終預測期間的視圖引導評分策略?;谒O計的范例,ViewRefer 在三個基準測試中實現(xiàn)了很好的性能。
參考鏈接:
https://arxiv.org/abs/2303.16894
ChatGPT 在過去幾個月里受到越來越多的關注。雖然已經(jīng)有很多研究對 ChatGPT 的各個方面進行了評估,但公眾仍不清楚其魯棒性,即對意外輸入的性能表現(xiàn)。魯棒性是負責任的 AI 特別關注的問題,尤其是對于安全關鍵型應用程序。 該研究從對抗性和 OOD 的角度對 ChatGPT 的魯棒性進行了全面評估。通過選擇幾個流行的基礎模型作為基線,結果表明,ChatGPT 在大多數(shù)對抗性和 OOD 分類和翻譯任務上表現(xiàn)出一致性。然而,絕對性能遠非完美,這表明對抗性和 OOD 魯棒性仍然是對基礎模型的重大威脅。
參考鏈接:
https://arxiv.org/abs/2302.12095
關鍵詞: