助力降低AI引文幻覺提升準確率 新款開源語言模型與人類專家相仿
中新網北京2月5日電 (記者 孫自法)國際知名學術期刊《自然》最新發(fā)表一篇計算機科學論文稱,研究人員開發(fā)出一個開源語言模型OpenScholar,其在進行準確文獻綜述方面可超越商用大語言模型(LLM)。在本項研究開展的實驗中,GPT4o會在78%-90%的情況下出現(xiàn)引文幻覺,而OpenScholar的引文準確率卻與人類專家相仿。
論文作者指出,雖然OpenScholar后續(xù)仍需進一步優(yōu)化,但該AI工具有望幫助科學家處理復雜且日益繁重的科學文獻綜述任務。

據(jù)介紹,科學文獻綜述對于支持循證決策、微調科學過程和引導新發(fā)現(xiàn)都很重要。然而,文獻發(fā)表數(shù)量的增長使研究人員很難掌握全部資訊。大語言模型可以提供協(xié)助,但卻很容易出錯,如歸因能力有限和引文幻覺。
為了生成準確、全面、透明的科學文獻綜述,美國華盛頓大學Akari Asai、Hannaneh Hajishirzi和同事及合作者一起,研發(fā)推出了開源語言模型OpenScholar。該模型是專為科研任務設計的檢索增強語言模型,其他系統(tǒng)也用過這個框架,但論文作者將其與一個包含4500萬篇最新開放獲取科研論文的專業(yè)數(shù)據(jù)庫以及一個自我評估機制相結合,從而優(yōu)化其輸出。
論文作者還創(chuàng)建了名為ScholarQABench的基準工具來評估文獻綜述的自動化。研究顯示,OpenScholar的準確率比GPT4o和PaperQA2(一個文獻綜述工具)這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外,OpenScholar生成的答案在50%到70%的情況下比專家注釋器的答案更有用。
這些研究結果和引文幻覺大幅下降,證明了OpenScholar有望支持和推動進一步研究工作。論文作者也提醒說,該AI系統(tǒng)仍有局限性,同時,基于語言模型的系統(tǒng)無法使科學文獻綜述完全自動化。因此,他們向學界同時開放ScholarQABench和OpenScholar,以鼓勵進一步研究和優(yōu)化。(完)
本網站所刊載信息,不代表中新經緯觀點。 刊用本網站稿件,務經書面授權。
未經授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。
[京B2-20230170] [京ICP備17012796號-1]
[互聯(lián)網新聞信息服務許可證10120220005] [互聯(lián)網宗教信息服務許可證:京(2022)0000107]
違法和不良信息舉報電話:18513525309 報料郵箱(可文字、音視頻):zhongxinjingwei@chinanews.com.cn
Copyright ©2017-2026 jwview.com. All Rights Reserved
北京中新經聞信息科技有限公司