助力降低AI引文幻覺提升準確率新款開源語言模型與人類專家相仿

2026-02-05 15:19:33 中國新聞網

　　助力降低AI引文幻覺提升準確率新款開源語言模型與人類專家相仿

　　中新網北京2月5日電 (記者孫自法)國際知名學術期刊《自然》最新發(fā)表一篇計算機科學論文稱，研究人員開發(fā)出一個開源語言模型OpenScholar，其在進行準確文獻綜述方面可超越商用大語言模型(LLM)。在本項研究開展的實驗中，GPT4o會在78%-90%的情況下出現(xiàn)引文幻覺，而OpenScholar的引文準確率卻與人類專家相仿。

　　論文作者指出，雖然OpenScholar后續(xù)仍需進一步優(yōu)化，但該AI工具有望幫助科學家處理復雜且日益繁重的科學文獻綜述任務。

本項研究相關示意圖(圖片來自論文)。施普林格·自然供圖

　　據(jù)介紹，科學文獻綜述對于支持循證決策、微調科學過程和引導新發(fā)現(xiàn)都很重要。然而，文獻發(fā)表數(shù)量的增長使研究人員很難掌握全部資訊。大語言模型可以提供協(xié)助，但卻很容易出錯，如歸因能力有限和引文幻覺。

　　為了生成準確、全面、透明的科學文獻綜述，美國華盛頓大學Akari Asai、Hannaneh Hajishirzi和同事及合作者一起，研發(fā)推出了開源語言模型OpenScholar。該模型是專為科研任務設計的檢索增強語言模型，其他系統(tǒng)也用過這個框架，但論文作者將其與一個包含4500萬篇最新開放獲取科研論文的專業(yè)數(shù)據(jù)庫以及一個自我評估機制相結合，從而優(yōu)化其輸出。

　　論文作者還創(chuàng)建了名為ScholarQABench的基準工具來評估文獻綜述的自動化。研究顯示，OpenScholar的準確率比GPT4o和PaperQA2(一個文獻綜述工具)這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外，OpenScholar生成的答案在50%到70%的情況下比專家注釋器的答案更有用。

　　這些研究結果和引文幻覺大幅下降，證明了OpenScholar有望支持和推動進一步研究工作。論文作者也提醒說，該AI系統(tǒng)仍有局限性，同時，基于語言模型的系統(tǒng)無法使科學文獻綜述完全自動化。因此，他們向學界同時開放ScholarQABench和OpenScholar，以鼓勵進一步研究和優(yōu)化。(完)

來源：中國新聞網

編輯：熊思怡

廣告等商務合作，請點擊這里

本文為轉載內容，授權事宜請聯(lián)系原著作權人

關注中新經緯微信公眾號(微信搜索“中新經緯”或“jwview”)，看更多精彩財經資訊。

今日推薦