99大焦成人网站|国产调情女主播在线观看|亚洲无码中文字幕AV|超碰人妻中文字幕|青青偷拍电影国产人人看超碰|日韩旡码av黄片网在线观看|免费亚欧乱在线播放少妇|性爱无码专区不卡一区|免费的AV网站|一级A片欧美色色欧美色色色

分享
國家互聯(lián)網信息辦公室準許從事互聯(lián)網新聞信息服務業(yè)務的網站
互聯(lián)網新聞信息服務許可證編號:10120220005
中新經緯>>科技>>正文

助力降低AI引文幻覺提升準確率 新款開源語言模型與人類專家相仿

2026-02-05 15:19:33 中國新聞網

  助力降低AI引文幻覺提升準確率 新款開源語言模型與人類專家相仿

  中新網北京2月5日電 (記者 孫自法)國際知名學術期刊《自然》最新發(fā)表一篇計算機科學論文稱,研究人員開發(fā)出一個開源語言模型OpenScholar,其在進行準確文獻綜述方面可超越商用大語言模型(LLM)。在本項研究開展的實驗中,GPT4o會在78%-90%的情況下出現(xiàn)引文幻覺,而OpenScholar的引文準確率卻與人類專家相仿。

  論文作者指出,雖然OpenScholar后續(xù)仍需進一步優(yōu)化,但該AI工具有望幫助科學家處理復雜且日益繁重的科學文獻綜述任務。

本項研究相關示意圖(圖片來自論文)。施普林格·自然 供圖

  據(jù)介紹,科學文獻綜述對于支持循證決策、微調科學過程和引導新發(fā)現(xiàn)都很重要。然而,文獻發(fā)表數(shù)量的增長使研究人員很難掌握全部資訊。大語言模型可以提供協(xié)助,但卻很容易出錯,如歸因能力有限和引文幻覺。

  為了生成準確、全面、透明的科學文獻綜述,美國華盛頓大學Akari Asai、Hannaneh Hajishirzi和同事及合作者一起,研發(fā)推出了開源語言模型OpenScholar。該模型是專為科研任務設計的檢索增強語言模型,其他系統(tǒng)也用過這個框架,但論文作者將其與一個包含4500萬篇最新開放獲取科研論文的專業(yè)數(shù)據(jù)庫以及一個自我評估機制相結合,從而優(yōu)化其輸出。

  論文作者還創(chuàng)建了名為ScholarQABench的基準工具來評估文獻綜述的自動化。研究顯示,OpenScholar的準確率比GPT4o和PaperQA2(一個文獻綜述工具)這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外,OpenScholar生成的答案在50%到70%的情況下比專家注釋器的答案更有用。

  這些研究結果和引文幻覺大幅下降,證明了OpenScholar有望支持和推動進一步研究工作。論文作者也提醒說,該AI系統(tǒng)仍有局限性,同時,基于語言模型的系統(tǒng)無法使科學文獻綜述完全自動化。因此,他們向學界同時開放ScholarQABench和OpenScholar,以鼓勵進一步研究和優(yōu)化。(完)

來源:中國新聞網

編輯:熊思怡

廣告等商務合作,請點擊這里

本文為轉載內容,授權事宜請聯(lián)系原著作權人

中新經緯版權所有,未經書面授權,任何單位及個人不得轉載、摘編或以其它方式使用。
關注中新經緯微信公眾號(微信搜索“中新經緯”或“jwview”),看更多精彩財經資訊。
關于我們  |   About us  |   聯(lián)系我們  |   廣告服務  |   法律聲明  |   招聘信息  |   網站地圖

本網站所刊載信息,不代表中新經緯觀點。 刊用本網站稿件,務經書面授權。

未經授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。

[京B2-20230170]  [京ICP備17012796號-1]

[互聯(lián)網新聞信息服務許可證10120220005]  [互聯(lián)網宗教信息服務許可證:京(2022)0000107]

違法和不良信息舉報電話:18513525309 報料郵箱(可文字、音視頻):zhongxinjingwei@chinanews.com.cn

Copyright ©2017-2026 jwview.com. All Rights Reserved


北京中新經聞信息科技有限公司