精品国产蜜桃一区二区三区_满足的呻吟小芳笫二章_97成人在线观看_纯肉大尺度肉动漫在线观看

阿里開源“零搜索”技術(shù),訓(xùn)練成本直降88%,準(zhǔn)確度超谷歌搜索

編譯 | 金碧輝

編輯 | 程茜

智東西5月9日消息,阿里巴巴5月7日發(fā)表于arXiv的論文透露,阿里巴巴達(dá)摩院研發(fā)的“零搜索”(ZeroSearch)技術(shù)突破性破解AI訓(xùn)練成本困境。該技術(shù)能通過模擬搜索引擎訓(xùn)練機(jī)制,使大模型在無需調(diào)用真實(shí)搜索引擎API的情況下自主進(jìn)化檢索能力。

扎克伯格深度專訪:懟蘋果,夸DeepSeek,聊AI開源痛點(diǎn)

▲阿里巴巴達(dá)摩院研究團(tuán)隊(duì)發(fā)表于arXiv的論文原文

“零搜索”技術(shù)打破依賴科技巨頭的API經(jīng)濟(jì)模式,開發(fā)者可精準(zhǔn)控制訓(xùn)練數(shù)據(jù)質(zhì)量。目前開源代碼已登陸GitHub和Hugging Face平臺(tái),涵蓋Qwen-2.5、LLaMA-3.2等主流架構(gòu),支持基礎(chǔ)版和指令微調(diào)版模型。初創(chuàng)企業(yè)可用四塊A100顯卡搭建高精度訓(xùn)練環(huán)境。

在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流問答數(shù)據(jù)集的綜合測(cè)評(píng)中,基于“零搜索”技術(shù)訓(xùn)練的140億參數(shù)大模型不僅搜索準(zhǔn)確率力壓谷歌,更實(shí)現(xiàn)訓(xùn)練成本直降近九成。

扎克伯格深度專訪:懟蘋果,夸DeepSeek,聊AI開源痛點(diǎn)

▲arXiv論文原文中的七大主流問答數(shù)據(jù)集的綜合測(cè)評(píng)圖表

據(jù)VentureBeat今天報(bào)道,原本需要調(diào)用商業(yè)搜索引擎API的586.70美元(折合人民幣約為4240.74元)開銷,如今僅需70.80美元(折合人民幣約為510.17元)即可完成同等量級(jí)訓(xùn)練任務(wù)。這項(xiàng)創(chuàng)新讓AI模型在“自我模擬”(self-simulated)中獲得出類似搜索搜索引擎的檢索能力。

一、 “零搜索” 技術(shù)成本大降超八成,性能超越谷歌搜索

研究人員使用SerpAPI調(diào)用谷歌搜索服務(wù)作為對(duì)照組,通過模擬傳統(tǒng)AI訓(xùn)練流程中調(diào)用商業(yè)搜索引擎API的場景,與“零搜索”技術(shù)方案進(jìn)行成本對(duì)比。

研究人員測(cè)算,使用SerpAPI調(diào)用谷歌搜索處理約6.4萬次查詢,成本約為586.70美元(約合人民幣為4228.82元);而在四塊A100 GPU上運(yùn)行14B參數(shù)的大語言模型,僅需70.80美元(折合人民幣約為510.43元),節(jié)省幅度高達(dá)88%。

據(jù)TechCrunch 2024年11月報(bào)道,從目前存在的一些公開信息透露,SerpAPI旨在幫助開發(fā)者繞過復(fù)雜的網(wǎng)頁解析流程,SerpAPI能通過API調(diào)用獲取谷歌、Bing、百度等主流搜索引擎的搜索結(jié)果數(shù)據(jù)。

SerpAPI的實(shí)際企業(yè)用戶包括Jasper.ai、Copy.ai等AI初創(chuàng)公司,這些企業(yè)通過API接口獲取實(shí)時(shí)搜索結(jié)果訓(xùn)練對(duì)話系統(tǒng),但具體成本數(shù)據(jù)未被披露。

二、阿里大模型能生成擬真文檔,較谷歌API節(jié)省88%開支

阿里巴巴的研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過海量預(yù)訓(xùn)練的大模型已具備擬真文檔生成能力。通過監(jiān)督微調(diào)將大語言模型轉(zhuǎn)化為檢索模塊,能按需生成相關(guān)或無關(guān)文檔組合。

在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)通過漸進(jìn)式降低生成文檔質(zhì)量的“教學(xué)方案”,迫使模型持續(xù)優(yōu)化檢索精度,形成自主進(jìn)化閉環(huán)。

據(jù)VentureBeat今天報(bào)道,在TriviaQA等7個(gè)主流問答數(shù)據(jù)集測(cè)試中,基于通義千問2.5、LLaMA3.2等架構(gòu)的模在數(shù)學(xué)視覺推理測(cè)試中得分超過OpenAI o1,展現(xiàn)了強(qiáng)大的圖形與數(shù)學(xué)結(jié)合的分析能力。14B參數(shù)模型在事實(shí)準(zhǔn)確性指標(biāo)上超越谷歌搜索2.3個(gè)百分點(diǎn),7B模型與商業(yè)引擎持平。相同訓(xùn)練量下模擬方案較谷歌搜索API節(jié)省88%開支。

結(jié)語:“零搜索”技術(shù)推動(dòng)AI產(chǎn)業(yè)進(jìn)入低成本自主進(jìn)化階段

阿里巴巴達(dá)摩院的突破可能是AI訓(xùn)練范式的重要轉(zhuǎn)折。當(dāng)大模型能在封閉系統(tǒng)內(nèi)模擬現(xiàn)實(shí)世界的信息交互,用戶得以擺脫對(duì)外部服務(wù)的依賴,這對(duì)數(shù)據(jù)安全、訓(xùn)練可控性及技術(shù)民主化或具有深遠(yuǎn)意義。

從行業(yè)發(fā)展趨勢(shì)來看,“零搜索”技術(shù)有望對(duì)AI開發(fā)價(jià)值鏈產(chǎn)生深遠(yuǎn)影響。隨著自模擬技術(shù)成熟,未來,或?qū)⒂楷F(xiàn)更多AI訓(xùn)練方案,推動(dòng)產(chǎn)業(yè)進(jìn)入低成本自主進(jìn)化的新階段。


相關(guān)內(nèi)容