精品国产蜜桃一区二区三区_满足的呻吟小芳笫二章_97成人在线观看_纯肉大尺度肉动漫在线观看

陶哲軒用GPT5-Pro跨界挑戰(zhàn)!3年無(wú)解的難題,11分鐘出完整證明

夢(mèng)晨 鷺羽 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

陶哲軒與GPT-5 Pro這對(duì)搭檔再大發(fā)神威,解決了一個(gè)3年無(wú)人解決的難題。

而且是“不太在自己專業(yè)范圍內(nèi)”的問(wèn)題:微分幾何領(lǐng)域的開放問(wèn)題。

要知道,陶哲軒擅長(zhǎng)的分析、數(shù)論、組合學(xué)等研究的往往是整數(shù)、函數(shù)、算子的性質(zhì)。而微分幾何更側(cè)重于流形的性質(zhì),常用的工具也很不一樣。

陶哲軒只是按自己直覺給了一個(gè)大致方向,GPT-5 Pro就從復(fù)雜計(jì)算到嚴(yán)謹(jǐn)證明一氣呵成,幫助陶哲軒捕捉關(guān)鍵邏輯,突破傳統(tǒng)思維局限。

甚至在AI幫助下最終發(fā)現(xiàn)自己的直覺有誤,但通過(guò)這個(gè)過(guò)程更好理解了問(wèn)題。

有了這次跨界解題的經(jīng)驗(yàn),陶哲軒對(duì)AI在學(xué)術(shù)研究上的作用也有了新的思考,他總結(jié)到:

AI在小尺度上很有用,中尺度上有些無(wú)益,大尺度上又有幫助。

AI從計(jì)算到證明一氣呵成

先來(lái)看看原始問(wèn)題,是3年前就在mathoverflow上提出的:

設(shè)一個(gè)三維空間中的光滑拓?fù)淝蛎鎳傻膮^(qū)域,且曲面的主曲率絕對(duì)值不超過(guò)1,那么它包圍的體積是否至少等于單位球的體積?

陶哲軒最初的思路是將問(wèn)題限制在星形區(qū)域上,借助積分不等式推進(jìn)。但他的微分幾何有些生疏,所以請(qǐng)AI幫他進(jìn)行這些計(jì)算。

結(jié)果GPT-5 Pro思考了11分18秒,不僅完成了所有計(jì)算,還直接給出了星形情況下問(wèn)題的完整證明。

證明過(guò)程運(yùn)用了各種不等式和恒等式,其中有些陶哲軒熟悉(比如Stokes定理和Willmore不等式),也有一個(gè)他也第一次接觸的Minkowski第一積分公式。

有了這些不等式,加上算術(shù)-幾何平均不等式,星形情況的證明實(shí)際上就是一行論證。

到目前為止,一切順利。

接下來(lái)他需要驗(yàn)證證明的各個(gè)步驟,但網(wǎng)絡(luò)上沒(méi)有找到有用的資源。

再次詢問(wèn)AI后,直接得到兩個(gè)令他滿意的證明:一個(gè)是按照他建議使用散度定理的路線,另一個(gè)是基于他沒(méi)想到的流方法。

通過(guò)AI的計(jì)算和證明,陶哲軒打算將其視為一個(gè)擾動(dòng)橢圓偏微分方程問(wèn)題,AI在這個(gè)思路上表現(xiàn)也良好。

雖然在估計(jì)一個(gè)擾動(dòng)非線性項(xiàng)時(shí)出現(xiàn)了輕微的錯(cuò)誤,但并非無(wú)法修復(fù)。而且AI還主動(dòng)指出一個(gè)特殊情況其實(shí)又能回到星形的結(jié)果。

成功地用偏微分方程擾動(dòng)理論的方法,解決了當(dāng)曲面形狀與單位球面差距不大(Small Data)時(shí)的情形。

但真正困難且未解決的,是當(dāng)曲面形狀與球面差距巨大(Large Data)時(shí)的問(wèn)題。

陶哲軒意識(shí)到可以用將問(wèn)題簡(jiǎn)化為一個(gè)大型有限計(jì)算,但AI用這個(gè)方法給出的結(jié)果非常混亂且缺乏啟發(fā)性,本質(zhì)上是對(duì)所有可能形狀的窮舉。

最終陶哲軒發(fā)現(xiàn)他設(shè)想的數(shù)值方法或許可以在有限的時(shí)間內(nèi)解決所有給定條件的特殊情況,但無(wú)法處理一般情況,但AI只是按照提問(wèn)照做了。

最后總結(jié)一下:雖然問(wèn)題最終還是沒(méi)有完全解決,但在AI的幫助下陶哲軒對(duì)這個(gè)問(wèn)題的理解深入了很多。

陶哲軒的思考:AI工具的多尺度價(jià)值

雖然解題告一段落,但陶哲軒的思考還在繼續(xù)。

回顧整個(gè)解題過(guò)程,AI在“小尺度”問(wèn)題上表現(xiàn)得很好,只犯了一些小錯(cuò)誤,并貢獻(xiàn)了一些文獻(xiàn)中已有的,但陶哲軒之前并不知道的有用想法。

但是要想進(jìn)一步推進(jìn)這個(gè)問(wèn)題,就需要真正的微分幾何專家的幫助了。

在“中等尺度”的策略上,AI略微顯得無(wú)益,它強(qiáng)化了陶哲軒對(duì)問(wèn)題的錯(cuò)誤直覺,而不是提出質(zhì)疑。

陶哲軒一開始的直覺是錯(cuò)的,AI也沒(méi)有發(fā)現(xiàn)問(wèn)題,基本上只是附和同意他說(shuō)的一切。

但是在從獲得對(duì)問(wèn)題理解的“大尺度”指標(biāo)來(lái)看,AI又是有幫助的,盡管主要是間接意義上的:在AI的幫助下能夠更快地研究并最終放棄一種現(xiàn)在認(rèn)為不適合的方法。

陶哲軒將這次經(jīng)歷與他之前的實(shí)驗(yàn)進(jìn)行了對(duì)比。

在之前的實(shí)驗(yàn)中,他給AI一個(gè)他對(duì)結(jié)果有很好直覺的任務(wù)。這種情況下AI更有創(chuàng)造力,提供了他不知道的信息,但引導(dǎo)AI朝著富有成效的方向前進(jìn)也明顯更加困難。

他認(rèn)為,在自己專業(yè)領(lǐng)域之外的問(wèn)題上與AI互動(dòng)似乎確實(shí)有一些價(jià)值,但必須謹(jǐn)慎行事并保持對(duì)情況的認(rèn)知。

這次經(jīng)歷還印證了陶哲軒之前提出的觀點(diǎn):必須在多個(gè)尺度上衡量一個(gè)工具的有效性。

此前他提出了四個(gè)不同的效率衡量尺度:形式化證明中的任何單行、任何單個(gè)引理、任何定理的完整證明,以及整本教科書。

許多當(dāng)前的自動(dòng)化工具可以在其中一個(gè)尺度上加速形式化,但反直覺的是,過(guò)度依賴這樣的工具可能最終會(huì)降低在其他尺度上形式化的能力。

他認(rèn)為最優(yōu)的自動(dòng)化水平實(shí)際上嚴(yán)格介于0%和100%之間。

在每個(gè)尺度上都有足夠的自動(dòng)化來(lái)減少繁瑣的重復(fù)工作,但在每個(gè)尺度上仍然有足夠的”人在回路中“來(lái)審查和修復(fù)局部問(wèn)題,以便讓人類保持對(duì)所有尺度上任務(wù)結(jié)構(gòu)的感知。

如果過(guò)度地在單一尺度上對(duì)AI進(jìn)行基準(zhǔn)測(cè)試,最終可能會(huì)對(duì)長(zhǎng)期目標(biāo)產(chǎn)生不利影響。

陶哲軒與ChatGPT合作史

而陶哲軒對(duì)AI輔助數(shù)學(xué)工作的可能性探索還要追溯到三年前——ChatGPT剛剛發(fā)布的時(shí)候。

陶哲軒在其誕生伊始就敏銳地察覺到它的作用,并就黎曼假設(shè)進(jìn)行試探性詢問(wèn),但得出的結(jié)果卻讓他大失所望:

ChatGPT給出了看似合理且相關(guān)的回答,但仔細(xì)檢查后卻沒(méi)有任何實(shí)際的深度內(nèi)容。

此時(shí)的ChatGPT還不能完全理解數(shù)學(xué)問(wèn)題的本質(zhì),只是在將一些低質(zhì)量?jī)?nèi)容進(jìn)行包裝掩蓋,這意味著常規(guī)的表面檢測(cè)方法不再準(zhǔn)確,需要對(duì)核心內(nèi)容進(jìn)行人工篩查,例如逐行地閱讀文本。

所以早期的陶哲軒對(duì)AI工具抱有懷疑審視的態(tài)度,認(rèn)為AI在數(shù)學(xué)中的作用,是為答案提供近似值,然后人類數(shù)學(xué)家再通過(guò)傳統(tǒng)方法進(jìn)行逐步細(xì)化。

轉(zhuǎn)機(jī)出現(xiàn)在GPT-4,陶哲軒嘗試使用GPT-4協(xié)助處理統(tǒng)計(jì)數(shù)據(jù),即把原始數(shù)據(jù)輸入電子表格,并查找對(duì)應(yīng)函數(shù)、計(jì)算所需內(nèi)容。

短短幾分鐘,GPT-4就完成了人類一天的工作,期間只有非常少的部分需要校驗(yàn),這也讓陶哲軒開始期待將AI集成到軟件工具中,尤其是處理90%以上的LaTeX編譯問(wèn)題。

我可以明確地說(shuō),今天是GPT4為我節(jié)省了大量繁瑣工作的第一天。

隨后,他開始使用GPT-4處理一些自己熟悉領(lǐng)域的數(shù)學(xué)問(wèn)題,比如下面這個(gè)問(wèn)題:證明遞歸式(定義R)能夠推導(dǎo)出a(n+1)。

GPT4從合作者的角度提出了八種不同方法,其中生成函數(shù)法引起了陶哲軒的注意,并隨即沿著該解決路徑,利用人工計(jì)算最終解決了這個(gè)問(wèn)題。而最初陶哲軒想使用的是漸近分析方法,但事實(shí)證明AI可以更快地協(xié)助找到正確方案。

與此同時(shí),他開始讓ChatGPT編寫Python來(lái)計(jì)算序列長(zhǎng)度,雖然與預(yù)期的目標(biāo)序列存在差異,只考慮到了連續(xù)整數(shù)的子序列而非任意子序列,但已經(jīng)足夠接近,而且其中在計(jì)算totient函數(shù)時(shí)還使用了非常獨(dú)到的方案。

但代碼本身有時(shí)也不夠簡(jiǎn)潔、效率不高,或者邏輯不夠嚴(yán)密,還是需要人工校正與重寫。

他還嘗試使用Copilot書寫數(shù)學(xué)論文,不過(guò)在攥寫證明大綱時(shí),AI陷入了長(zhǎng)篇敘述有關(guān)隨機(jī)分析數(shù)論的廢話,只有在編寫非常短或重復(fù)的文本上有效。

所以此時(shí)的AI在陶哲軒看來(lái),AI寫數(shù)學(xué)論文仍然是有趣多過(guò)于有用。

GPT-o1發(fā)布后,陶哲軒同樣第一時(shí)間測(cè)試了其數(shù)學(xué)能力,顯然相比于前代,GPT-o1的幻覺問(wèn)題得到解決,在形式化任務(wù)中也作用顯著,但在復(fù)雜分析問(wèn)題上仍然令人失望,沒(méi)有產(chǎn)生關(guān)鍵的概念思想。

陶哲軒將這一代模型定義為平庸但并非完全無(wú)能的數(shù)學(xué)“研究生”,而此前的模型則更接近為無(wú)能的“研究生”水平,不過(guò)他也相信再迭代一兩次,加上與其他工具的集成,AI將在研究級(jí)別的任務(wù)中大有所為。

而今年七月份,OpenAI斬獲IMO金牌一事讓AI的數(shù)學(xué)能力再次引起熱議,陶哲軒也對(duì)此做出了長(zhǎng)文回應(yīng),認(rèn)為缺乏統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn)。

但同時(shí)他也開始讓ChatGPT處理一些更為復(fù)雜的數(shù)學(xué)問(wèn)題,比如在判斷該集合是否是HA的子集時(shí),陶哲軒通過(guò)理論分析已經(jīng)確定該問(wèn)題的答案是否定的,但仍需要一些數(shù)值參數(shù)來(lái)驗(yàn)證部分不等式。

起初,直接要求AI提供一個(gè)Python代碼的反例,但由于初始參數(shù)問(wèn)題始終失敗,隨后陶哲軒調(diào)整策略轉(zhuǎn)而與AI逐步對(duì)話,使其執(zhí)行啟發(fā)式計(jì)算并找到可行的參數(shù)選擇,通過(guò)單獨(dú)驗(yàn)證生成的參數(shù),最終解決了該問(wèn)題。

陶哲軒總結(jié)認(rèn)為,在數(shù)值搜索這類任務(wù)上,AI工具顯然可以節(jié)省大量時(shí)間,如果沒(méi)有AI,甚至他可能都不會(huì)考慮這種解決方法,而是尋求理論漸進(jìn)分析。

而對(duì)于如何減少AI在數(shù)學(xué)問(wèn)題中的幻覺或廢話問(wèn)題,陶哲軒也顯然有了自己的一套心得,那就是在計(jì)算任務(wù)的每一步都做到詳細(xì)解釋,每一次和AI的對(duì)話都先確認(rèn)再執(zhí)行下一步,在對(duì)話結(jié)束后再使用Python進(jìn)行外部驗(yàn)證,得到輸出。

正如他一直所說(shuō)的那樣,AI正在重塑人類科學(xué)范式,其最合理的角色是成為數(shù)學(xué)家的“副駕駛”或助理,而不是取代人類在創(chuàng)造性、直覺性、策略性上的工作。

在AI的協(xié)助下,數(shù)學(xué)將在未來(lái)?yè)碛懈嗟膶?shí)驗(yàn),而不僅僅是理論。

論文地址:https://mathstodon.xyz/@tao/115351400633010670

參考鏈接:

[1]https://chatgpt.com/share/68e85cba-7228-800e-8804-a0f41aa64e14

[2]https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature

[3]https://terrytao.wordpress.com/mastodon-posts/

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

—  —

?? 年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評(píng)選報(bào)名開啟啦!我們正在尋找AI+時(shí)代領(lǐng)航者 點(diǎn)擊了解詳情

????? 企業(yè)、產(chǎn)品、人物3大維度,共設(shè)立了5類獎(jiǎng)項(xiàng),歡迎企業(yè)報(bào)名參與 ??

一鍵關(guān)注 ?? 點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見


相關(guān)內(nèi)容