當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 研究員專欄

大語言模型發(fā)展現(xiàn)狀及中外大語言模型發(fā)展?fàn)顩r對比中國大語言模型正處于追趕階段【組圖】

分享到：

黃皓月 ? 2024-06-14 14:08:41 　來源：前瞻產(chǎn)業(yè)研究院　E13090G0

行業(yè)主要上市公司：百川智能(A04400.SH)、昆侖萬維(300418.SZ)、拓維信息(002261.SZ)、浪潮信息(000977.SZ)、科大訊飛(002230.SZ)等

本文核心數(shù)據(jù)：國內(nèi)外主要大語言模型數(shù)據(jù);中外代碼預(yù)訓(xùn)練模型對比表;大語言模型研發(fā)技術(shù)國內(nèi)外主要研究機(jī)構(gòu)及代表性成果等

國內(nèi)外主要大語言模型數(shù)據(jù)集

得益于開源共創(chuàng)的互聯(lián)網(wǎng)生態(tài)，海外已有大量優(yōu)質(zhì)、結(jié)構(gòu)化的開源數(shù)據(jù)庫，文本來源既包含嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)寫作、百科知識，也包含文學(xué)作品、新聞媒體、社交網(wǎng)站、流行內(nèi)容等，更加豐富的語料數(shù)據(jù)能夠提高模型在不同情景下的對話能力。而受制于搭建數(shù)據(jù)集較高的成本以及尚未成熟的開源生態(tài)，國內(nèi)開源數(shù)據(jù)集在數(shù)據(jù)規(guī)模和語料質(zhì)量上相比海外仍有較大差距，數(shù)據(jù)來源較為單一，且更新頻率較低，從而導(dǎo)致模型的訓(xùn)練效果受限。因此，大模型廠商的自有數(shù)據(jù)和處理能力構(gòu)成模型訓(xùn)練效果差異化的核心。受益于移動互聯(lián)網(wǎng)時代積累的海量用戶、應(yīng)用和數(shù)據(jù)，互聯(lián)網(wǎng)企業(yè)在自有數(shù)據(jù)上更具特色化和獨占性，疊加更強(qiáng)大的數(shù)據(jù)處理能力，從而能夠通過數(shù)據(jù)優(yōu)勢帶來模型訓(xùn)練成果的差異。例如，阿里在研發(fā)M6時，構(gòu)建了最大的中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集M6-Corpus，包含超過1.9TB圖像和292GB文本，涵蓋百科全書、網(wǎng)頁爬蟲、問答、論壇、產(chǎn)品說明等數(shù)據(jù)來源，并設(shè)計了完善的清潔程序以確保數(shù)據(jù)質(zhì)量。百度ERNIE模型的訓(xùn)練數(shù)據(jù)集中也運用了大量百度百科、百度搜索以及百度知識圖譜等生態(tài)內(nèi)數(shù)據(jù)，通過更高質(zhì)量的數(shù)據(jù)保障了模型的訓(xùn)練效果。

圖表1：國內(nèi)外主要大語言模型數(shù)據(jù)集

代碼預(yù)訓(xùn)練模型正成為新的熱點

同樣，預(yù)訓(xùn)練語言模型就是預(yù)訓(xùn)練方法在自然語言處理領(lǐng)域中的應(yīng)用，本質(zhì)上是對自然語言的表示學(xué)習(xí)，是將自然語言轉(zhuǎn)化為讓機(jī)器可以處理的數(shù)據(jù)表達(dá)形式。預(yù)訓(xùn)練語言模型先通過大量的語料(通常是無標(biāo)注的數(shù)據(jù))進(jìn)行訓(xùn)練，得到一個通用的語言表征模型，然后再使用面向具體任務(wù)的少量語料，就可以完成下游任務(wù)的訓(xùn)練。近年來，代碼預(yù)訓(xùn)練模型正在成為一個新的熱點，并且與語言大模型的發(fā)展不可分割，這些模型在代碼相關(guān)任務(wù)上已經(jīng)展示了出色的性能。

圖表2：截至2024年中外代碼預(yù)訓(xùn)練模型對比表(單位：M，B，token，G)

注：該圖表數(shù)據(jù)截至2024年1月。

中國大語言模型研究已取得一定成果

語言大模型研發(fā)技術(shù)國內(nèi)外情況差異較大，盡管國內(nèi)大語言模型研究已取得了一定成果，但與美國仍然具有一定差距，尤其在端到端語言大模型研發(fā)技術(shù)，中國暫沒有比肩美國的成果。

圖表3：大語言模型研發(fā)技術(shù)國內(nèi)外主要研究機(jī)構(gòu)及代表性成果

國內(nèi)外主要大語言模型研發(fā)路徑與技術(shù)對比

在大語言模型(LLMs)的全球競技場中，ChatGPT與Google的Gopher、LaMDA，以及Meta的Llama等構(gòu)成了國際標(biāo)桿，而國內(nèi)則由百度的“文心一言”、360的大語言模型、阿里的“通義千問”和商湯的“商量”等引領(lǐng)潮流。從對話和文本生成能力的角度，ChatGPT暫居優(yōu)勢，但這并非因為技術(shù)壁壘不可逾越。實際上，Google等國外企業(yè)因戰(zhàn)略和技術(shù)理念選擇了不同的發(fā)展路徑，這是其暫時落后的主因。隨著新技術(shù)的不斷涌現(xiàn)，趕超ChatGPT并非不可能。相對而言，百度等國內(nèi)企業(yè)在數(shù)據(jù)集、計算能力和工程化方面存在短板，短期內(nèi)難以實現(xiàn)對國外模型的迎頭趕上，這更多地需要國內(nèi)AI產(chǎn)業(yè)全鏈條的協(xié)同進(jìn)步。

在影響大語言模型性能的因素方面，訓(xùn)練數(shù)據(jù)、模型規(guī)模(即參數(shù)數(shù)量)、生成算法和優(yōu)化技術(shù)被認(rèn)為是核心變量。然而，如何準(zhǔn)確量化這些因素對模型性能的具體影響，目前還處于探索階段，沒有明確的結(jié)論。總體來看，世界頂級的大語言模型在技術(shù)層面上尚未拉開明顯的差距。

圖表4：截至2024年國內(nèi)外主要大語言模型研發(fā)路徑與技術(shù)對比

注：該圖表數(shù)據(jù)截至2024年1月。

國內(nèi)外大語言模型商業(yè)化路徑對比

在戰(zhàn)略業(yè)務(wù)拓展方面，ChatGPT已經(jīng)形成了明確且差異化的商業(yè)路線，主要圍繞API、訂閱制和戰(zhàn)略合作(例如與微軟的Bing、Office等軟件的嵌入合作)三大營收模式，在用戶數(shù)據(jù)積累、產(chǎn)品布局和生態(tài)建設(shè)等方面已具備明顯的先發(fā)優(yōu)勢。而Google由于其主營業(yè)務(wù)是搜索引擎，對于聊天機(jī)器人等產(chǎn)品的發(fā)展相對保守，更注重利用大模型能力來推動“模型即服務(wù)”范式，以拓展其在云服務(wù)市場的份額。作為國內(nèi)大模型的標(biāo)桿企業(yè)，百度的戰(zhàn)略更接近Google，主要針對B端市場，通過全棧優(yōu)勢來構(gòu)建全鏈能力

圖表5：國內(nèi)外主要大語言模型商業(yè)化進(jìn)展對比

更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《中國大模型產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》。

同時前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)大數(shù)據(jù)、產(chǎn)業(yè)研究報告、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容，請注明資料來源（前瞻產(chǎn)業(yè)研究院）。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】，還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】，性價比最高功能最全的企業(yè)查詢平臺。

前瞻產(chǎn)業(yè)研究院 - 深度報告 REPORTS

2024-2029年中國大模型產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告

本報告前瞻性、適時性地對大模型產(chǎn)業(yè)的發(fā)展背景、供需情況、市場規(guī)模、競爭格局等行業(yè)現(xiàn)狀進(jìn)行分析，并結(jié)合多年來大模型產(chǎn)業(yè)發(fā)展軌跡及實踐經(jīng)驗，對大模型產(chǎn)業(yè)未來的發(fā)展...

查看詳情

本文來源前瞻產(chǎn)業(yè)研究院，內(nèi)容僅代表作者個人觀點，本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報告中引用本篇文章數(shù)據(jù)，請聯(lián)系前瞻產(chǎn)業(yè)研究院，聯(lián)系電話：400-068-7188。

p47 q0 我要投稿

標(biāo)簽：大語言模型發(fā)展現(xiàn)狀中外對比

品牌、內(nèi)容合作請點這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。