日产精品久久久_m麻豆传媒映画_激情久久久久_久久爆操_久久在草_亚洲a久久

報告服務熱線400-068-7188

大語言模型發展現狀及中外大語言模型發展狀況對比 中國大語言模型正處于追趕階段【組圖】

分享到:
20 黃皓月 ? 2024-06-14 14:08:41  來源:前瞻產業研究院 E12448G0

行業主要上市公司:百川智能(A04400.SH)、昆侖萬維(300418.SZ)、拓維信息(002261.SZ)、浪潮信息(000977.SZ)、科大訊飛(002230.SZ)等

本文核心數據:國內外主要大語言模型數據;中外代碼預訓練模型對比表;大語言模型研發技術國內外主要研究機構及代表性成果等

國內外主要大語言模型數據集

得益于開源共創的互聯網生態,海外已有大量優質、結構化的開源數據庫,文本來源既包含嚴謹的學術寫作、百科知識,也包含文學作品、新聞媒體、社交網站、流行內容等,更加豐富的語料數據能夠提高模型在不同情景下的對話能力。而受制于搭建數據集較高的成本以及尚未成熟的開源生態,國內開源數據集在數據規模和語料質量上相比海外仍有較大差距,數據來源較為單一,且更新頻率較低,從而導致模型的訓練效果受限。因此,大模型廠商的自有數據和處理能力構成模型訓練效果差異化的核心。受益于移動互聯網時代積累的海量用戶、應用和數據,互聯網企業在自有數據上更具特色化和獨占性,疊加更強大的數據處理能力,從而能夠通過數據優勢帶來模型訓練成果的差異。例如,阿里在研發M6時,構建了最大的中文多模態預訓練數據集M6-Corpus,包含超過1.9TB圖像和292GB文本,涵蓋百科全書、網頁爬蟲、問答、論壇、產品說明等數據來源,并設計了完善的清潔程序以確保數據質量。百度ERNIE模型的訓練數據集中也運用了大量百度百科、百度搜索以及百度知識圖譜等生態內數據,通過更高質量的數據保障了模型的訓練效果。

圖表1:國內外主要大語言模型數據集

代碼預訓練模型正成為新的熱點

同樣,預訓練語言模型就是預訓練方法在自然語言處理領域中的應用,本質上是對自然語言的表示學習,是將自然語言轉化為讓機器可以處理的數據表達形式。預訓練語言模型先通過大量的語料(通常是無標注的數據)進行訓練,得到一個通用的語言表征模型,然后再使用面向具體任務的少量語料,就可以完成下游任務的訓練。近年來,代碼預訓練模型正在成為一個新的熱點,并且與語言大模型的發展不可分割,這些模型在代碼相關任務上已經展示了出色的性能。

圖表2:截至2024年中外代碼預訓練模型對比表(單位:M,B,token,G)

注:該圖表數據截至2024年1月。

中國大語言模型研究已取得一定成果

語言大模型研發技術國內外情況差異較大,盡管國內大語言模型研究已取得了一定成果,但與美國仍然具有一定差距,尤其在端到端語言大模型研發技術,中國暫沒有比肩美國的成果。

圖表3:大語言模型研發技術國內外主要研究機構及代表性成果

國內外主要大語言模型研發路徑與技術對比

在大語言模型(LLMs)的全球競技場中,ChatGPT與Google的Gopher、LaMDA,以及Meta的Llama等構成了國際標桿,而國內則由百度的“文心一言”、360的大語言模型、阿里的“通義千問”和商湯的“商量”等引領潮流。從對話和文本生成能力的角度,ChatGPT暫居優勢,但這并非因為技術壁壘不可逾越。實際上,Google等國外企業因戰略和技術理念選擇了不同的發展路徑,這是其暫時落后的主因。隨著新技術的不斷涌現,趕超ChatGPT并非不可能。相對而言,百度等國內企業在數據集、計算能力和工程化方面存在短板,短期內難以實現對國外模型的迎頭趕上,這更多地需要國內AI產業全鏈條的協同進步。

在影響大語言模型性能的因素方面,訓練數據、模型規模(即參數數量)、生成算法和優化技術被認為是核心變量。然而,如何準確量化這些因素對模型性能的具體影響,目前還處于探索階段,沒有明確的結論。總體來看,世界頂級的大語言模型在技術層面上尚未拉開明顯的差距。

圖表4:截至2024年國內外主要大語言模型研發路徑與技術對比

注:該圖表數據截至2024年1月。

國內外大語言模型商業化路徑對比

在戰略業務拓展方面,ChatGPT已經形成了明確且差異化的商業路線,主要圍繞API、訂閱制和戰略合作(例如與微軟的Bing、Office等軟件的嵌入合作)三大營收模式,在用戶數據積累、產品布局和生態建設等方面已具備明顯的先發優勢。而Google由于其主營業務是搜索引擎,對于聊天機器人等產品的發展相對保守,更注重利用大模型能力來推動“模型即服務”范式,以拓展其在云服務市場的份額。作為國內大模型的標桿企業,百度的戰略更接近Google,主要針對B端市場,通過全棧優勢來構建全鏈能力

圖表5:國內外主要大語言模型商業化進展對比

更多本行業研究分析詳見前瞻產業研究院《中國大模型產業發展前景與投資戰略規劃分析報告》。

同時前瞻產業研究院還提供產業大數據產業研究報告產業規劃園區規劃產業招商產業圖譜智慧招商系統行業地位證明IPO咨詢/募投可研專精特新小巨人申報十五五規劃等解決方案。如需轉載引用本篇文章內容,請注明資料來源(前瞻產業研究院)。

更多深度行業分析盡在【前瞻經濟學人APP】,還可以與500+經濟學家/資深行業研究員交流互動。更多企業數據、企業資訊、企業發展情況盡在【企查貓APP】,性價比最高功能最全的企業查詢平臺。

前瞻產業研究院 - 深度報告 REPORTS

2024-2029年中國大模型產業發展前景與投資戰略規劃分析報告
2024-2029年中國大模型產業發展前景與投資戰略規劃分析報告

本報告前瞻性、適時性地對大模型產業的發展背景、供需情況、市場規模、競爭格局等行業現狀進行分析,并結合多年來大模型產業發展軌跡及實踐經驗,對大模型產業未來的發展...

查看詳情

本文來源前瞻產業研究院,內容僅代表作者個人觀點,本站只提供參考并不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯系:service@qianzhan.com) 品牌合作與廣告投放請聯系:0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報告中引用本篇文章數據,請聯系前瞻產業研究院,聯系電話:400-068-7188。

p47 q0 我要投稿

分享:

品牌、內容合作請點這里:尋求合作 ››

前瞻經濟學人

專注于中國各行業市場分析、未來發展趨勢等。掃一掃立即關注。

前瞻產業研究院

中國產業咨詢領導者,專業提供產業規劃、產業申報、產業升級轉型、產業園區規劃、可行性報告等領域解決方案,掃一掃關注。

前瞻數據庫
企查貓
作者 黃皓月
產業研究員、分析師
902127
關注
187
文章
1
前瞻經濟學人App二維碼

掃一掃下載APP

與資深行業研究員/經濟學家互動交流讓您成為更懂趨勢的人

研究員周關注榜

企查貓(企業查詢寶)App
×

掃一掃
下載《前瞻經濟學人》APP提問

 
在線咨詢
×
在線咨詢

項目熱線 0755-33015070

AAPP
前瞻經濟學人APP下載二維碼

下載前瞻經濟學人APP

關注我們
前瞻產業研究院微信號

掃一掃關注我們

我要投稿

×
J
主站蜘蛛池模板: 天堂网在线.www天堂在线资源 | 精品av一区二区 | 久久福利视频网 | 亚洲AV无码国产丝袜在线观看 | 我爱avav好色 | 一级毛片一级毛片一级毛片一级毛片 | 影音先锋中文字幕亚洲资源站 | 国产又粗又硬又长又爽的视频 | 少妇奶水亚洲一区二区观看 | 成全动漫在线观看免费高清 | 成人动漫网站入口 | 亚洲一级毛片免费观看 | 欧洲黄色录像 | 中国杭州少妇xxxx做受 | 欧美成人精品一区二区三区 | 免费在线成人av | 国产一区亚洲二区三区 | av片免费 | 天天干少妇 | 国产成人精品a视频一区www | 性夜久久一区国产9人妻 | 91男女 | 亚洲AV无码一区二区三区人妖 | 欧美做爰又粗又大免费看软件 | 国产麻豆果冻在线播放 | 无码人妻一区二区三区线 | 女人被草视频 | 亚洲aⅴ影视 | 亚洲中文字幕aⅴ无码天堂 亚洲美女一区二区三区 | 999www人成免费视频 | 国产欧美日韩网站 | 亚洲AV无码国产丝袜在线观看 | 日韩成人免费中文字幕 | 亚洲国产亚洲国产亚洲 | 黄色毛片a级| 2020久久香蕉国产线看观看 | 久久亚色 | 97久久精品人人澡人人爽 | 99精品国产99久久久久久福利 | 亚洲一区二区三区无码 | 亚洲一区二区三区在线观看精品中文 |