日产精品久久久_m麻豆传媒映画_激情久久久久_久久爆操_久久在草_亚洲a久久

報告服務熱線400-068-7188

2025年中國多模態大模型行業核心技術現狀 關鍵在表征、翻譯、對齊、融合、協同技術【組圖】

分享到:
20 劉海晶 ? 2025-06-03 13:00:34  來源:前瞻產業研究院 E5480G0

行業主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態大模型的核心技術-表征

表征學習是多模態任務的基礎,其中包含了一些開放性問題,例如:如何結合來源不同的異質數據,如何處理不同模態的不同噪聲等級,測試樣本的某種模態缺失怎么辦。相較于多模態,基于單模態的表征學習已被廣泛且深入地研究。在Transformer出現之前,不同模態所適用的最佳表征學習模型不同,例如,CNN廣泛適用CV領域,LSTM占領NLP領域。較多的多模態工作仍舊局限在使用N個異質網絡單獨提取N個模態的特征,之后采用Joint或Coordinated結構進行訓練。不過這種思路在很快改變,隨著越來越多工作證實Transformer在CV和NLP以及Speech領域都可以獲得極佳的性能,僅使用Transformer統一多個模態、甚至多個跨模態任務成為可能。基于Transformer的多模態預訓練模型在2019年后噴涌而出。

圖表1:多模態大模型表征的聯合表示法和坐標表示法

注:聯合和協調表示的結構。點表示使用所有模態作為輸入投射到相同的空間,另一方面,協調表示存在于自己的空間中,但通過相似性(例如歐幾里得距離)或結構約束(例如偏序)進行協調。

多模態大模型的核心技術-翻譯

跨模態翻譯的目的是學習如何將源模態映射(map)到目標模態。例如:輸入一張圖像,我們希望生成一句話描述它,或者輸入一句話,我們生成與之匹配的一張圖。

基于語法模版,即人為設定多個針對目標模態的語法模版,將模型的預測結果插入模版中作為翻譯結果。以圖像描述為例,模版定義為who did what to whom in a place,其中有四個待替換的插槽。通過不同類型的目標/屬性/場景檢測器可以獲得who, what, whom, place等具體單詞,進而完成翻譯。

編碼-解碼器(encoder-decoder):首先將源模態的數據編碼為隱特征,后續被解碼器用于生成目標模態。以圖像描述為例,編碼器(一般為CNN+spatial pooling)將圖像編碼為一個或多個特征向量,進而輸入到RNN中以自回歸的方式生成單詞序列。

連續性生成(continuous generation):它針對源模態與目標模態都為流數據且在時間上嚴格對齊的任務。以文本合成語音為例,它與圖像描述不同,語音數據與文本數據在時間上嚴格對齊。WaveNet采用了CNN并行預測+CTC loss解決該類問題。當然,編碼-解碼器理論上也可完成該任務,但需處理數據對齊問題。

圖表2:多模態大模型表征的文本翻譯

多模態大模型的核心技術-對齊

對齊是多模態學習中的一個關鍵環節,它涉及如何在不同的數據模態之間發現和建立對應關系。通過對齊,多模態模型能夠學習到不同模態之間的相互表示,從而增強對復雜場景的理解能力。跨模態對齊目的是挖掘多模態數據的子元素之間的關聯性,例如visual grounding任務。在學習表征或翻譯時也可能隱式地學習對齊。

顯式對齊:此處對實例具有兩個或更多子組件的對齊進行分類。如何衡量相似性在顯式對齊中很重要。用于設計相似性度量的基于學習的方法可以分為無監督和監督。Unsupervised的大部分內容都受到統計機器翻譯和基因組測序等方法的啟發。一個典型的例子是動態時間扭曲(DTW)。使用CCA和高斯混合模型的監督方法已經被提出,但深度學習方法變得更加流行。

隱式對齊:與顯式對齊不同,隱式對齊用作其他任務中使用的潛在表示。這可用于提高沒有嚴格對齊的任務的方法的性能,例如VQA或機器翻譯。方法大致可分為圖模型和神經網絡。圖形模型已用于機器翻譯和語音現象對齊。然而,這些方法需要在單詞之間進行手動映射。神經網絡近年來得到了廣泛的應用,編碼器-解碼器模型可以解決這些傳統的機器翻譯問題。然而,如果不使用隱式對齊,對編碼器的要求會很大(需要熟練地將整個文檔和圖像轉換為潛在表示)。注意力機制是解決這個問題的一種眾所周知的方法。

多模態對齊目前處于其發展的非常初期階段,主要強調與人類指令的對齊,但忽略了如美德和社會規范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰。

圖表3:多模態大模型表征的對齊結構

多模態大模型的核心技術-融合

融合是將多模態數據或其特征結合在一起,以便進行統一的分析和決策。其核心在于如何有效結合不同模態的信息以增強學習任務的性能。融合是一個使用多種模式的數據進行預測的領域。最古老的多模式學習形式之一。優點包括能夠通過使用來自多種模態的數據進行更穩健的預測,以及即使某些模態的數據丟失也能夠進行預測。應用領域廣泛,包括視聽語音識別(AVSR)、情感識別、醫學圖像分析和多媒體事件檢測。這里,Fusion分為模型無關的和基于模型的。

早期融合(Early Fusion):在特征層面進行融合,將不同模態的特征早早地合并,以充分利用各模態的互補信息。

晚期融合(Late Fusion):在決策層面進行融合,即在模型輸出后再結合不同模態的結果,這有助于在最終決策時綜合考慮各模態的見解。

混合融合(Hybrid Fusion):結合早期和晚期融合的優點,可能在多個層面進行特征和決策的結合,以實現更靈活的信息整合。

多模態融合是依賴于任務和數據的,現有工作中常常是多種融合手段的堆積,并未真正統一的理論支撐。最近,神經網絡已成為處理多模態融合的一種非常流行的方式,然而圖形模型和多核學習仍然被使用,特別是在訓練數據有限或模型可解釋性很重要的任務中。

圖表4:多模態大模型的圖像融合

多模態大模型的核心技術-協同

協同學習是通過使用另一種模態(擁有大量數據)的數據來設計一種模態模型的過程。在共同學習中,來自另一種模式的數據僅在訓練期間使用,而不在測試期間使用。根據訓練時使用的數據資源,協同學習可以分為并行、非并行和混合。

并行學習:并行數據方法需要訓練數據集,其中來自一個模態的觀察直接與來自其他模態的觀察相關聯。換句話說,當多模態觀察來自相同的實例時,比如在一個音視頻語音數據集中,視頻和語音樣本來自同一說話者。

非并行協同學習:非并行數據方法不需要不同模態觀察之間的直接鏈接。這些方法通常通過在類別方面的重疊來實現協同學習。例如,在零樣本學習中,常規的視覺對象識別數據集可以通過擴展為包括來自維基百科的第二個純文本數據集,以提高視覺對象識別的泛化性能。

混合協同方法:在混合數據設置中,通過共享模態或數據集來連接模態。協同學習中使用的數據并行類型:并行-模式來自同一數據集,并且實例之間存在直接對應;非并行模式來自不同的數據集,沒有重疊的實例,但在一般類別或概念上有重疊;混合模式-實例或概念由第三種模式或數據集連接。

多模態協同學習允許一種模態影響另一種模態的訓練,利用跨模態的互補信息。值得注意的是,協同學習是與任務無關的,可以用于創建更好的融合、翻譯和對齊模型。這一挑戰可以通過諸如協同訓練、多模態表示學習、概念接地和零樣本學習(ZSL)等算法來解決,并已在視覺分類、動作識別、視聽語音識別和語義相似度估計等領域得到廣泛應用。

圖表5:多模態大模型表征的并行、非并行和混合協同方法

更多本行業研究分析詳見前瞻產業研究院《全球及中國多模態大模型行業發展前景與投資戰略規劃分析報告

同時前瞻產業研究院還提供產業新賽道研究投資可行性研究產業規劃園區規劃產業招商產業圖譜產業大數據智慧招商系統行業地位證明IPO咨詢/募投可研專精特新小巨人申報十五五規劃等解決方案。如需轉載引用本篇文章內容,請注明資料來源(前瞻產業研究院)。

更多深度行業分析盡在【前瞻經濟學人APP】,還可以與500+經濟學家/資深行業研究員交流互動。更多企業數據、企業資訊、企業發展情況盡在【企查貓APP】,性價比最高功能最全的企業查詢平臺。

前瞻產業研究院 - 深度報告 REPORTS

2025-2030年全球及中國多模態大模型行業發展前景與投資戰略規劃分析報告
2025-2030年全球及中國多模態大模型行業發展前景與投資戰略規劃分析報告

本報告前瞻性、適時性地對多模態大模型行業的發展背景、供需情況、市場規模、競爭格局等行業現狀進行分析,并結合多年來多模態大模型行業發展軌跡及實踐經驗,對多模態大...

查看詳情

本文來源前瞻產業研究院,內容僅代表作者個人觀點,本站只提供參考并不構成任何投資及應用建議。(若存在內容、版權或其它問題,請聯系:service@qianzhan.com) 品牌合作與廣告投放請聯系:0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報告中引用本篇文章數據,請聯系前瞻產業研究院,聯系電話:400-068-7188。

p45 q0 我要投稿

分享:

品牌、內容合作請點這里:尋求合作 ››

前瞻經濟學人

專注于中國各行業市場分析、未來發展趨勢等。掃一掃立即關注。

前瞻產業研究院

中國產業咨詢領導者,專業提供產業規劃、產業申報、產業升級轉型、產業園區規劃、可行性報告等領域解決方案,掃一掃關注。

前瞻數據庫
企查貓
作者 劉海晶
前瞻產業研究院研究員
2282105
關注
403
文章
19
前瞻經濟學人App二維碼

掃一掃下載APP

與資深行業研究員/經濟學家互動交流讓您成為更懂趨勢的人

研究員周關注榜

企查貓(企業查詢寶)App
×

掃一掃
下載《前瞻經濟學人》APP提問

 
在線咨詢
×
在線咨詢

項目熱線 0755-33015070

AAPP
前瞻經濟學人APP下載二維碼

下載前瞻經濟學人APP

關注我們
前瞻產業研究院微信號

掃一掃關注我們

我要投稿

×
J
主站蜘蛛池模板: 一区二区三区国产最好的精华液 | 好骚综合在线 | 99久久99久久免费精品蜜臀 | JAPANESE熟女JAPANESEMA| 久久99精品久久久久久久清纯 | 日韩二区在线观看 | 日韩午夜在线观看 | 国产妇女野外牲一级毛片 | 青青草天堂 | 乱码丰满人妻一二三区 | 亚洲国产精品综合久久20 | 91国产在线视频在线 | 国产色XX群视频射精 | 天堂精品在线 | 麻豆影视免费观看 | 久久国产精品网站 | 美女黄色一级毛片 | 香港三日本三级少妇三级视频 | 中文字幕999 | 韩国一级免费 | 漂亮人妻洗澡被强公bd | 日本一区二区久久免费黑人精品 | 7788理伦影院| 精品国产一区二区三区成人影院 | 亚洲AV色香蕉一区二区蜜桃 | 久久91在线 | 国产日韩欧美精品 | 日韩成人一级大片 | 久久精品av影视剧情播放 | 亚洲二区三区在星空传媒 | 国产一级a在线观看 | 亚洲人成在线观看网站不卡 | 懂色av中文一区二区三区 | 91久久久爱一区二区三区 | 熟妇人妻引诱中文字幕 | 小嫩嫩12欧美 | 最新欧美福利视频 | 国产在线不卡午夜精品2021 | 美景之屋3在线观看 | 麻豆第一页 | 国产人澡人澡澡澡人碰视频 |