當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟學(xué)人 ? 研究員專欄

2025年中國多模態(tài)大模型行業(yè)主要模型主要多模態(tài)大模型處理能力表現(xiàn)出色【組圖】

分享到：

黃纓杰 ? 2025-05-22 15:00:52 　來源：前瞻產(chǎn)業(yè)研究院　E57726G0

行業(yè)主要上市公司：阿里巴巴(09988.HK，BABA.US);百度(09888.HK，BIDU.US);騰訊(00700.HK， TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型類型及綜合對比

視覺+語言的多模態(tài)大模型目前主流方法是：借助預(yù)訓(xùn)練好的大語言模型和圖像編碼器，用一個圖文特征對齊模塊來連接，從而讓語言模型理解圖像特征并進行更深層的問答推理。這樣可以利用已有的大量單模態(tài)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的單模態(tài)模型，減少對于高質(zhì)量圖文對數(shù)據(jù)的依賴，并通過特征對齊、指令微調(diào)等方式打通兩個模態(tài)的表征。

圖表1：多模態(tài)大模型類型及綜合對比

多模態(tài)大模型類型-CLIP

CLIP是OpenAI提出的連接圖像和文本特征表示的對比學(xué)習(xí)方法。CLIP是利用文本信息訓(xùn)練一個可以實現(xiàn)zero-shot的視覺模型。利用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去做分類。具體來說，給網(wǎng)絡(luò)一堆分類標(biāo)簽，比如cat，dog，bird，利用文本編碼器得到向量表示。然后分別計算這些標(biāo)簽與圖片的余弦相似度;最終相似度最高的標(biāo)簽即是預(yù)測的分類結(jié)果。論文提到，相比于單純地給定分類標(biāo)簽，給定一個句子的分類效果更好。比如一種句子模板A photo of a.，后面填入分類標(biāo)簽。這種句子模板叫做 prompt(提示)。句子模板的選擇很有講究，還專門討論了prompt engineering，測試了好多種類的句子模板。提示信息有多種，下圖可以看到它用不同的類別替換一句話中不同的詞，形成不同的標(biāo)簽。

圖表2：多模態(tài)大模型類型一：CLIP

多模態(tài)大模型類型-Flamingo

Flamingo是一門多模態(tài)大型語言模型 (LLM)于 2022年推出。視覺和語言組件的工作原理如下：視覺編碼器將圖像或視頻轉(zhuǎn)換為嵌入(數(shù)字列表)。與CLIP不同，F(xiàn)lamingo可以生成文本響應(yīng)。從簡化的角度來看，F(xiàn)lamingo是 CLIP +語言模型，并添加了技術(shù)，使語言模型能夠根據(jù)視覺和文本輸入生成文本標(biāo)記。Flamingo的4個數(shù)據(jù)集：2個(圖像、文本)對數(shù)據(jù)集、1個(視頻、文本)對數(shù)據(jù)集和1個交錯的圖像和文本數(shù)據(jù)集。

圖表3：多模態(tài)大模型類型二：Flamingo

多模態(tài)大模型類型- BLIP

BLIP(Bootstrapping Language-lmage Pretraining)是由Salesforce在2022年提出的多模態(tài)預(yù)訓(xùn)練模型，它旨在統(tǒng)一視覺語言任務(wù)的理解與生成能力，并通過對噪聲數(shù)據(jù)的處理來提高模型性能口。BLIP的創(chuàng)新主要有兩個方面：與CLIP相比，BLIP不僅處理圖像和文本的對齊問題，還旨在解決包括圖像生成、視覺問答和圖像描述等更復(fù)雜的任務(wù)。BLIP采用了“引導(dǎo)學(xué)習(xí)”的方式，通過自監(jiān)督的方式來增強模型對語言和視覺信息的理解。這些特點使其在處理圖像和文本數(shù)據(jù)方面展現(xiàn)了卓越的性能，成為眾多領(lǐng)域解決復(fù)雜問題的強大工具。

圖表4：多模態(tài)大模型類型三：BLIP

多模態(tài)大模型類型-LLaMA

使用視覺編碼器CLIP ViT-L/14+語言解碼器LLaMA構(gòu)成多模態(tài)大模型，然后使用生成的數(shù)據(jù)進行指令微調(diào)。輸入圖片X經(jīng)過與訓(xùn)練好的視覺編碼器的到圖片特征Z，圖片特征Z經(jīng)過一個映射矩陣W轉(zhuǎn)化為視覺Token H，這樣Vison Token Hv與Language Token Hq指令就都在同一個特征空間，拼接后一起輸入大模型。這里的映射層W也可以替換為更復(fù)雜的網(wǎng)絡(luò)來提升性能，比如Flamingo中用的gated cross-attentio，BLIP-2中用的Q-former。

圖表5：多模態(tài)大模型類型四：LLaVA

更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》

同時前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究、投資可行性研究、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容，請注明資料來源（前瞻產(chǎn)業(yè)研究院）。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟學(xué)人APP】，還可以與500+經(jīng)濟學(xué)家/資深行業(yè)研究員交流互動。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】，性價比最高功能最全的企業(yè)查詢平臺。

前瞻產(chǎn)業(yè)研究院 - 深度報告 REPORTS

2025-2030年全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告

本報告前瞻性、適時性地對多模態(tài)大模型行業(yè)的發(fā)展背景、供需情況、市場規(guī)模、競爭格局等行業(yè)現(xiàn)狀進行分析，并結(jié)合多年來多模態(tài)大模型行業(yè)發(fā)展軌跡及實踐經(jīng)驗，對多模態(tài)大...

查看詳情

本文來源前瞻產(chǎn)業(yè)研究院，內(nèi)容僅代表作者個人觀點，本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報告中引用本篇文章數(shù)據(jù)，請聯(lián)系前瞻產(chǎn)業(yè)研究院，聯(lián)系電話：400-068-7188。

p10 q0 我要投稿

標(biāo)簽：多模態(tài)大模型主要模型

品牌、內(nèi)容合作請點這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。