2023年中國數(shù)字人行業(yè)技術(shù)發(fā)展現(xiàn)狀 主要分兩大技術(shù)流程【組圖】
行業(yè)主要上市公司:科大訊飛(002230)、藍(lán)色光標(biāo)(300058)、歌力思(603808)、芒果超媒(300413)、博瑞傳播(600880)、虹軟科技(688088)、騰訊(00700)、百度(BIDU)等
本文核心數(shù)據(jù):數(shù)字人專利相關(guān)統(tǒng)計(jì)數(shù)據(jù)。
智慧芽統(tǒng)計(jì)口徑說明:1)搜索關(guān)鍵詞:數(shù)字人及與之相近似或相關(guān)關(guān)鍵詞;2)搜索范圍:標(biāo)題、摘要和權(quán)利說明;3)篩選條件:簡(jiǎn)單同族申請(qǐng)去重、法律狀態(tài)為實(shí)質(zhì)審查、授權(quán)、PCT國際公布、PCT進(jìn)入指定國(指定期),簡(jiǎn)單同族申請(qǐng)去重是按照受理局進(jìn)行統(tǒng)計(jì);行業(yè)篩選參考數(shù)字經(jīng)濟(jì)分類對(duì)應(yīng)國民經(jīng)濟(jì)分類。4)統(tǒng)計(jì)截至日期:2022年11月21日。5)若有特殊統(tǒng)計(jì)口徑會(huì)在圖表下方備注。下同。
數(shù)字人系統(tǒng)框架:由五大模塊構(gòu)成
虛擬數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動(dòng)畫生成、音視頻合成顯示、交互等5個(gè)模塊構(gòu)成。人物形象根據(jù)人物圖形資源的維度,可分為2D和3D兩大類,從外形上又可分為卡通、擬人、寫實(shí)、超寫實(shí)等風(fēng)格,這部分主要由建模技術(shù)生成;語音生成模塊和動(dòng)畫生成模塊可分別基于文本生成對(duì)應(yīng)的人物語音以及與之相匹配的人物動(dòng)畫;音視頻合成顯示模塊將語音和動(dòng)畫合成視頻,再顯示給用戶。交互模塊使數(shù)字人具備交互功能,即通過語音語義識(shí)別等智能技術(shù)識(shí)別用戶的意圖,并根據(jù)用戶當(dāng)前意圖決定數(shù)字人后續(xù)的語音和動(dòng)作,驅(qū)動(dòng)人物開啟下一輪交互。
真人驅(qū)動(dòng)型數(shù)字人技術(shù)流程:CG技術(shù)的進(jìn)一步延續(xù)
在真人驅(qū)動(dòng)中,在完成原畫建模和關(guān)鍵點(diǎn)綁定后,動(dòng)捕設(shè)備或攝像頭將基于真人的動(dòng)作/表情等驅(qū)動(dòng)虛擬數(shù)字人。
由于背后有真人操作,真人驅(qū)動(dòng)型在動(dòng)作靈活度、互動(dòng)效果等方面有明顯優(yōu)勢(shì),一方面能夠在影視內(nèi)容的創(chuàng)作中減低生產(chǎn)成本,為影視行業(yè)降低門檻,推動(dòng)影視級(jí)內(nèi)容向消費(fèi)級(jí)轉(zhuǎn)化。另一方面則多用于虛擬偶像、重要直播中,幫助虛擬數(shù)字人完成大型直播、現(xiàn)場(chǎng)路演等互動(dòng)性、碎片化活動(dòng)。
事實(shí)上,這種技術(shù)思路可以看作是傳統(tǒng)影視制作中,CG技術(shù)的進(jìn)一步延續(xù)。近年來主要的技術(shù)突破在于動(dòng)作捕捉環(huán)節(jié)。隨著圖像識(shí)別技術(shù),姿勢(shì)、表情等識(shí)別算法的進(jìn)步,昂貴的慣性或光學(xué)動(dòng)捕設(shè)備不再是驅(qū)動(dòng)的必備工具。普通攝像頭結(jié)合理想的識(shí)別算法通用能實(shí)現(xiàn)較為精準(zhǔn)的驅(qū)動(dòng)(如iPhone 12攝像頭已可支持簡(jiǎn)單的動(dòng)作捕捉),顯著降低了精細(xì)虛擬內(nèi)容生成的門檻。
算法驅(qū)動(dòng)型數(shù)字人技術(shù)流程:依賴深度學(xué)習(xí)模型
在計(jì)算驅(qū)動(dòng)型中,虛擬數(shù)字人的語音表達(dá)、面部表情、具體動(dòng)作將主要通過深度學(xué)習(xí)模型的運(yùn)算結(jié)果實(shí)時(shí)或離線驅(qū)動(dòng),在渲染后實(shí)現(xiàn)最終效果。
計(jì)算驅(qū)動(dòng)的虛擬數(shù)字人最終效果受到語音合成(語音表述在韻律、情感、流暢度等方面是否符合真人發(fā)聲習(xí)慣)、NLP技術(shù)(與使用者的語言交互是否順暢、是否能夠理解使用者需求)、語音識(shí)別(能否準(zhǔn)確識(shí)別使用者需求)等技術(shù)的共同影響。盡管在特定方向上,各感知類技術(shù)已有的商業(yè)化能力已足以支撐,然而,但要達(dá)成理想的綜合效果,需要該公司在三個(gè)方面同時(shí)具有較強(qiáng)的綜合能力。這也間接導(dǎo)致國內(nèi)開展計(jì)算驅(qū)動(dòng)型虛擬數(shù)字人業(yè)務(wù)的公司,大多是在感知技術(shù)方面有較強(qiáng)的綜合實(shí)力,相對(duì)成熟的AI技術(shù)公司。
專利布局:網(wǎng)易專利申請(qǐng)數(shù)量最多,游戲領(lǐng)域?qū)@急容^大
——熱門申請(qǐng)人:網(wǎng)易專利申請(qǐng)數(shù)量最多
中國數(shù)字人領(lǐng)域?qū)@暾?qǐng)數(shù)量TOP10申請(qǐng)人分別是網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司、騰訊科技(深圳)有限公司、北京達(dá)佳互聯(lián)信息技術(shù)有限公司、北京字跳網(wǎng)絡(luò)技術(shù)有限公司、維沃移動(dòng)通信有限公司、北京百度網(wǎng)訊科技有限公司、OPPO廣東移動(dòng)通信有限公司、抖音視界有限公司、廣州方硅信息技術(shù)有限公司、華為技術(shù)有限公司。
其中,網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司在數(shù)字人領(lǐng)域?qū)@暾?qǐng)數(shù)量最多,公司專利數(shù)量達(dá)1535項(xiàng),騰訊科技(深圳)有限公司排名第二,其數(shù)字人領(lǐng)域?qū)@暾?qǐng)數(shù)量達(dá)1295項(xiàng)。
——技術(shù)構(gòu)成:與游戲相關(guān)的專利占比超20%
從技術(shù)構(gòu)成來看,目前“A63F13 視頻游戲,即使用二維或多維電子顯示器的游戲〔7,2014.01〕[2014.01]”申請(qǐng)數(shù)量最多,達(dá)到3101項(xiàng),占前十大技術(shù)總量比重23.62%;其次為“G06F3 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置〔4〕[2006.01]”,專利數(shù)量達(dá)到2442項(xiàng),占前十大技術(shù)總量的比例達(dá)18.6%。
更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《中國數(shù)字人產(chǎn)業(yè)發(fā)展前景預(yù)測(cè)與投資戰(zhàn)略規(guī)劃分析報(bào)告》,同時(shí)前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)大數(shù)據(jù)、產(chǎn)業(yè)研究、政策研究、產(chǎn)業(yè)鏈咨詢、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商引資、IPO募投可研、IPO業(yè)務(wù)與技術(shù)撰寫、IPO工作底稿咨詢等解決方案。
更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】,還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動(dòng)。
前瞻產(chǎn)業(yè)研究院 - 深度報(bào)告 REPORTS
本報(bào)告前瞻性、適時(shí)性地對(duì)數(shù)字人產(chǎn)業(yè)的發(fā)展背景、供需情況、市場(chǎng)規(guī)模、競(jìng)爭(zhēng)格局等行業(yè)現(xiàn)狀進(jìn)行分析,并結(jié)合多年來數(shù)字人產(chǎn)業(yè)發(fā)展軌跡及實(shí)踐經(jīng)驗(yàn),對(duì)數(shù)字人產(chǎn)業(yè)未來的發(fā)展...
如在招股說明書、公司年度報(bào)告中引用本篇文章數(shù)據(jù),請(qǐng)聯(lián)系前瞻產(chǎn)業(yè)研究院,聯(lián)系電話:400-068-7188。
品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››
前瞻經(jīng)濟(jì)學(xué)人
專注于中國各行業(yè)市場(chǎng)分析、未來發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。