商湯絕影許亮:和汽車"商量" 創(chuàng)建艙內(nèi)場景新生態(tài) 世界報資訊

版權聲明:本文版權為網(wǎng)易汽車所有,轉載請注明出處。


(資料圖片僅供參考)

網(wǎng)易汽車4月21日報道4月18日,以“擁抱汽車行業(yè)新時代”為主題的2023第二十屆上海國際汽車工業(yè)展覽會正式拉開帷幕。網(wǎng)易汽車邀請各位高端行業(yè)精英走進訪談間,共同探討汽車產(chǎn)業(yè)轉型下的品牌破局與新生,把脈行業(yè)發(fā)展新趨勢。今天來到網(wǎng)易汽車訪談間的是商湯絕影智能車艙副總裁許亮。

商湯絕影智能車艙副總裁許亮

以下為訪談實錄:

網(wǎng)易汽車:各位網(wǎng)友大家好,這里是2023年上海車展網(wǎng)易汽車訪談間的現(xiàn)場,今天我們有幸邀請到的是商湯絕影智能車艙副總裁許亮,許先生您好,跟我們的網(wǎng)友打個招呼吧。

許亮:大家好,我是來自于商湯絕影的許亮。

網(wǎng)易汽車:這次上海車展商湯絕影特別打造了一個智能的未來展示艙,您可以給我們介紹一下有哪些亮點嗎?

許亮:其實我們?yōu)槭裁唇形磥碚故九??因為在整個商湯絕影的發(fā)展過程中,我們最近的研發(fā)有了重大突破,所以我們這次上海展覽給大家?guī)砹烁嗟男碌漠a(chǎn)品體驗。所以圍繞著智能車艙我們有兩個方面的闡述,一個是我們在這里面加了很多新品發(fā)布的最新功能,包括我們的六大新品,像我們的air touch,就是隔空手勢,包括我們的AR K歌,在座艙里面去唱卡拉OK,包括我們的智能屏保,還有一些娛樂的全新功能,都帶來了現(xiàn)場。整個我們座艙里面是把這些新品融入到了我們接下來可能會實現(xiàn)大規(guī)模產(chǎn)業(yè)化的這樣一個創(chuàng)新的體現(xiàn)。 第二是大家知道,最近人工智能的大模型這個領域內(nèi)是非?;鸬?,那我們商湯科技在4月10號也舉辦了技術交流日,公布了我們最新的日日新大模型體系,圍繞這個模型我們有很多垂直領域內(nèi)的細分的應用。比如說像我們語言大模型、包含多輪的對話能力,叫做商量,商量商量都能解決。其實在座艙內(nèi),我們今年就把這樣一個多輪對話的體系商量帶到了座艙內(nèi),大家感興趣可以到我們現(xiàn)場去體驗。除了這個以外,在內(nèi)容生成方面,我們推出了這個產(chǎn)品叫秒畫,秒畫就是在很短的時間內(nèi),用一些關鍵詞就可以生成一些跟關鍵詞非常貼切的圖片。我們也把這樣的能力帶到了我們的座艙內(nèi),這個就是將最新的研發(fā)成果和我們的座艙相結合,我相信這兩類創(chuàng)新在我們的未來座艙內(nèi)都可以看到,也歡迎大家到我們的展臺來。

網(wǎng)易汽車:我也了解到已經(jīng)有很多車型搭載了我們商湯絕影智能車艙產(chǎn)品,有沒有哪些車型可以給我們舉一兩個例子呢?

許亮:那非常多了,首先我是非常高興的,因為智能汽車的發(fā)展也給了我們?nèi)斯ぶ悄芷髽I(yè)快速把我們的創(chuàng)新成果落到汽車內(nèi),實現(xiàn)產(chǎn)業(yè)化的基礎。在過去幾年內(nèi),我們商湯絕影一共開發(fā)了三十多款全新的產(chǎn)品,為智能汽車座艙特別定制的產(chǎn)品。在此過程中我們也得到了很多客戶的認可,我們?yōu)閲鴥?nèi)三十多家客戶提供了不同的解決方案。那么以這次車展為例,像我們重要的合作伙伴之一蔚來汽車,他就有很多新品發(fā)布,以ES7為例,這上面有很多的解決方案都是我們商湯絕影提供的。大家知道蔚來是非常注重客戶體驗的車企,那在我們開發(fā)這樣的座艙產(chǎn)品視覺算法的時候,我們更多會考慮它的用戶需求和產(chǎn)品定義。比如我們在里面會實現(xiàn)管柱自標定這樣的一個全新的技術,因為我們的相機是固定在方向盤管柱上面的,那么在整個轉動方向盤的過程中,我們必須保證算法的可靠性,這個在行業(yè)內(nèi)其實都是很優(yōu)秀的。

除了這個以外呢,比如說我們另外的合作伙伴像長安,長安逸達(參數(shù)丨圖片)的產(chǎn)品,其實我們每年除了提供完整的智能車艙的駕駛員的保護系統(tǒng)之外,我們還創(chuàng)新的把我們的健康檢測系統(tǒng),就是用相機來判定駕駛員的健康狀態(tài),比如他的心率、呼吸頻率,整個在駕駛過程中給你一些保護,如果發(fā)現(xiàn)一些異常情況就會給你一些提醒,或者說及時的就醫(yī)。除了這個以外,我們也有比較炫酷的像手勢,包括美顏相機這樣的產(chǎn)品,也帶到了長安逸達上面去。類似的案例非常多,我們最重要的一點就是,人工智能的發(fā)展速度非???,我們這三十多種創(chuàng)新的產(chǎn)品真正是找到了一些比較好的合作伙伴,實現(xiàn)了大規(guī)模的產(chǎn)業(yè)化落地。我相信在接下來的兩到三年之內(nèi),我們會在市面上看到越來越多的產(chǎn)品搭載了我們商湯絕影的解決方案,這是非常令人高興的事。

網(wǎng)易汽車:剛才您也提到了一個唇語唇動的識別功能,能跟我們網(wǎng)友們介紹一下這個功能是怎么體現(xiàn)的嗎?

許亮:唇語唇動相對來說在行業(yè)內(nèi)還是比較新的,我可以簡單講一下它的背景和目標,以及它的技術原理。從背景上來講,我們現(xiàn)在座艙內(nèi)的交互體驗大規(guī)模的采用了語音識別的技術,這個技術的產(chǎn)業(yè)化發(fā)展已經(jīng)十幾年了,相對比較成熟了。但是這個中間有一個比較大的痛點,就是我們在開車過程中,如果我窗戶降下來背景噪音比較大,或者說艙內(nèi)頻繁有人說話互相干擾的時候,它的語音識別相對來說就會有降低精度的可能。我們做過一些簡單的測算,在一些背景噪音比較大的情況下,它的召喚率可能只有40%,為了提高用戶的進一步交互體驗,需要去解決這個痛點,所以就給唇語唇動帶來了這樣一個新的機會。

那唇語唇動的價值是,比如說我們可以識別到座艙內(nèi)的位置,具體是哪一個位置的人在說話?包括他說了什么話?這個其實是有很多交互的。以駕駛員為例,即使旁邊有很大的噪音,或者說是窗外的風噪、胎噪很大,召喚率40%多的時候,我們加上唇語唇動的識別,加上語音的識別這樣一個技術,我們可以把我們的召喚率提升到80%以上。在一些特定情況下,常用的快速短語我們甚至可以做到90%以上,這個就可以大大的提高我們的產(chǎn)品力。

最后講一下我們的原理,其實唇語唇動的技術就是應用人工智能深度學習的算法,其實它分成唇動檢測和唇語檢測兩類。那么唇動檢測就是我們檢測到座艙內(nèi),以駕駛員為例,他嘴唇在變化,有說話的起始時間點,到他說話結束的時間點,我們檢測到了唇語,那就說明他在說話,那么這就是第一個模型要完成的任務,叫做唇動模型。第二個就是這段時間內(nèi),所有的內(nèi)容我們都會用另外一個唇語的模型來做檢測,來判定你在中間說了什么話。這個技術其實還是有一定的難度,你也知道其實我們中國的語言使用環(huán)境,一個是受方言的局限性,因為大家會有一些方言夾雜在說話的過程中。第二個每個人在說話的過程中,他的口腔開張程度也不太一樣,語速也不太一樣,所以說我們需要有訓練大量的模型,有大量的數(shù)據(jù)讓我們的模型變得更準。在這個過程中,將我們現(xiàn)在支持座艙內(nèi)的三十多種拓展到八十多種,這是我們的目標,有很多種常見的短語都可以實現(xiàn)精準的識別,當下行業(yè)存在的對現(xiàn)有的語音識別不足的問題,我們提供了更好的解決方案。

網(wǎng)易汽車:其實現(xiàn)在市面上智能座艙產(chǎn)品也特別多,您覺得我們商湯絕影的優(yōu)勢,或者差異化的優(yōu)勢是怎么樣的?

許亮:其實AI相對來說,雖然時間不長,但是大家都覺得這是一個重要的賽道,我相信這個智能學習的視覺技術作為一個公司的主營產(chǎn)品,甚至在座艙內(nèi)去做布局,還是有很多企業(yè)都做了嘗試。我覺得在這樣的一個環(huán)境中,大家的目標都是一致的,怎么樣利用快速的AI行業(yè)發(fā)展的最新技術,把它變成一個座艙內(nèi)可實現(xiàn)的產(chǎn)品,同時實現(xiàn)產(chǎn)業(yè)化。你會發(fā)現(xiàn)在這個過程中,我們商湯絕影就建立了三種優(yōu)勢,第一個是我們自己的創(chuàng)新體系,因為商湯科技是亞洲最大的人工智能軟件公司,我們的產(chǎn)品線非常豐富,同時我們自己本身對創(chuàng)新的速度和效率都有很高的要求。你會看到在過去幾年內(nèi),我們絕影一共發(fā)布了三十多種新產(chǎn)品,這個速度是非常快的。我們認為一個非常好的創(chuàng)新體系和帶來的創(chuàng)新速度,這個是我們獲得客戶認可的第一步。第二你也知道,汽車的產(chǎn)品它更多是要求一些工程化的內(nèi)容,所以從創(chuàng)新的實現(xiàn)到整個實現(xiàn)汽車大規(guī)模的產(chǎn)業(yè)化,中間有一個非常重要的工業(yè)化的過程。那么這個工業(yè)化里面覆蓋到了你的體系、流程、交付、測試等方方面面的環(huán)節(jié),所以我們整個商湯絕影在建立座艙這個業(yè)務,包括團隊的起始時間,我們就把這些內(nèi)容的建設作為重要的一點。你會發(fā)現(xiàn)在過去幾年內(nèi),我們是行業(yè)內(nèi)第一家完成各種體系認證的公司,幫助我們從模型到產(chǎn)業(yè)化路徑。

第三個我認為比較重要的一點是說,商湯絕影在推進業(yè)務的過程中秉承的理念是合作共贏,其實商湯科技的價值觀是正信恒勇合,所以我們在跟所有的客戶合作過程中,我們更多的是想到客戶現(xiàn)在的需求是什么?我們有什么辦法利用我們的技術幫他做一些提升?我們是一個合作共贏的理念,很多的客戶就愿意跟我們合作,他們會有很多個性化的需求和個性化的產(chǎn)品定義,用我們的研發(fā)資源和我們的能力去幫助完成這樣一個性能的提升。在這樣的過程中建立了很好的基礎,客戶就愿意跟我們合作。那我相信這也是我們漸漸的走向市場,成為一個市場主流的玩家,甚至引領這個市場最重要的一個環(huán)節(jié)。

網(wǎng)易汽車:現(xiàn)在整個行業(yè)都在講行泊一體、艙駕一體,智能座艙能在這些方面發(fā)揮怎樣的作用?

許亮:這個從兩個角度去看,一個是從技術角度,就是我們知道智能座艙在最近幾年相對比較火,最重要的原因是我們座艙內(nèi)的電子架構發(fā)生了一個比較大的變化。我們是從傳統(tǒng)的MCA的架構轉變?yōu)橛蚩氐募軜嫞谶@個里面關于智能汽車出來了兩個最重要的架構,一個就是智能座艙,一個就是智能駕駛。

但是這兩個追求的目標和它的應用場景是不一樣的,比如說以座艙為例,座艙更追求它產(chǎn)品的多樣性,我們要保證速度。這些類似于互聯(lián)網(wǎng)的生態(tài),手機的生態(tài),是不是能夠跟車上做遷移和融合?讓我在手機上體驗到的功能,在座艙內(nèi)都能體驗到,這個我們叫用戶體驗,在這個過程中追求的是速度和多樣性。

但是智能駕駛不一樣,智能駕駛更多的是考慮安全性,所以它會考慮我們在行車過程中,怎么樣保證我們的車安全駕駛是我們的最核心理念,所以對它的軟件算法也好,對它的硬件架構也好,都會提很多跟安全相關的要求。所以這樣的架構就決定了在過去的一段時間內(nèi),所有的行業(yè)的智能駕駛和智能座艙是分開去發(fā)展的,因為你的目標不一樣。車廠其實也是兩個組織,我們在行業(yè)內(nèi)同時去支持兩個業(yè)務的玩家,也是按照不同的需求去配置的。那我覺得現(xiàn)在出現(xiàn)了一個新的機會,為什么?因為現(xiàn)在一個是座艙的算法芯片,這是咱們看的第二點,就是座艙的芯片、算力有了大量的突也破,給了自動駕駛和智能座艙兩域融合的一個硬件基礎。

第二在整個發(fā)展過程中,大家對于這個行業(yè)的經(jīng)驗有了很高的積累。那我們會覺得我在做自動駕駛的解決方案的算法和決策依據(jù)的時候,我需不需要更多的知道座艙內(nèi)有幾個人?是老人還是小孩兒?甚至說有沒有一些特殊群體?現(xiàn)在的狀況是否適合采取緊急的制動?所以這個過程中你會發(fā)現(xiàn),有大量的場景融合出來了,所以我們現(xiàn)在在看到很多的車廠在思考,兩域融合帶來的最大的價值,是怎么把座艙內(nèi)的精確的感知信號作為一個輸入,給到自動駕駛,幫助它形成一個大腦的概念,決定所有的駕駛行為。比如舉個簡單的例子,如果我們檢測到座艙內(nèi)有低齡兒童或者年齡比較大的老人,其實不太適合采用激進的駕駛模式,因為對這類人群更需要舒適的乘坐體驗。但在傳統(tǒng)駕駛方式過程中,我們可能不太會針對人群去做區(qū)分,那么我相信域控融合接下來肯定是一個重大的趨勢。

如果從決定來說呢,我們最大的優(yōu)勢是說,我們除了提供座艙的很多視覺的產(chǎn)品,我們在自動駕駛這個領域也提供了很多的解決方案,像L2+的解決方案。那我們在同時處理兩個解決方案的內(nèi)容,我們其實都有一些比較好的產(chǎn)品思路和產(chǎn)品的實踐,一旦真的走向兩域融合的時候,我們商湯絕影在其中還是可以為行業(yè)做出更多貢獻的。

網(wǎng)易汽車:我最后一個問題是目前Chat GPT的概念和技術都比較火,在您看來未來它和汽車行業(yè)能有怎樣的融合?以及有怎樣的趨勢?以及您覺得智能車艙的未來發(fā)展趨勢會是怎樣的?還有哪些想象空間?

許亮:這個想象空間,其實這是一個非常開放的話題,最近這段時間Chat GPT也非常火,在中國領域內(nèi)很多公司都在嘗試著往大模型方向去研發(fā),那我們商湯其實在這里也有很深的積累,我們是從2019年開始研發(fā)我們的大模型。比如說我們視覺類的大模型,現(xiàn)在可以做到320億參數(shù),在2022年我們把我們視覺大模型做了發(fā)布的時候,在行業(yè)內(nèi)其實純視覺領域內(nèi)還是有很多的領先性,那我們在自然語言類的大模型上,最新的研發(fā)成果,就是我們剛才提到的技術交流日上我們推出的“日日新”大模型體系,在行業(yè)內(nèi)都是非常領先的。除了這個以外,我們還發(fā)布了大量的內(nèi)容生成類的模型,就剛才提到像秒畫這樣的功能。在行業(yè)的發(fā)展過程中,首先是一個AI行業(yè)技術的突破,帶來了很多應用的場景。比如說我們以聊天類的機器人為例,我們叫Chat類的機器人,那么這個機器人它的產(chǎn)品是什么?如果你發(fā)現(xiàn)一個人工智能的設備具備了多人對話的價值,它能夠回答你問到的所有跟知識類相關的問題,甚至可以幫助你創(chuàng)作,比如說幫你寫詩,幫你寫一些比較好的這種故事,甚至幫你整理會議記要,那你會發(fā)現(xiàn)你的生活、生態(tài)完全改變了。這也就是整個行業(yè)內(nèi)為什么為之欣喜,覺得這樣的一個時代如果真的來臨了,它會顛覆掉,甚至說大大的提升我們現(xiàn)有的很多的產(chǎn)品體系、產(chǎn)品架構。

那么以座艙為例,咱們回到座艙,視覺類的大模型、語言類的大模型一旦進到座艙內(nèi),像Chat類的我們叫商量,我們針對座艙內(nèi)的場景就完全的形成了一個新的生態(tài)。就是現(xiàn)有的座艙大家都知道,我們的交互體驗更多是半主動式的,就是我給了一個指令,這個車載的大腦會幫你做執(zhí)行,我覺得冷了,你把我溫度調(diào)高一點,我覺得熱了,你把溫度調(diào)低一點,這是半指令式的。但是你沒有辦法問這個車,比如說勾股定理是什么?什么是葫蘆娃的故事?這些車載很多時候是不能回答你的,因為這中間帶了一些知識和內(nèi)容生成的故事。所以在這個點上,一旦像我們商量這樣的語言大模型能夠進入到座艙內(nèi),它就會顛覆掉現(xiàn)有的生態(tài)。我們會發(fā)現(xiàn)座艙內(nèi)有了一個全新的伙伴,它能夠陪伴你每次的駕駛,能夠幫你推薦很多你喜歡的美食,推薦你感興趣的知識,甚至說我遇到疑問我可以向他求助,或者心情好的時候,讓它幫我講幾個小笑話,講一些詩詞。那這樣的一個生態(tài)就會徹底顛覆掉我們現(xiàn)在的所有認知,我覺得這個生態(tài)一旦來臨,會有很多的想象空間。

所以整個行業(yè)都是非常期待大模型能夠進入到座艙內(nèi),我們商湯絕影這次最大的優(yōu)勢就是我們不知道是不是第一個,但是我們是把我們語言類的大模型商量和我們內(nèi)容生成的秒畫,這樣一個制圖的大模型真正的帶到座艙內(nèi),而且實現(xiàn)了我們的智能化,我相信大家如果感興趣的話,可以到我們的展臺去看一下。

網(wǎng)易汽車:非常感謝您的分享,我也收獲很多,那我們這一時段的采訪就到這里,謝謝您!

許亮:謝謝大家!

關鍵詞:
圖片版權歸原作者所有,如有侵權請聯(lián)系我們,我們立刻刪除。
新化月報網(wǎng)報料熱線:886 2395@qq.com

相關文章

你可能會喜歡

最近更新

推薦閱讀