今年4月參加了宇視的生態(tài)大會,看了,聽了,體驗了。當時感觸很深,也寫了點東西。半年時間過去了,在這次安博會上再到宇視展臺參觀,感覺雖說是參加的安博會,宇視更像是把生態(tài)大會的理念、產(chǎn)品、平臺進行了一次全面的落地展示,交了一份半年度期中答卷。圍繞的核心點,在于愿景的落地和新賽道的全面展示。
祛魅 任何技術(shù)最終落地一定在產(chǎn)業(yè)
大模型「梧桐」是本次宇視展示的基石,展臺內(nèi)大多數(shù)方案、產(chǎn)品和行業(yè)應(yīng)用,都是圍繞著升級版本的「梧桐」展開。
「梧桐」大模型基本架構(gòu)
前年起,大模型鋪天蓋地的到來,加上去年Chat GPT、Sora的突現(xiàn),開始讓人有些應(yīng)接不暇。就像開著殲8和轟6的我們,看著天兵的F22、B21一臉懵圈、欲罷不能一樣,充滿著明星般的魅力和無限的神秘、羨慕。但當這個東西有一天本土化以后,當我們也有了殲20,我們就會從驚為天人到慢慢習(xí)慣。大模型的過程亦是如此。無論是通用大模型,還是行業(yè)大模型,從無到有,一點點積累、一點點做,最終把它應(yīng)用在社會生活的各個場景下,服務(wù)行業(yè)、服務(wù)于人,慢慢從天上落到地下,完成本土化和能力授予的過程,是大模型祛魅的過程,更是由虛向?qū)嵉倪^程。
去年5月,宇視推出行業(yè)大模型「梧桐」;今年4月,升級到2.0版本。無論如何迭代,個人認為宇視做大模型的出發(fā)點都是:做減法,把“小模型+大樣本”變成“大模型+小樣本”。基于這個出發(fā)點,我們看到的升級,是符合祛魅過程和邏輯的,是植根于行業(yè)、植根于合作伙伴、植根于業(yè)務(wù)和產(chǎn)業(yè)應(yīng)用的縱向升級,最終承接能力的在于千行百業(yè)的用戶。
就像我寫的上一篇所說:“通用大模型對于千差萬別的細分行業(yè)來說,更像是一個母體。單純的通用大模型,無法做到落地賦能產(chǎn)業(yè)鏈。真正的應(yīng)用,還要通過通用大模型的平臺,做二級的行業(yè)大模型?!?strong>行業(yè)大模型的意義在于提供能力平臺,降低樣本數(shù)量和開發(fā)難度。讓所有用戶、合作伙伴能夠通過自己已知的能力,快速切入智能化賽道。
舉一個最直觀的例子?!肝嗤勾竽P蛻?yīng)用的一個方向,是將自然語言處理能力、視頻特征提取能力和語音內(nèi)容理解能力進行深度融合,對用戶輸入的語言文字進行深度解析和語義理解,對用戶輸入的語音進行解碼識別和分析,同時提取視頻中關(guān)鍵要素進行打標,準確理解視頻或圖片內(nèi)容,快速檢索匹配出關(guān)鍵字或語音對應(yīng)的視圖內(nèi)容。
“萬物搜”展示
針對這個方向,此次宇視參展推出的“萬物搜”就是直接落地行業(yè)的應(yīng)用。基于多模態(tài)大模型算法推出,支持語音搜、語義搜、圖搜功能,將以往結(jié)構(gòu)化、標準化的檢索,升級到用戶自然語言檢索想要的圖片,識別出畫面中的物體、場景等特征內(nèi)容?!叭f物搜”從本質(zhì)上說是原有圖像檢索、以圖找圖,基于大模型底座的一次重要升級。區(qū)別于傳統(tǒng)檢索和圖像結(jié)構(gòu)化平臺,其特點是:
1、語音或文字輸入關(guān)鍵標簽,通過大模型平臺,準確判斷語境與語義,快速鎖定關(guān)鍵特征,依據(jù)特征進行提前預(yù)警及事后追溯,降低操作門檻、提升使用效率、提高相應(yīng)速度;
2、對關(guān)鍵幀和關(guān)鍵標簽進行多次判斷,結(jié)合實地情況進行多輪分析,降低誤報率;
3、通過多為建模、多角度標簽畫像,快速提取關(guān)鍵的第一幀,大幅提高溯源效率,覆蓋視頻業(yè)務(wù)絕大多數(shù)場景。
細化到應(yīng)用場景,可以舉例說明。比如,園區(qū)監(jiān)控場景下,需要兩個維度的使用邏輯,即事前及事后。如園區(qū)關(guān)鍵通道管理及準入人員管理,可以通過“萬物搜”提前打標,聯(lián)動區(qū)域內(nèi)所有在線攝像機進行跟蹤及校準,進行提前布防,防止出現(xiàn)人員、車輛越位及敏感區(qū)域闖入。事后,即在出現(xiàn)狀況后進行快速檢索。如園區(qū)內(nèi)物品丟失,可根據(jù)該物品特征,在中控室直接進行語音、文字輸入,將該物品的出現(xiàn)位置進行一一鎖定,并形成軌跡分析,最終判定去向,等等。
這種類似“以圖找圖”、“提前布防”的功能之前就有,圖偵應(yīng)用很多。但其部署難度、用戶操作難度及管理成本都很高,而且最重要的是關(guān)鍵的第一幀很難鎖定。以上這些特點,對操作對象、使用對象及集成公司都有很高的門檻限制。但通過邊端云智能+大模型加持,這種門檻被打破,將成本和效率找到一個最佳平衡。
獵光2.0圖像處理引擎
大模型應(yīng)用在視頻上,還有一個路徑,就是解決視頻行業(yè)的老痛點——圖像質(zhì)量和光源問題。安博會上,宇視搭建了暗室,展示了“獵光2.0圖像處理引擎”。傳統(tǒng)ISP到達瓶頸后,畫質(zhì)提升的收益率越來越低。獵光2.0在傳統(tǒng)AI-ISP基礎(chǔ)上,得益于梧桐大模型的加持,使得其在低至≤0.0001 Lux的照度環(huán)境下,依然能夠讓圖像呈現(xiàn)出如同在白晝中一般的鮮艷色彩。圖像技術(shù)與AI技術(shù)的深度融合,補齊了ISP的短板,突破傳統(tǒng)黑光的極限。這對于極端環(huán)境、夜間布控等一系列場景來說,都是一個解決了痛點的好事。
以上只是行業(yè)大模型應(yīng)用的一兩個最小的場景。以此類推,復(fù)制到無數(shù)個現(xiàn)有場景下,用一個能力去解決多個行業(yè)的問題,就是能力的落地和服務(wù)的落地。比如環(huán)境保護、城市治理、安全生產(chǎn)、農(nóng)業(yè)生產(chǎn)等等。當然,這個應(yīng)用,一定是基于用戶需求的前提下。而用戶需求千差萬別,想要通過一套系統(tǒng)去滿足所有用戶不現(xiàn)實,成本也太高。這就引出了能力授予后合作伙伴的能力升級。讓更多深耕某個領(lǐng)域的伙伴獲得更大的能力,用最小的成本、最快的速度滿足垂直客戶的具體需求,二次、三次到N次開發(fā),都具備了可行性,而宇視也是一直這樣講、這樣做的。
賽道 用戶需求催生的精準營銷
去年安博會后AI平權(quán)賦能文體,到今年生態(tài)大會上,著重展示了大模型下泛智能視頻產(chǎn)品的應(yīng)用,如體育教學(xué)、體育比賽、文旅VLOG等等,宇視在用真切的行動踐行著其發(fā)展戰(zhàn)略中最重要的一個特性——務(wù)實。用已有的能力不斷拓寬賽道,為企業(yè)生存發(fā)展尋找更多的出路。本次安博會宇視展臺上,也著重的展出了這些新應(yīng)用的板塊,展示、互動,讓業(yè)內(nèi)更多同行真切感受到了視頻和AIoT在新賽道的增速。
AI體育打卡點
比如賦能智慧體育。其依據(jù)是:用戶基數(shù)龐大,市場空間足夠大;符合社會進步的方向;用戶不要求100%的精度,給技術(shù)進步(包括大模型固有的幻覺)留出了空間。裝備大模型的到來,為體育教育的創(chuàng)新和進步提供了巨大的機會,宇視文教體AI業(yè)務(wù)一方面深耕教育領(lǐng)域,探索從學(xué)生身體健康走向心理健康的AI管理新模式,驅(qū)動AI賦能向縱深推進,另一方面不斷拓寬現(xiàn)有產(chǎn)品及方案的應(yīng)用場景,輻射泛健康、泛運動等領(lǐng)域,覆蓋更大范圍的人群,提升AI應(yīng)用的廣度和力度。自“梧桐”大模型推出以來,宇視科技AI體鍛屏、AI跑步屏、梧桐VLOG解決方案等已落地全國百余個城市。
在體育賽事場景下,宇視綜合性的解決方案,一站式輕量化提供自動運鏡直播、自動進球識別、運動數(shù)據(jù)分析、專業(yè)級賽事管理等能力。我是一個球迷,也一直關(guān)注宇視的“吳鉤”賽事管理小程序,并且和宇視的同事要過該場景的解決方案專門研究過。其實類似足球賽事抓拍、回放、精彩瞬間掠影、比賽規(guī)則監(jiān)測等等,一直有企業(yè)在做,也在很多民間和專業(yè)賽事有應(yīng)用。但如果一個龍頭級的專業(yè)視頻企業(yè)攜帶智能化大模型下的解決方案進入到這個賽道,從技術(shù)和結(jié)果上看,不說碾壓也差不多。AI算法會自動檢測球的控球權(quán),實現(xiàn)對視頻畫面平移和推拉,實現(xiàn)對球員和球的自動運鏡跟蹤,AI運鏡算法全景相機相當于一個人工攝像師,即使是靜態(tài)固定安裝,也能讓攝像機看起來像一個有人在操控的移動攝像機;視頻AI算法可以自動檢測進球,無需人工打點,可自動捕捉精彩進球的高光時刻;對于爭議球的判罰提供高效的視頻依據(jù);提供了非常方便的剪輯工具,對于一些精彩花絮,球員可以自行剪輯,一鍵在線剪輯。可以輕松、即時、經(jīng)濟地用視頻記錄比賽,方案為俱樂部等賽事組織方提供賽程管理、球員管理及賽事信息記錄的平臺,節(jié)省日常的賽事的管理成本。諸如此類等等,多角度、多方位、全場景、全包圍,專業(yè)和業(yè)余入場后的效果,完全不一樣。
在文旅場景下,基于「梧桐」大模型,可以快速完成場景算法模型的訓(xùn)練生產(chǎn),如宇視提供的旅拍兔VLOG服務(wù):可以快速將游客人像信息和視頻畫面自動匹配,生成最優(yōu)視頻片段,同時通過AI體態(tài)分析精準識別人體軀干、四肢到手指的精細動作以及面部的精細表情,精準捕捉游客的精彩瞬間。最后基于多模態(tài)技術(shù)對各場景和動作進行分析,自動疊加最匹配的圖層、特效,還能進行畫面人物消除和畫面優(yōu)化。
以上場景,不一而足。有真切的客戶需求、有足夠規(guī)模的市場、基于自身產(chǎn)品技術(shù)和營銷體系的范圍之內(nèi),三樣都滿足就是宇視努力擴展的方向,至于組織結(jié)構(gòu)和現(xiàn)實困難,則邊建邊打,在運動中越來越強。
回望 按照自己的判斷堅定走來
每年安博會,都會回想起張鵬國的那兩篇10W+。今天寫東西,又翻出來好好看了看。忽然發(fā)現(xiàn),幾年前這位行業(yè)大IP的話,一點點都成為了現(xiàn)實。
關(guān)于行業(yè)的發(fā)展和重塑:5G+AIoT時代的安防只是“可視化治理”的場景之一,業(yè)務(wù)和終端場景化對架構(gòu)提出強勁挑戰(zhàn),需要強大的中臺能力,包括數(shù)據(jù)中臺和業(yè)務(wù)中臺,數(shù)據(jù)業(yè)務(wù)化、業(yè)務(wù)服務(wù)化,雙中臺密不可分。有企業(yè)若想轉(zhuǎn)型做SaaS,確認自己在某些細分市場的業(yè)務(wù)熟悉度后,來得及。(2019年)
AI的強工程、強垂直和強細分,讓算法繼續(xù)無限細分,貼近各行業(yè)深度業(yè)務(wù)及管理需求的公司將有大把機會,但不算獨角獸,可算小鮮肉:頗有顏值,年少成名不穩(wěn)重,尚需時間和歷練來積淀代表作。(2018年)
關(guān)于機會點:有成長性的新業(yè)務(wù),需具備六大特點,缺一不可:可量化(要能量化考核)、可積累(核心競爭力的沉淀)、可迭代(有后來居上的可能性)、空間足夠大(有犯錯及改正的空間)、符合社會及組織進化的方向(有未來)、資源關(guān)聯(lián)性(不能平地起高樓)。(2019年)
真正的革新來自對現(xiàn)有技術(shù)和架構(gòu)的顛覆,比如:可見光馳騁這么多年,非可見光的替代是否太慢?比如:未來帶寬和算力不是問題,基于帶寬不夠和擁塞重傳的TCP/IP會否被全面拋棄?很期待。(2019年)
智能識別只是開場序曲,“語音+視頻結(jié)構(gòu)化+肢體行為”會是下一個爆點。可惜,在北京安防展并沒有令人激動的發(fā)現(xiàn),顯然,AI時代已經(jīng)到來的論斷為時尚早。(2018年)
關(guān)于經(jīng)營:世道在變,故事營銷不再有效,燒錢模式成為過去。無論處于什么樣的冬天,努力活下去,永遠是企業(yè)的第一要務(wù)。(2019年)
保持向全世界最先進公司學(xué)習(xí)的胸懷和能力,不斷追求原創(chuàng)性的技術(shù)進步,才可能成為這場大戰(zhàn)的主角。那些不斷定制、修修補補、OEM來去的公司,多半淪為配角。(2018年)
以上列舉了這些,有興趣的可以去找原文。在2018-2019年,預(yù)見到的數(shù)據(jù)應(yīng)用、AI公司洗牌、視頻企業(yè)的增長點、向非可見光的邁進以及業(yè)務(wù)創(chuàng)新點、今天市場總體格局和表現(xiàn),條條精準,直切要害。有時候我們不得不佩服這些企業(yè)家的眼光和前瞻性。大模型的推出、賽道的擴展以及對生態(tài)建設(shè)的思路,在幾年前張鵬國的文章里都已經(jīng)體現(xiàn),而且宇視也是一步步朝著這個方向走的。將超前的眼光堅定的一步一個腳印的付諸實踐。在最艱難的時刻,還能夠給人信心、給人希望。我想這也許是宇視能夠走到今天的原因所在。光在前方,腳在路上,尋找未來,滿懷希望。
責(zé)任編輯:石旭
小手一抖把碼掃,物聯(lián)消息全知曉
2025-06-06
2025-06-05
2025-06-04
2025-06-04
2025-06-03
2025-06-03