《大陸產業》跨入視覺AI 2.0決策時代!商湯史軍:工業AI迎關鍵爆發期

【時報-台北電】商湯科技亞太區業務總裁史軍近日指出,人工智慧已正式從視覺AI 1.0的「感知時代」跨入2.0的「決策時代」。這場變革的核心,在於多模態大模型的導入,讓AI不再只是被動地看見影像,而是具備邏輯思考與輔助決策的能力。史軍預期,隨著機器人技術與大模型結合,AI在工業領域的應用即將迎來關鍵的爆發期。
回顧AI發展,1.0時代的電腦視覺(Computer Vision)主要聚焦在生物辨識、自動駕駛感測及工業品檢。史軍在接受本報專訪時提到,當時的技術雖能讓機器擁有超越人類的感知力,但應用成本極高。以工業品檢為例,開發一套高精準度的瑕疵檢測演算法可能需耗資近人民幣1,000萬元,且一旦生產製程微調,演算法就必須從頭開發,高昂的成本阻礙AI的大規模普及。
進入CV 2.0階段,史軍強調,商湯的優勢在於「原生多模態」,將視覺與語言資訊從訓練階段就深度整合。這讓AI具備推理能力,能理解複雜的情境,例如從「看見一個咖啡杯」進階到「理解這是哪個品牌的杯子」,進而輔助機器手臂完成抓取等精準動作。
針對工業應用,史軍分享與動力電池大廠的合作案例。在極高速的生產線上,商湯技術能精準挑出電池表面的細微刮痕,避免後續引發火災風險。在1.0時代,這已是視覺應用的巔峰。到了2.0時代,大模型具備處理「長尾演算法」特質,能以更低成本、更短時間推導出衍生應用,讓AI真正進入生產環節的核心。
史軍分析,大模型也為機器人注入「大腦」。過去機器人僅具備動作精準的「小腦」,但在導入多模態大模型後,機器人開始擁有L4等級的自動化潛力。未來工廠生產線設計若需變更,不再需要拆除複雜機台,只需透過語言指引調整機器人的邏輯,即可靈活應對不同班次的生產需求。
在談到大模型的國際競爭時,史軍直言,若單純比拚語言模型,業界短期很難超越ChatGPT,因此商湯選擇深耕視覺與多模態的結合。商湯近期也開源「NEO」多模態大模型底層架構,希望藉此提升產業整體技術水準。史軍認為,大模型並未顛覆傳統視覺技術,而是讓視覺功能變得更強大,創造出更大的市場空間。(新聞來源 : 工商時報一蘇崇愷、賴瑩綺/北京專訪)
