我們正在經歷一場聲勢浩大的AI新基建大潮。
半年之內,大模型從小范圍共識迅速擴散。中信所發布的報告顯示,目前已發布的參數模型超過10億的大模型數量已經接近80個,一半來自企業,一半來自科研機構。
(資料圖片)
國內大模型生態逐漸形成的過程中,也開始剝離對OpenAI的追隨逐漸尋找適合自己的道路。衡量大模型成功與否的標準,也從硬橋硬馬的參數競賽,來到了真刀真槍地解決問題上。
商湯科技在今年4月份首次公布了“日日新SenseNova”的大模型體系,發布了包括自研中文大語言模型“商量SenseChat”在內的多個AI大模型及應用。近日在世界人工智能大會上,商湯科技宣布了“日日新SenseNova大模型”體系的第一次重大迭代。大語言模型“商量”升級到2.0版本。
它更強了。在整個商湯科技大模型布局體系中,它的作用也愈發明顯。
更強的“商量2.0”
怎么直觀體現“商量2.0”的能力提升?商湯科技董事長兼CEO徐立在現場演示了老子與孔子之間的一場并不存在的對話。
“商量2.0”的回答圍繞“道”來進行。孔子向老子問道,老子雖然已經悟道,但無法與孔子言說,只是拂袖而去。這一場演繹出的對話行云流水。“商量2.0”甚至在文中加了一個玩笑:
孔子曰:“吾聞夫子大名,今日得一見,實乃三生有幸!”
老子笑道:“非也,吾與汝同道而行,何來‘三生’?”
并且依據問題,整個對話以文言形式出現。并且為了避免混淆,“商量2.0”也在回答的第一句話寫明了“這只是虛構之作,不應被視為歷史的真實記錄”這樣的前提。
“商量1.0”首次推出時,現場的演示已經展現了它優秀的多輪對話以及人機共創能力。三個月后,“商量2.0”在知識信息準確性、邏輯判斷能力、上下文理解能力、創造性等方面都有了更多提升。
比如用“商量2.0”來做旅行規劃,并且吩咐它做成表格:
或者來考驗考驗關于“女朋友說的都對”的事:
甚至不只是能讀懂女朋友,“商量2.0”還能讀出點反諷或者陰陽怪氣的語氣了:
這三個月“商量2.0”到底經歷了什么,其實看看幾場考試結果就知道了。在全球范圍內的三個權威大語言模型評測基準(MMLU、AGIEval、C-Eval)的測評結果中,“商量2.0”的表現都超過了ChatGPT。
除此之外,可能有一些人在前面老子與孔子對話的演示照片中注意到了“商量2.0”出現了XL和S兩個版本的分屏演示,這是“商量2.0”在升級后增加了更多不同參數尺寸的大模型以供客戶選擇,其中最小參數的模型版本甚至可以跑在手機終端上。
在語言上“商量2.0”新增了阿拉伯語和粵語等新語種。支持簡體中文、繁體中文以及英語等多語言之間的交互。并且“商量2.0”對超長文本的支持,也從2k提升到32k,能夠更加充分理解上下文。
對于商湯科技這樣核心面向ToB的大模型廠商來說,大模型本身的素質只是起點,企業客戶如何以自己的需求給大模型定義出具體輪廓,后者如何實現穩定的迭代流程并一步步逼近真實的痛點,是最終分勝負的地方。
開放知識庫融合能力
商湯科技訓練出一個具備超強的理解、對話、推理等能力的“商量2.0”后,企業客戶還可以用自己沉淀下來的企業知識讓大模型變成能夠服務好自己企業的“專業人才”。如何高效解決這些工程問題非常重要。
商湯科技此次推出的“商量2.0”新增了知識庫融合接口,讓企業可以無需等待基礎大模型的迭代升級,快速擁有專業知識和能力。融合了知識庫后,可以增強模型對知識更新理解的能力,加強知識的快速理解和獲取,同時客戶訓練模型的成本會大幅降低。
商湯科技聯合創始人、首席科學家王曉剛表示:“有了知識庫,不需要進入到我們的模型本身,就可以比較簡單、方便地將這個領域的相應知識總結在一起”,并且因為信息更加準確,也解決了幻覺的問題。
作為效率工具的數字人
“商量2.0”的全面升級的同時,“日日新SenseNova大模型”體系內AIGC平臺能力也在不斷突破,并且在融合語言大模型能力后,實現了跨越式提升。
比如前面提到的文生圖創作平臺“秒畫”此次升級到了3.0版本,模型參數提升到了70億量級,生成圖片的細節刻畫達到專業攝影級別。而在提示詞這個頭疼問題上,“商量2.0”為“秒畫3.0”提供了提示詞的自動擴展能力。這意味著用戶只需要少量簡單的提示詞就可以達到一張細節豐富的圖像結果。
而在數字人領域,此次商湯科技的數字人視頻生成平臺“如影”也升級到了2.0版本,“如影2.0”的語音和口型流暢度的提升超過30%,并且可以實現4K視頻效果。發布會上,經濟學家任澤平、延參法師以及徐立本人的數字人形象現身,效果足以亂真。
在大模型的落地場景中,數字人是一個非常重要的承載方式,近日十分火熱的數字人直播帶貨就是一個典型場景。而直播帶貨包括短視頻也是“如影2.0”在3個月內測和公測中間,客戶最聚焦的場景之一。
商湯科技數字文娛事業部總經理欒青表示,在AIGC這個大框架內,“商量2.0”可以承擔短視頻直播的文案和劇本創作。而“如影2.0”如何在交流上能夠緊跟潮流,也要依靠“商量2.0”的語言大模型能力去學習時新的短視頻語料。
短視頻和直播場景之外,“如影2.0”正在加速進入各行各業。
比如保險行業,每一個保險專員都有為客戶宣傳新產品或是其他個性化的服務型內容輸出需求,“如影2.0”可以在客戶的生日或某個理財產品發布的節點去代替保險專員做個性化的內容和服務;在教育行業,“如影2.0”已經開始協助國內頭部職業教育平臺的教師制作教育素材,解決內部對視頻制作的需求。
“數字人是一個很典型的企業內部的效率工具。”欒青表示。
如影作為一個AIGC創作平臺未來會繼續在視頻生成領域做深,欒青認為這是由于內容創作正在經歷一個從文字、圖片到視頻的維度變化。
邁向多模態
由于圖片與視頻信息在真實世界中的占比極大,遠超語言信息,對于真實世界的理解需求讓基礎大模型的未來一定會走向多模態,這一點透過“商量2.0”已經初見端倪。除了文字,“商量2.0”擁有了對圖片和視頻內容的分析能力。
比如,如上圖展示,“商量2.0”可以在一張雜亂的辦公桌照片中識別出具體物件之后,結合每個物品的特性來回答“當你感覺熱時,你會做什么”這樣接近流程設計的開放問題;或者在看到一張菜單照片后,幫助用戶在一個限定價格區間內給出點菜方案。
最初從計算機視覺的研究切入AI領域,已經跨過一次AI浪潮的商湯科技更確信這一次大模型拉起的浪潮會是一次真正的機會。
現在的大模型研究都是基于transformer網絡架構。“商湯從2019年開始從事大模型研究,那時候做視覺走的就是這條路線”,在商湯科技聯合創始人、首席科學家王曉剛看來,今天一些視覺標準和自然語言標準正在逐漸趨向融合,“我們往多模態方向發展的時候,語言、視覺開始有更加深度的融合,就體現出比較強的這方面的積累和能力。”
我們現實生活當中遇到的很多應用場景,如在自動駕駛、機器人等一系列領域,都要運用到多模態。“但是多模態的數據和一些任務,往往不容易獲取,需要有很深的行業積累,這方面也是商湯的優勢所在。”王曉剛介紹到。
在今年世界人工智能大會,首次公開亮相三個月后,商湯“日日新SenseNova大模型”體系以全面升級的姿態對企業級用戶開放。同時許多人沒有注意到,商湯還聯合上海人工智能實驗室一起宣布了書生多模態大模型。未來,商湯是否能率先找到決勝多模態之路的鑰匙,很值得期待。(文章來源:品玩網)
(CIS)
關鍵詞: