近日,中科軟以 “AI應(yīng)用中的重點(diǎn)開源軟件工具和平臺(tái)建立及組織協(xié)同實(shí)施研發(fā)” 為主題,成功舉辦為期兩天的技術(shù)實(shí)踐交流會(huì)。本次活動(dòng)旨在推動(dòng)AI技術(shù)在垂直領(lǐng)域的落地應(yīng)用,聚焦低成本、高精度、強(qiáng)安全特性,展示中科軟在垂直領(lǐng)域小模型研發(fā)、開源工具應(yīng)用及工程化落地方面的最新成果。
本次比賽匯聚了來(lái)自中國(guó)科學(xué)院軟件研究所、中國(guó)機(jī)械工業(yè)工程集團(tuán)有限公司、大家人壽保險(xiǎn)股份有限公司、海保人壽保險(xiǎn)股份有限公司、現(xiàn)代財(cái)產(chǎn)保險(xiǎn)(中國(guó))有限公司、國(guó)民養(yǎng)老保險(xiǎn)股份有限公司、天津藥鏈智啟供應(yīng)鏈科技有限公司、東吳人壽保險(xiǎn)股份有限公司、中國(guó)疾病預(yù)防控制中心、陽(yáng)光財(cái)產(chǎn)保險(xiǎn)股份有限公司、中融人壽保險(xiǎn)股份有限公司、中荷人壽保險(xiǎn)有限公司、橫琴人壽保險(xiǎn)有限公司、大家保險(xiǎn)集團(tuán)有限公司等科研機(jī)構(gòu)、行業(yè)客戶及合作伙伴的專家。不同領(lǐng)域的專家與公司各技術(shù)團(tuán)隊(duì)就如何推進(jìn)AI技術(shù)在更多垂直領(lǐng)域的深入應(yīng)用進(jìn)行了熱烈討論,并對(duì)中科軟的技術(shù)成果提出了寶貴的指導(dǎo)意見。
AI垂直應(yīng)用邁向規(guī)?;涞氐年P(guān)鍵窗口期 小模型與知識(shí)庫(kù)成破局關(guān)鍵
在推理成本下降與國(guó)家戰(zhàn)略級(jí)政策紅利的共同驅(qū)動(dòng)下,我國(guó)垂直行業(yè)AI應(yīng)用正進(jìn)入規(guī)?;涞氐年P(guān)鍵窗口期。AI 技術(shù)正從通用探索邁向業(yè)務(wù)融合階段,帶來(lái)軟件開發(fā)范式的變革與應(yīng)用體系的重構(gòu)。企業(yè)對(duì) AI 應(yīng)用的需求逐漸聚焦于強(qiáng)安全、高精度和低成本,即保障數(shù)據(jù)隱私安全、滿足場(chǎng)景化精準(zhǔn)計(jì)算需求、降低部署與運(yùn)行成本。在此背景下,AIGC 在行業(yè)領(lǐng)域落地應(yīng)用的重心從通用大模型轉(zhuǎn)向 “垂直領(lǐng)域小模型 + 專業(yè)知識(shí)庫(kù)” 的組合模式。
小模型與知識(shí)庫(kù)成為 AI 垂直落地破局關(guān)鍵,核心在于垂直場(chǎng)景對(duì)領(lǐng)域適配性、數(shù)據(jù)安全、成本控制的嚴(yán)苛要求。大模型雖具備通用能力,但在垂直領(lǐng)域存在隱私風(fēng)險(xiǎn)高、部署成本高、領(lǐng)域知識(shí)深度不足等問題;而小模型依托輕量化特性可實(shí)現(xiàn)本地化部署,結(jié)合沉淀了垂直領(lǐng)域?qū)I(yè)知識(shí)的知識(shí)庫(kù),能精準(zhǔn)適配保險(xiǎn)核保理賠、醫(yī)療診斷輔助等行業(yè)場(chǎng)景,解決通用技術(shù)在垂直場(chǎng)景中 “水土不服” 的問題,成為連接 AI 技術(shù)與行業(yè)需求的核心紐帶。
聚焦開源工具與工程化方法 筑牢落地根基
開源軟件工具和平臺(tái)在AI快速形成應(yīng)用效果中扮演著重要的支撐角色。頭部ISV應(yīng)熟練運(yùn)用不斷迭代的開源軟件工具,包括流程框架、硬件軟件配置、外部調(diào)用方式及專項(xiàng)函數(shù)庫(kù)特性,尤其需關(guān)注多模態(tài)數(shù)據(jù)語(yǔ)義計(jì)算平臺(tái)的應(yīng)用。中科軟各技術(shù)團(tuán)隊(duì)在交流中展示了利用開源軟件工具和平臺(tái)作為支撐環(huán)境,在數(shù)據(jù)標(biāo)注預(yù)處理、模型微調(diào)、提示詞工程優(yōu)化、專業(yè)知識(shí)庫(kù)建立等環(huán)節(jié)取得的成果與實(shí)踐,驗(yàn)證了垂直領(lǐng)域的小模型結(jié)合專業(yè)知識(shí)庫(kù)構(gòu)建(如保險(xiǎn)行業(yè)的條款解析和業(yè)務(wù)流程梳理等)能夠進(jìn)一步提升AI技術(shù)與業(yè)務(wù)的適配性和落地效果。
小模型落地需具備系統(tǒng)化的工程方法,考驗(yàn)工程化方法的可操作性、完整性和系統(tǒng)化方法論,包括垂直領(lǐng)域知識(shí)加持下的數(shù)據(jù)約束和格式、微調(diào)描述框架、提示詞規(guī)范等關(guān)鍵環(huán)節(jié),涉及數(shù)據(jù)層、模型層、應(yīng)用層的多個(gè)系統(tǒng)化層級(jí):
• 數(shù)據(jù)層:規(guī)范數(shù)據(jù)約束與格式,處理多結(jié)構(gòu)語(yǔ)料(如保險(xiǎn)條款切分、多模態(tài)信息提?。?,強(qiáng)化基于領(lǐng)域知識(shí)的數(shù)據(jù)清洗與標(biāo)注,加強(qiáng)半結(jié)構(gòu)化數(shù)據(jù)集建設(shè);
• 模型層:建立微調(diào)描述框架與提示詞規(guī)范,實(shí)現(xiàn)垂直模型的精準(zhǔn)微調(diào)與推理部署;
• 應(yīng)用層:支持客戶端技術(shù)遷移、組件組裝及二次開發(fā),在 “多自由度” 工具選擇中形成收斂性落地框架,保證高質(zhì)量的應(yīng)用效果。
成果展示:場(chǎng)景化結(jié)合顯成效 團(tuán)隊(duì)競(jìng)技展實(shí)力
在比賽過程中,中科軟展示了其在MaaS(Model as a Service)平臺(tái)上的研發(fā)積累,包括底層資源適配、垂直模型微調(diào)推理部署以及智能助手開發(fā)等能力。今年,中科軟更加聚焦于垂直業(yè)務(wù)領(lǐng)域,打造精確專業(yè)的業(yè)務(wù)知識(shí)庫(kù),并繼續(xù)優(yōu)化和拓展大模型應(yīng)用邊界。
經(jīng)過技術(shù)成果展示與問答交流,壽險(xiǎn)團(tuán)隊(duì)的“智瞳平臺(tái)”與財(cái)險(xiǎn)團(tuán)隊(duì)的“智數(shù)平臺(tái)”案例脫穎而出。這兩個(gè)優(yōu)秀案例在小模型場(chǎng)景適配性、開源工具應(yīng)用合理性及工程化完整性等方面具備較為突出的表現(xiàn)。
? 壽險(xiǎn)-智瞳平臺(tái)
保險(xiǎn)領(lǐng)域的AI產(chǎn)品包羅萬(wàn)象,如何選擇正確場(chǎng)景將機(jī)會(huì)轉(zhuǎn)化為產(chǎn)品是需要深度思考的核心問題。在IT部門推動(dòng) “提升國(guó)產(chǎn)開源軟件占比” 與業(yè)務(wù)部門期望 “加速智能化轉(zhuǎn)型、降低人工錄入錯(cuò)誤率” 的雙重需求背景下,兩個(gè)部門目標(biāo)的融合,為智瞳平臺(tái)的誕生與發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。
為確保平臺(tái)有效落地,團(tuán)隊(duì)對(duì)現(xiàn)有開源產(chǎn)品進(jìn)行了深入調(diào)研與對(duì)比。結(jié)果顯示,國(guó)內(nèi)主流開源產(chǎn)品中,大部分AI開源模型在通用場(chǎng)景表現(xiàn)尚可,但在保險(xiǎn)業(yè)務(wù)領(lǐng)域卻存在不足。具體體現(xiàn)在識(shí)別準(zhǔn)確率偏低、大尺寸圖像內(nèi)容識(shí)別不全、復(fù)雜表格信息粘連等關(guān)鍵問題上。
針對(duì)這些挑戰(zhàn),智瞳平臺(tái)制定了“領(lǐng)域知識(shí)注入 + 工程化深度優(yōu)化” 的針對(duì)性解決方案。平臺(tái)整合OCR和SLM小模型,搭建了平臺(tái)的基礎(chǔ)部分,包含視覺分析、智維重構(gòu)、智能提取和智能核驗(yàn)等功能,為核心系統(tǒng)提供非結(jié)構(gòu)化輸入和查詢能力。后續(xù)隨著更多對(duì)接,可以將非結(jié)構(gòu)化能力,輻射到壽險(xiǎn)領(lǐng)域內(nèi)其他系統(tǒng),助力公司實(shí)現(xiàn)智能化轉(zhuǎn)型。


針對(duì)上述開源方案在實(shí)際集成中的關(guān)鍵能力缺口,在落地應(yīng)用環(huán)節(jié)引入了‘智維重構(gòu)’作為核心補(bǔ)充。該方案特別強(qiáng)化了對(duì)復(fù)雜版面結(jié)構(gòu)(尤其是無(wú)邊框表格)的解析能力,并有效解決了視覺粘連導(dǎo)致的識(shí)別歧義問題,從而在整體上提升了集成解決方案的魯棒性和信息抽取精度,確保了業(yè)務(wù)需求的有效滿足。

“智維重構(gòu)”方案解決無(wú)邊框表格識(shí)別和視覺粘連問題,其核心流程包含四步:行列聚類、粘連文本分割、表格重組和文本填充。
行列聚類是第一步,旨在將識(shí)別引擎輸出的離散、無(wú)序文本框組織成潛在的行列矩陣。團(tuán)隊(duì)采用DBSCAN密度聚類算法,因其能有效處理不規(guī)則分布和噪聲(如文本框疏密不一、缺失或錯(cuò)位)。聚類依據(jù)文本框的幾何中心點(diǎn)空間特征。DBSCAN的核心參數(shù)鄰域半徑 (Eps) 定義了判斷文本框是否同屬一行/列的距離閾值。算法分析中心點(diǎn)密度,自動(dòng)將鄰近文本框聚集成簇,形成行列分組。
此步驟將離散文本框初步組織成結(jié)構(gòu)化行列矩陣框架(如成功識(shí)別出5行x11列矩陣雛形),為后續(xù)重構(gòu)奠定關(guān)鍵結(jié)構(gòu)基礎(chǔ)。

粘連文本分割步驟解決因字符間距極小、筆畫重疊或背景干擾導(dǎo)致的文本粘連問題(即多個(gè)單元格內(nèi)容被錯(cuò)誤合并為一個(gè)文本框)。為此,團(tuán)隊(duì)引入基于深度學(xué)習(xí)的語(yǔ)義分割模型(SLM),對(duì)行列聚類后的區(qū)域進(jìn)行精細(xì)化處理:
識(shí)別粘連區(qū)域: SLM 依據(jù)語(yǔ)義和視覺上下文,精準(zhǔn)定位行列矩陣中的不合理粘連區(qū)域。執(zhí)行語(yǔ)義分割: 對(duì)粘連區(qū)域進(jìn)行像素級(jí)分割,在視覺和語(yǔ)義層面精確區(qū)分粘連文本。
拆分與重定位: 根據(jù)分割結(jié)果和原始坐標(biāo),將粘連文本塊拆分為獨(dú)立的單元格文本單元,并生成精確的新邊界框。
分割完成后,系統(tǒng)觸發(fā)受影響區(qū)域的重新聚類,確保新拆分的文本框被正確融入原有行列結(jié)構(gòu),形成校正后、結(jié)構(gòu)完整且邊界清晰的行列矩陣。


在數(shù)字化浪潮下,人工智能(AI)與商業(yè)智能(BI)技術(shù)的迅猛發(fā)展正推動(dòng)眾多企業(yè)加速邁入自助式數(shù)據(jù)分析的新階段。然而,在這一過程中,企業(yè)仍面臨著諸多挑戰(zhàn),如分析門檻高、被動(dòng)接受需求導(dǎo)致的需求響應(yīng)周期長(zhǎng)、分析深度不足等問題,這些問題在保險(xiǎn)行業(yè)尤為突出。作為數(shù)據(jù)密集型行業(yè),保險(xiǎn)行業(yè)擁有海量且復(fù)雜的業(yè)務(wù)數(shù)據(jù),但傳統(tǒng)的數(shù)據(jù)分析方法難以充分挖掘這些數(shù)據(jù)的潛在價(jià)值。因此,中科軟憑借在保險(xiǎn)行業(yè)的深厚積淀和對(duì)人工智能技術(shù)的深入研究,構(gòu)建了一個(gè)面向保險(xiǎn)行業(yè)的數(shù)據(jù)分析智能體平臺(tái)——智數(shù)平臺(tái),旨在解決保險(xiǎn)企業(yè)在數(shù)據(jù)分析過程中所面臨的難題,提升數(shù)據(jù)分析效率和質(zhì)量,助力保險(xiǎn)行業(yè)的數(shù)字化轉(zhuǎn)型和智能化發(fā)展。

智數(shù)平臺(tái)(idata)基于微服務(wù)架構(gòu)和開源技術(shù)棧(Langchain4J+Milvus)構(gòu)建,平臺(tái)聚焦四大核心模塊:指標(biāo)知識(shí)圖譜管理、知識(shí)庫(kù)管理、智能體管理以及平臺(tái)基礎(chǔ)配置,核心功能如下:
知識(shí)管理:包括指標(biāo)知識(shí)圖譜及知識(shí)庫(kù)管理兩大模塊。其中指標(biāo)知識(shí)圖譜管理,主要包括指標(biāo)定義、維度定義、指標(biāo)血緣、元數(shù)據(jù)映射及權(quán)限管理等功能,實(shí)現(xiàn)指標(biāo)的語(yǔ)義統(tǒng)一以及語(yǔ)義查詢的轉(zhuǎn)化,以保障數(shù)據(jù)的高精度和強(qiáng)管控;知識(shí)庫(kù)管理主要包括文檔知識(shí)庫(kù)管理、向量庫(kù)管理、術(shù)語(yǔ)管理、分段管理及召回演練等功能,實(shí)現(xiàn)了多模態(tài)知識(shí)整合,支持知識(shí)的持續(xù)學(xué)習(xí)和熱更新,同時(shí)打通了指標(biāo)知識(shí)圖譜與知識(shí)庫(kù)管理的雙向互動(dòng)。
智能體管理:智能體構(gòu)建平臺(tái)主要包括流程編排、記憶管理、知識(shí)庫(kù)接入及對(duì)外集成等功能。除提供開箱即用的數(shù)據(jù)分析智能體之外,還具備個(gè)性化定制適配能力。
多模型適配能力:智數(shù)平臺(tái)采用開放式AI架構(gòu),全面兼容主流云服務(wù)大模型(如DeepSeek、文心一言、Qwen系列等)及企業(yè)私有化部署模型,在確保數(shù)據(jù)安全合規(guī)的同時(shí),為保險(xiǎn)業(yè)務(wù)場(chǎng)景提供最優(yōu)的AI分析能力支撐。
在數(shù)據(jù)分析智能體的構(gòu)建與應(yīng)用中,平臺(tái)沉淀出以下最佳實(shí)踐,形成可復(fù)用的方法論體系:
• 統(tǒng)一語(yǔ)義管理,通過指標(biāo)管理模塊建立標(biāo)準(zhǔn)化語(yǔ)義體系,提升分析準(zhǔn)確性、可解釋性與可比性

保險(xiǎn)行業(yè)存在著大量的專業(yè)術(shù)語(yǔ)和領(lǐng)域指標(biāo),這些術(shù)語(yǔ)和指標(biāo)在不同的業(yè)務(wù)場(chǎng)景和數(shù)據(jù)源中可能會(huì)有不同的表達(dá)方式,這給數(shù)據(jù)分析帶來(lái)了很大的困難。依托中科軟30年深耕保險(xiǎn)行業(yè)所積累的豐富領(lǐng)域知識(shí),通過將這些領(lǐng)域知識(shí)與人工智能技術(shù)相結(jié)合,智數(shù)平臺(tái)通過指標(biāo)管理模塊實(shí)現(xiàn)統(tǒng)一語(yǔ)義的管理。通過指標(biāo)管理,智數(shù)平臺(tái)對(duì)這些術(shù)語(yǔ)和指標(biāo)進(jìn)行了標(biāo)準(zhǔn)化和統(tǒng)一化處理,建立了一個(gè)清晰、一致的語(yǔ)義體系,不僅提高了數(shù)據(jù)分析的準(zhǔn)確性,還增強(qiáng)了數(shù)據(jù)分析結(jié)果的可解釋性和可比性。
• 知識(shí)內(nèi)容熱更新,實(shí)時(shí)轉(zhuǎn)化指標(biāo)與對(duì)話信息,保證知識(shí)信息的質(zhì)量和時(shí)效
傳統(tǒng)開源知識(shí)庫(kù)管理工具依賴于手工上傳文檔進(jìn)行更新,為了提升知識(shí)更新的及時(shí)性和準(zhǔn)確性,平臺(tái)對(duì)現(xiàn)有的開源知識(shí)庫(kù)管理工具進(jìn)行優(yōu)化升級(jí),實(shí)現(xiàn)知識(shí)的實(shí)時(shí)熱更新,極大地提高了知識(shí)更新的效率,減少人工干預(yù)的繁瑣流程,降低人力成本和時(shí)間成本。通過自動(dòng)化的更新機(jī)制,可以有效避免因人為疏忽導(dǎo)致的信息不一致問題,增強(qiáng)知識(shí)庫(kù)內(nèi)容的準(zhǔn)確性和可信度。實(shí)時(shí)更新機(jī)制能夠確保知識(shí)庫(kù)內(nèi)容始終與企業(yè)的實(shí)際業(yè)務(wù)數(shù)據(jù)保持同步,為員工提供最新、最準(zhǔn)確的知識(shí)支持,從而提升企業(yè)的整體運(yùn)營(yíng)效率和決策質(zhì)量。
• 多路知識(shí)檢索,融合KV精準(zhǔn)檢索與向量檢索,精準(zhǔn)理解業(yè)務(wù)語(yǔ)義,高質(zhì)量召回領(lǐng)域知識(shí)

基于對(duì)數(shù)據(jù)分析場(chǎng)景用戶問數(shù)行為的深入分析,發(fā)現(xiàn)約30%的查詢中涉及的指標(biāo)或維度表述相對(duì)精準(zhǔn),在知識(shí)召回策略上進(jìn)行了優(yōu)化設(shè)計(jì):
優(yōu)先采用KV精準(zhǔn)檢索機(jī)制,當(dāng)用戶查詢中的關(guān)鍵要素(如指標(biāo)名、維度名)能夠與知識(shí)庫(kù)中的詞根、術(shù)語(yǔ)完全匹配時(shí),直接召回對(duì)應(yīng)的結(jié)構(gòu)化知識(shí)內(nèi)容;而對(duì)于表述不夠完整或模糊的查詢,則啟動(dòng)混合檢索模式,結(jié)合向量檢索和分段檢索等方式進(jìn)行擴(kuò)展召回,確保最大程度覆蓋用戶意圖。
通過多模態(tài)知識(shí)存儲(chǔ)、多路檢索策略、語(yǔ)義理解增強(qiáng)和生成優(yōu)化等技術(shù)創(chuàng)新,顯著提升了保險(xiǎn)數(shù)據(jù)分析的檢索效率和語(yǔ)義理解精準(zhǔn)度。
整個(gè)流程形成了從問題理解到知識(shí)檢索再到內(nèi)容生成的閉環(huán)優(yōu)化體系,既充分利用了結(jié)構(gòu)化知識(shí)的確定性優(yōu)勢(shì),又通過大模型的語(yǔ)義理解能力彌補(bǔ)了用戶查詢的不完整性,最終實(shí)現(xiàn)了保險(xiǎn)數(shù)據(jù)分析場(chǎng)景下高精度、高效率的智能數(shù)據(jù)查詢。
• 基于指標(biāo)體系的轉(zhuǎn)義路徑,將自然語(yǔ)言需求自動(dòng)轉(zhuǎn)化為指標(biāo)查詢語(yǔ)言(MQL)及SQL,實(shí)現(xiàn)語(yǔ)義的精準(zhǔn)轉(zhuǎn)化

數(shù)據(jù)分析的智能體,最終都會(huì)同數(shù)據(jù)庫(kù)進(jìn)行交互,進(jìn)行指標(biāo)數(shù)據(jù)的查詢。借助大模型的能力以及自身指標(biāo)模塊的能力,平臺(tái)實(shí)現(xiàn)了從內(nèi)容檢索結(jié)果到MQL生成,再到SQL生成的完整流程路徑。該流程通過結(jié)合大模型的語(yǔ)義理解能力和指標(biāo)管理模塊的精確控制,來(lái)提供安全、高效的數(shù)據(jù)查詢服務(wù)。
這一模式的核心在于將自然語(yǔ)言處理技術(shù)與保險(xiǎn)行業(yè)的專業(yè)語(yǔ)言體系相結(jié)合,使用戶能夠以自然語(yǔ)言的方式表達(dá)數(shù)據(jù)分析需求,而平臺(tái)則能夠自動(dòng)將其轉(zhuǎn)化為指標(biāo)查詢語(yǔ)言,并進(jìn)一步轉(zhuǎn)換為數(shù)據(jù)庫(kù)查詢語(yǔ)言,從而實(shí)現(xiàn)對(duì)保險(xiǎn)數(shù)據(jù)的高效查詢和分析。這種路徑在保證數(shù)據(jù)安全有效管控的前提下,不僅降低了數(shù)據(jù)分析的門檻,使非技術(shù)人員也能夠輕松地進(jìn)行數(shù)據(jù)分析,而且在數(shù)據(jù)庫(kù)查詢過程中,根據(jù)指標(biāo)熱度情況進(jìn)行預(yù)計(jì)算處理,有效提升數(shù)據(jù)查詢的準(zhǔn)確性和效率,能夠快速響應(yīng)保險(xiǎn)業(yè)務(wù)中的各種復(fù)雜查詢需求。
未來(lái)展望:打造廣義行業(yè)應(yīng)用軟件 深化垂直領(lǐng)域AI應(yīng)用
本次比賽的成功舉辦,不僅促進(jìn)了中科軟不同團(tuán)隊(duì)間在AI應(yīng)用領(lǐng)域的技術(shù)成果交流,還加強(qiáng)了與客戶、合作伙伴和研究機(jī)構(gòu)的溝通。參與評(píng)審的專家對(duì)中科軟的技術(shù)成果給予了充分肯定,并對(duì)公司加大各解決方案的落地力度,推進(jìn)技術(shù)與業(yè)務(wù)的深度融合,早日釋放更大業(yè)務(wù)價(jià)值提出了更高的期望。
未來(lái),中科軟將充分發(fā)揮領(lǐng)域知識(shí)與工程化實(shí)施經(jīng)驗(yàn)等優(yōu)勢(shì),持續(xù)深化垂直領(lǐng)域小模型應(yīng)用,聯(lián)合上下游伙伴,共同服務(wù)客戶,支持遠(yuǎn)端大模型與本地私有化小模型對(duì)接,融入多模態(tài)知識(shí)庫(kù)管理,結(jié)合提示詞工程、數(shù)據(jù)集建設(shè)等能力,推動(dòng)AI與核心業(yè)務(wù)系統(tǒng)群等已有應(yīng)用軟件的融合,擴(kuò)展為廣義行業(yè)應(yīng)用軟件系統(tǒng)群,幫助行業(yè)客戶在保障信息安全的前提下,實(shí)現(xiàn)更高效、精準(zhǔn)的AI落地能力。