公司新聞
[點擊量:2408][來源:創(chuàng)選寶防靜電專家(www.paf0.cn)]
2019-08-06
金融行業(yè)是數(shù)據(jù)驅(qū)動的行業(yè),很多傳統(tǒng)金融業(yè)務(wù)對行情、資訊等金融數(shù)據(jù)已經(jīng)形成了高度依賴。知識圖譜作為人工智能時代的“知識工程”、“專家工程”,承載了對紛繁復(fù)雜、多源異構(gòu)的金融資訊大數(shù)據(jù)加工整合的重任,已經(jīng)得到行業(yè)從業(yè)人士的普遍認同。
知識圖譜可以將金融資訊大數(shù)據(jù)中的實體關(guān)系屬性等信息,用極其簡單的三元組的方式聚合在一起,形成一個金融語義網(wǎng)絡(luò)。因為有統(tǒng)一的數(shù)據(jù)表示,所以可以形成統(tǒng)一的數(shù)據(jù)消費,這種機器可以看得懂的大數(shù)據(jù),沒有理由不在智能金融業(yè)務(wù)場景中大放異彩。在探索與落地的過程中,一些難點仍有待突破。
看見
語義鴻溝是一個人工智能專業(yè)術(shù)語,用來解釋傳統(tǒng)金融與智能金融的溝通障礙非常貼合。這里有兩個層面的問題,一個是“看見”的問題,一個是“信任”的問題。
傳統(tǒng)的金融IT是由業(yè)務(wù)部門提業(yè)務(wù)需求,IT部門負責轉(zhuǎn)化為軟件需求,IT供應(yīng)商負責提供解決方案或者軟件產(chǎn)品。這套方法在數(shù)字金融時代、互聯(lián)網(wǎng)金融時代都非常有效,為何在智能金融時代就玩不轉(zhuǎn)了呢?這里就存在著能不能“看見”的問題。
簡單來說,人工智能的數(shù)據(jù)科學家看不見業(yè)務(wù)部門的業(yè)務(wù),而金融機構(gòu)的業(yè)務(wù)人員也看不見自己的某項業(yè)務(wù)問題還可以用人工智能的方法來解決,從而也提不出這樣的需求。所以在人工智能團隊和業(yè)務(wù)團隊之間,必須有一類角色要解決這個問題,負責創(chuàng)造性地提出某些業(yè)務(wù)場景如何用人工智能(大數(shù)據(jù)技術(shù))加以改造。這類角色最好是業(yè)務(wù)出身,并且懂一些人工智能技術(shù),他們是典型的創(chuàng)新型人才,其當下的重要作用不亞于數(shù)據(jù)科學家。
信任
語義鴻溝的第二個層面是信任問題。人工智能結(jié)果的可靠性、質(zhì)量的保障以及過程的可解釋性,是產(chǎn)生信任問題的根源。舉個例子,面對人工審核的合同和用AI審核的合同,即使后者的準確率能夠高達98%,傳統(tǒng)業(yè)務(wù)人員可能依然傾向于人工審核的合同,因為他需要關(guān)鍵條款不能出錯,而不是一個針對通篇的高概率的正確。這背后,隱藏的是經(jīng)年的用戶教育問題。
數(shù)據(jù)質(zhì)量
比之于語義鴻溝,數(shù)據(jù)質(zhì)量對金融知識圖譜的推廣有更大的影響。知識圖譜是一份“大而全”的數(shù)據(jù),數(shù)據(jù)的增量部分是很少的,大部分數(shù)據(jù)是對已有數(shù)據(jù)的再組織,成果就是由“多源異構(gòu)數(shù)據(jù)”轉(zhuǎn)化為統(tǒng)一的schema。不過,數(shù)據(jù)的質(zhì)量以及數(shù)據(jù)的缺失,影響了圖譜的發(fā)力。
從schema構(gòu)建來說,這張圖已經(jīng)清晰描述出了企業(yè)核心譜系,實體上,覆蓋了公司、產(chǎn)品、行業(yè)、概念、地域,甚至資訊、研報、事件、指標也做了定義;關(guān)系上,股權(quán)關(guān)系為主,還覆蓋了產(chǎn)業(yè)鏈上下游。但如果這個schema定義的知識圖譜,實體關(guān)系只有1、2度這樣的深度,那么他跟上市公司三方數(shù)據(jù)沒什么區(qū)別。知識圖譜的強大不在于信息的詳盡,而在于信息的穿透。
以股權(quán)穿透為例,因為信息批露的原因,上市公司的一層股東關(guān)系很容易獲得,諸如:10大股東、10大流通股東、聯(lián)營公司、母公司、子公司。而在二層股東關(guān)系里,可能會有一些非上市公司,非上市公司沒有信息批露的義務(wù),所以有可能只能獲取有限的工商股權(quán)數(shù)據(jù)。這就使得上圖定義的如此強大的schema變得非常尷尬,當知識圖譜schema定義的很多槽無法得到有效填充的情況下,知識圖譜的信息穿透等分析能力就會大為減弱,這種數(shù)據(jù)的缺失,影響著金融知識圖譜的發(fā)展。
筆者曾率隊做過一個股權(quán)方面的課題,業(yè)務(wù)本身比較簡單,以股權(quán)投資超過一定比例作為控制邏輯,計算上市公司包含在哪些資本系里面,并給出實控公司、核心成員以及擴展成員。該課題實踐下來,最難的不是連通子圖的計算,也不是上下穿透的圖分析,而是找到并清洗出一份合格的股權(quán)數(shù)據(jù)。這其中存在很多問題,例如某個公司股權(quán)信息為空,最大股權(quán)小于規(guī)定比例等等。
如果用工作量來度量下這個課題,算法占20%,應(yīng)用開發(fā)占20%,數(shù)據(jù)源比對占30%,數(shù)據(jù)處理占30%。數(shù)據(jù)積累和沉淀,道路漫漫。
那么未來金融知識圖譜的發(fā)展之路應(yīng)該如何走呢?融合產(chǎn)業(yè)鏈數(shù)據(jù)與引入“事件”是兩種值得思考與探索的方式。
融合產(chǎn)業(yè)鏈數(shù)據(jù)
金融知識圖譜為何需要產(chǎn)業(yè)鏈數(shù)據(jù)呢?企業(yè)分析首先從關(guān)系分析開始,對于上市公司來說,企業(yè)的關(guān)系分析除了基本的企業(yè)鏈信息之外,無外乎兩大類關(guān)系:公司的股權(quán)關(guān)系,實體公司的產(chǎn)業(yè)鏈條關(guān)系。
公司的股權(quán)關(guān)系包括:股東關(guān)系、投資關(guān)系、母子公司關(guān)系、擔保關(guān)系、質(zhì)押關(guān)系等等;產(chǎn)業(yè)鏈關(guān)系則包括:公司主營產(chǎn)品信息、公司所屬行業(yè),產(chǎn)品所屬細分行業(yè),產(chǎn)品上下游、行業(yè)上下游等等。
一個公司的股權(quán)信息代表了一個實體公司在金融層面的一些運作,股權(quán)投資、股權(quán)激勵、增資擴股、股權(quán)質(zhì)押、股權(quán)擔保等都屬于這類業(yè)務(wù),股權(quán)結(jié)構(gòu)的變化可能會體現(xiàn)出公司的經(jīng)營風險、業(yè)務(wù)前景等;但對一個實體公司來說,股權(quán)層面的操作都可以看作是副業(yè),實體產(chǎn)業(yè)的經(jīng)營才是主業(yè)。
從投資研究的角度看,實體產(chǎn)業(yè)的估值、行業(yè)地位、市場占有率、上下游構(gòu)成,這類信息構(gòu)成了實體公司的投資分析基礎(chǔ),這些數(shù)據(jù)都屬于產(chǎn)業(yè)鏈數(shù)據(jù)。產(chǎn)業(yè)鏈數(shù)據(jù)是當下行研分析師做投資研究的基礎(chǔ)數(shù)據(jù),知識圖譜對于公司的關(guān)系分析,尤其產(chǎn)業(yè)鏈條的關(guān)系分析,是核心。
產(chǎn)業(yè)鏈數(shù)據(jù)配合股權(quán)數(shù)據(jù),可以解決實體+金融兩類主要關(guān)系的業(yè)務(wù)分析。此時的金融知識圖譜才是在數(shù)據(jù)上完整的知識圖譜。這份知識圖譜數(shù)據(jù)才能夠覆蓋投研、風控、投資、營銷服務(wù)等金融各類場景的數(shù)據(jù)服務(wù)需求。
引入“事件”
整合了產(chǎn)業(yè)鏈數(shù)據(jù)的金融知識圖譜,能夠進一步演化為產(chǎn)業(yè)金融知識圖譜。有了產(chǎn)業(yè)分析能力的金融知識圖譜,就可以試水行研風控等金融核心業(yè)務(wù)了。
筆者在智能金融實踐中,經(jīng)常會遇到如下的一些問題:原材料漲價,對行業(yè)上下游的公司有什么影響?某P2P平臺暴雷,這個風險事件對上市公司會有什么影響?CPI拐點出現(xiàn),該指標對哪些行業(yè)、哪些公司有哪些影響?
這類問題不是簡單的數(shù)據(jù)問題,也不是在找企業(yè)的某種關(guān)系,而是投研/風控領(lǐng)域經(jīng)常面對的業(yè)務(wù)研究問題。這類問題的起點是一個個具體的事件,尋找的答案是事件的影響分析。
這類問題在過去基本存在于行研風控專家的業(yè)務(wù)模型里,而現(xiàn)在知識圖譜作為企業(yè)關(guān)系分析的利器,企業(yè)等實體的關(guān)系網(wǎng)絡(luò)的存儲載體,讓我們對于這類問題可以有新的方案加以應(yīng)對,將傳統(tǒng)業(yè)務(wù)研究嫁接到基于知識圖譜的人工智能基礎(chǔ)設(shè)施上,而支撐這類業(yè)務(wù)研究的,是構(gòu)建在圖譜數(shù)據(jù)中臺之上、投研風控業(yè)務(wù)之下的一個中間業(yè)務(wù)處理層——事件圖譜。
區(qū)別于傳統(tǒng)事件驅(qū)動的“事件”,這里的“事件”是廣義上的事件。事件圖譜是指將新聞、公告、輿情等各類資訊,用人工智能分類的方法進行事件類型識別,將識別好的事件和關(guān)聯(lián)主體跟金融知識圖譜做關(guān)聯(lián),從而形成事件圖譜。事件圖譜也不同于國內(nèi)學術(shù)界提出的事理圖譜,事理圖譜更多的是從NLP角度將新聞資訊的內(nèi)容格式化為知識圖譜,形成大數(shù)據(jù),進而做推理分析。
事件圖譜的作用主要體現(xiàn)在兩方面:一個是事件識別,一個是事件的影響分析。所謂事件識別,可以理解為事件的建模,或者說事件本體的構(gòu)建,簡單來說就是用模型描述一類事件,比如訴訟事件可以簡單建模成{事件類型:訴訟事件;影響標的:某公司;情感分析:-0.5;事件熱度:0.8;事件影響度:0.5};也可以對此進行更加復(fù)雜的建模,把原告、被告、訴訟金額、訴訟地點等識別出來,從而更加精準的對事件加以描述。
事件的影響分析有兩個維度,一是事件回測,二是事件傳播影響。事件回測是對歷史上同類事件的發(fā)生做一個數(shù)據(jù)統(tǒng)計分析,對于上市公司而言,回測的目標可以是設(shè)定為行情的收益率、波動率或者某個金融工程的具體模型,目的是看歷史上同類事件發(fā)生后,對于相關(guān)公司會有什么樣的影響。
事件傳播影響則要借助金融知識圖譜,通過事件識別命中某個事件主體(可能是某個公司、行業(yè)、產(chǎn)品,抑或是某個宏觀數(shù)據(jù)行業(yè)指標等),將該主體關(guān)聯(lián)到金融知識圖譜里,可以查看跟這個事件相關(guān)的企業(yè)鏈信息、股權(quán)鏈信息和產(chǎn)業(yè)鏈信息。事件自身的正負面、影響度、熱度會沿著知識圖譜實體的關(guān)系網(wǎng)絡(luò)進行傳播,對這個傳播影響進行定性或者定量的分析就是事件圖譜要解決的核心問題了。
所以,事件圖譜通過對新聞資訊輿情所描述的事件進行建模,并對其做定性或者定量的影響分析,從而在金融大數(shù)據(jù)和投研風控的業(yè)務(wù)研究中加入了一層智能事件的圖譜分析。事件圖譜聯(lián)合企業(yè)畫像和標簽系統(tǒng),將為傳統(tǒng)金融向智能金融演化提供強有力的人工智能的業(yè)務(wù)支撐。
當使用知識圖譜的業(yè)務(wù)由點及面,各類數(shù)據(jù)通過各個項目慢慢匯集在一起,并且在各個場景中逐步產(chǎn)生數(shù)據(jù)的增量價值,金融知識圖譜的威力也會進一步凸顯。
(來源:億歐)