期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:軟件開發(fā)時間:瀏覽:次
摘要:本文首先對近年來我國信用債違約風(fēng)險事件進行了統(tǒng)計分析,歸納出造成違約的四類風(fēng)險,利用隨機森林算法抽取了債券違約的重要特征;然后基于XGBoost算法建立了債券違約風(fēng)險預(yù)測模型,利用主成分分析方法,再結(jié)合經(jīng)濟邏輯分析,提取出6個債券違約風(fēng)險因子,并闡釋了違約風(fēng)險因子的作用機制。實證結(jié)果表明,本文所構(gòu)建的違約預(yù)測模型對信用債違約的預(yù)測具有較高的準確性。
關(guān)鍵詞:XGBoost算法 信用債 違約風(fēng)險 預(yù)測

推薦閱讀:聲音識別算法論文發(fā)表投稿期刊
隨著我國債券市場不斷發(fā)展,債券違約等風(fēng)險事件也有所增多。如何找出債券違約的潛在誘發(fā)因素,據(jù)此防范誘發(fā)系統(tǒng)性風(fēng)險顯得至關(guān)重要。
關(guān)于債券違約的主要研究成果及本文研究思路
近年來,國外學(xué)者在債券違約相關(guān)方面進行了一定的理論與實證研究。Kay等(2014)用美國1866—2010年公司債券違約數(shù)據(jù)研究了債券市場危機的宏觀經(jīng)濟影響因素;Azizpour、Giesecke和Schwenkler(2018)研究了美國公司債違約聚集的原因,發(fā)現(xiàn)違約傳染是其中很重要的一個原因。隨著2014年我國債券剛性兌付的打破,國內(nèi)學(xué)者也開始研究債券違約問題。如曹萍(2015)基于經(jīng)典的KMV模型研究了地方政府債券違約風(fēng)險;黃小琳、朱松和陳關(guān)亭(2017)研究了債券違約對涉事信用評級機構(gòu)的影響。然而,上述研究重點關(guān)注債券違約的事后分析,缺乏前瞻性。
與此同時,國內(nèi)外學(xué)者也運用多種模型進行信用債違約預(yù)測。如Ohlson(1980)首次提出邏輯回歸預(yù)測違約概率;Lombardoa(2018)采用“多觀測”和“多維”數(shù)據(jù)清理方法,將真實點對點交易數(shù)據(jù)輸入現(xiàn)代機器學(xué)習(xí)算法LightGBM中進行計算,得到的結(jié)果對實際情況具有較好的擬合效果;胡蝶(2018)運用隨機森林模型對債券違約進行分析,找出了6個重要特征(即篩選出來的變量)。吳世農(nóng)和盧賢義(2001)選取21個財務(wù)指標為變量,進行判別分析、多元回歸分析、Logistic回歸分析,建立了三種財務(wù)困境模型;張雙長和張旭(2017)研究了違約因素如何分解,發(fā)現(xiàn)按資金償付來源劃分,可分為內(nèi)源性資金、外源性資金、協(xié)調(diào)性資金,債券能否按期兌付受經(jīng)營狀況、融資環(huán)境及非經(jīng)濟因子共同影響。
現(xiàn)有研究對我國債券違約預(yù)測的成果不多,主要是因為債券違約事件近幾年才相對較多出現(xiàn),現(xiàn)有研究所采用的預(yù)測方法也相對簡單。
本文將按以下結(jié)構(gòu)進行研究。一是簡述債券違約現(xiàn)狀,并對造成債券違約的風(fēng)險源進行劃分,基于這些風(fēng)險源收集原始數(shù)據(jù)。二是介紹研究過程中將應(yīng)用到的隨機森林算法和XGBoost+LR1模型。三是報告實證過程及結(jié)果。實證過程為先用隨機森林算法篩選出重要的變量,對其中的離散型變量運用頻率表進行分析,對其中的連續(xù)型變量進行主成分分析。繼而將這些重要變量輸入到XGBoost算法中完成特征變換,再將特征變換后得到的新特征輸入到LR模型中進行預(yù)測。然后對預(yù)測結(jié)果進行評價(見圖1)。四是得出結(jié)論、提出建議。
我國信用債違約現(xiàn)狀與風(fēng)險因素
(一)債券違約現(xiàn)狀
根據(jù)數(shù)據(jù)庫Wind的劃分標準,本文所指違約事件包括信用債的本息展期、交叉違約、擔(dān)保違約、技術(shù)性違約、提前到期未兌付、未按時兌付本金等情況。自2014年以來的統(tǒng)計數(shù)據(jù)顯示,2018年違約事件相對較多(見圖2)。
筆者認為,受融資環(huán)境惡化、中美貿(mào)易戰(zhàn)及金融監(jiān)管趨嚴等因素疊加影響,國內(nèi)外經(jīng)濟環(huán)境日益趨緊,融資渠道收窄,因此2018年信用債違約風(fēng)險集中顯現(xiàn)。
(二)債券違約風(fēng)險因素分析
本文將從內(nèi)外兩個方面考慮債券違約原因。其中,內(nèi)部原因主要與企業(yè)自身經(jīng)營相關(guān),包括公司治理、相關(guān)方支持、經(jīng)營多元化等;外部原因與融資環(huán)境和政策相關(guān),主要與公司增發(fā)債券的難易程度及公司再融資周轉(zhuǎn)狀況相關(guān)。
根據(jù)光大證券關(guān)于信用債違約的研究報告(2018),發(fā)行主體經(jīng)營狀況表現(xiàn)不佳是債券違約的主要誘因,即在2018年之前,內(nèi)因?qū)π庞脗`約事件的解釋力度較強。因此本文重點考慮違約的內(nèi)部原因,梳理出四類主要內(nèi)部風(fēng)險因素:民企治理風(fēng)險、國企治理風(fēng)險、相關(guān)方支持風(fēng)險和公司經(jīng)營風(fēng)險。
表1中的風(fēng)險因素均會對公司內(nèi)部經(jīng)營狀況及財務(wù)狀況產(chǎn)生影響,并進而影響外部因素,如銀行授信額度、第三方擔(dān)保額度,從而對發(fā)行主體外部籌資能力產(chǎn)生影響。同時,外部融資環(huán)境等因素也會對公司再融資難度產(chǎn)生影響,表現(xiàn)為銀根縮緊時銀行惜貸,進而對債券本息兌付產(chǎn)生影響。由此可知,導(dǎo)致債券違約的因素環(huán)環(huán)相扣。
算法與模型介紹
(一)利用隨機森林算法進行降維
原始數(shù)據(jù)所含變量多、維度高,為了去除冗余信息、提高效率,本文采用隨機森林算法對數(shù)據(jù)集進行降維,過濾掉那些對債券違約幾乎沒有影響的變量。
隨機森林算法是一種基于Bagging算法的決策樹集成學(xué)習(xí)算法,該算法基于信息增益2計算變量重要性程度,并進行排序,可以從原始特征中篩選出重要性排名靠前的變量。
(二)利用XGBoost算法進行特征變換
特征變換即通過線性或非線性的方式,將原變量變換成更加合適的新變量,變換后得到的新變量稱為特征。特征變換的目的在于從原始變量中獲取潛在的獨立成分,從而提取隱含信息。
本文利用XGBoost算法進行特征變換。該算法是一種基于Boosting算法的回歸決策樹集成學(xué)習(xí)算法,其預(yù)測精度高、穩(wěn)定性好,對數(shù)據(jù)中的噪聲、多重共線性等問題敏感度較低。該算法在目標函數(shù)中引入正則化(regularization)項,有著較好的泛化能力與擬合能力。通常,運用XGBoost算法進行特征變換的步驟如下。
第一步,利用分布向前算法訓(xùn)練XGBoost。
先構(gòu)造 函數(shù)列,其中:
通過優(yōu)化目標函數(shù)來求解參數(shù) :
其中, 代表單棵決策樹。
在目標函數(shù) 中, 為一常數(shù)懲罰項。 為損失函數(shù),代表預(yù)測的精確度。 為正則化項,式中前一項反映了樹結(jié)構(gòu)的復(fù)雜度, 為樹結(jié)點數(shù);后一項反映了權(quán)重整體的平滑程度, 為結(jié)點權(quán)重;J為常數(shù), 、 為參數(shù),體現(xiàn)了兩項間的權(quán)衡。
需要通過反復(fù)迭代構(gòu)造函數(shù) ,訓(xùn)練參數(shù) ,直至訓(xùn)練好 。
第二步,將數(shù)據(jù)集代入訓(xùn)練好的模型中。對每一個樣本 ,XGBoost算法可以生成一系列葉子結(jié)點的值,以這一列值(向量)作為特征變換后的數(shù)據(jù)。如此得到特征變換后的數(shù)據(jù)集。
(三)利用XGBoost+LR模型進行預(yù)測
將特征變換后的數(shù)據(jù)集代入LR模型中,得到最終預(yù)測結(jié)果。
LR數(shù)學(xué)模型為:
其中,w、x分別表示系數(shù)和變量,P(Y=1︱x)表示違約率。
XGBoost+LR嵌套結(jié)構(gòu)如圖3所示。將原數(shù)據(jù)輸入到XGBoost算法,通過特征變換后產(chǎn)生一系列新的變量 ,即特征變換后的數(shù)據(jù)。再將這一系列新的變量輸入到LR中,完成最終的預(yù)測。
以上操作過程相當于對原信息進行分解再組合。這既彌補了XGBoost這類提升樹算法低估類別型變量重要性的弱點,也實現(xiàn)了自動提取特征的功能。
實證研究過程
(一)數(shù)據(jù)描述與預(yù)處理
根據(jù)風(fēng)險因素分析結(jié)果,本文篩選出43個或有潛在影響變量,部分變量如表2所示。同時,選擇在2013年到2018年10月22日期間到期的債券,共25907個樣本,其中90個樣本違約,占總樣本的比例為0.347%。每個樣本均有43個變量。
為緩解樣本中違約與非違約數(shù)據(jù)極度不平衡的問題,對原始數(shù)據(jù)集中非違約債券進行欠采樣,對違約債券進行重復(fù)采樣,并按均值填補數(shù)值型變量中的缺失值,按原概率填補類別型變量中的缺失值,對類別型變量進行one-hot編碼。
(二)利用隨機森林算法抽取重要特征,并提取債券違約因子
利用隨機森林算法計算各變量的重要性得分。以0.0075為標準,去掉低于該標準的變量——這意味著該變量對判斷債券是否違約所能提供的信息甚微,將其余變量選入重要特征集中。將隨機森林算法輸出的重要特征集分成兩部分——數(shù)值型和類別型,分別進行債券違約因子挖掘。
1.對數(shù)值型特征的處理
對數(shù)值型特征進行主成分分析,生成碎石圖(見圖4)及主成分結(jié)構(gòu)表(見表2)。圖表數(shù)據(jù)顯示,所選取的前4個主成分加總幾乎能夠解釋100%的信息。
主成分結(jié)構(gòu)表顯示了變量對于主要因子的解釋力度。表2顯示,第一主成分受應(yīng)收賬款周轉(zhuǎn)天數(shù)和營業(yè)周期影響較大。應(yīng)收賬款周轉(zhuǎn)天數(shù)和營業(yè)周期體現(xiàn)了公司獲取現(xiàn)金流的能力,因此本文將第一主成分命名為“周轉(zhuǎn)能力因子”。第二、第三主成分相結(jié)合,衡量公司的籌資能力、投資盈利能力,因此本文將第二、第三主成分分別命名為“籌資活動現(xiàn)金流量因子”與“投資活動現(xiàn)金流量因子”。第四主成分受經(jīng)營活動產(chǎn)生的現(xiàn)金流量影響大,因此將其命名為“經(jīng)營活動現(xiàn)金流量因子”。
整體來看,可以認為在公司層面上,現(xiàn)金周轉(zhuǎn)能力、投資盈利能力、籌資能力、公司主營業(yè)務(wù)盈利能力這幾項,都與債券是否違約有很強的關(guān)系,其分別對應(yīng)周轉(zhuǎn)能力因子、投資活動現(xiàn)金流量因子、籌資活動現(xiàn)金流量因子和經(jīng)營活動現(xiàn)金流量因子。
2.對類別型特征的處理
關(guān)于類別型特征,主要考察6個特征重要性得分大于0.0075的變量,如圖5所示。繼而通過頻數(shù)統(tǒng)計,結(jié)合其經(jīng)濟金融邏輯進行分析。
圖5 特征重要性得分
(編輯注:橫坐標下的文字“債券年份”“評級機構(gòu)”“大股東類型”“是否含權(quán)債券”分別改為“債券存續(xù)期間”“債項評級”“第一大股東類型”“是否為含權(quán)債券”)
從圖5可見,省份、債券存續(xù)期間、所屬行業(yè)這三個特征對債券違約的影響較大。其背后邏輯在于省份、債券存續(xù)期間、所屬行業(yè)等因素體現(xiàn)了宏觀經(jīng)濟形勢與行業(yè)景氣度,這些變量作為外部因素或宏觀因素,直接影響公司的經(jīng)營情況。
債項評級也有著重要的影響??傮w上而言,機構(gòu)對債券的評級能夠較為有效地區(qū)分出違約風(fēng)險較大的債券。
從Wind的中債債券一級分類、第一大股東類型來看,這兩項對債券是否違約也有顯著影響,具體如表3、表4所示。從違約概率來看,第一大股東為外資企業(yè)、個人的債券出現(xiàn)了更多的違約案例,或許是因為這兩類債券在政府救助方面得到的支持較少。