期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒(méi)有后顧之憂
來(lái)源:期刊VIP網(wǎng)所屬分類:統(tǒng)計(jì)學(xué)時(shí)間:瀏覽:次
摘 要:針對(duì)高職院校招生信息化面臨的諸多問(wèn)題,本文借助大數(shù)據(jù)技術(shù),提出了基于大數(shù)據(jù)技術(shù)的高職招生平臺(tái)建設(shè)研究,并對(duì)平臺(tái)的整體架構(gòu)和主要功能設(shè)計(jì)進(jìn)行了探討。本研究整合學(xué)校招生、培養(yǎng)、就業(yè)數(shù)據(jù)并抓取網(wǎng)絡(luò)上的相關(guān)信息,為高職院校輔助制定招生政策提供指導(dǎo)服務(wù)。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);招生平臺(tái)研究;輔助招生決策

隨著現(xiàn)代科技的發(fā)展,信息技術(shù)的應(yīng)用越來(lái)越廣泛,高校招生已經(jīng)有了非常豐富的報(bào)考和招生信息。隨著新高考改革的推進(jìn),高職院校的招生模式不斷創(chuàng)新和多樣化,優(yōu)質(zhì)生源競(jìng)爭(zhēng)也越來(lái)越激烈,各高校在制定招生專業(yè)計(jì)劃時(shí),需對(duì)歷年本校及競(jìng)爭(zhēng)學(xué)校招生錄取過(guò)程中收集到的各種招生數(shù)據(jù)信息進(jìn)行研究分析,同時(shí)也需對(duì)市場(chǎng)上的就業(yè)招聘信息與招生工作進(jìn)行相關(guān)分析,從而更科學(xué)地制定招生政策、招生計(jì)劃,提高生源質(zhì)量,促進(jìn)學(xué)校發(fā)展。
一、問(wèn)題及現(xiàn)狀
1.招生各數(shù)據(jù)源信息不一致
大多數(shù)高校是面向全國(guó)招生的,各省份招生政策存在差異,下載數(shù)據(jù)在結(jié)構(gòu)上有較大差異,考生信息數(shù)據(jù)列、數(shù)據(jù)含義也有較大差別。甚至同一個(gè)省份的多元化招生模式,如提前招生、五年制合作、普高高考、單獨(dú)考試等,不同招生類型考生數(shù)據(jù)信息也不統(tǒng)一。生源數(shù)據(jù)結(jié)構(gòu)和標(biāo)準(zhǔn)不統(tǒng)一,給數(shù)據(jù)共享和統(tǒng)計(jì)分析造成了很大工作量。
2.各系統(tǒng)各自獨(dú)立形成信息孤島
大多數(shù)高校各部門為了工作方便都會(huì)有信息化系統(tǒng),但缺乏統(tǒng)一規(guī)劃,系統(tǒng)間彼此獨(dú)立,互不兼容,造成存在不同的數(shù)據(jù)格式標(biāo)準(zhǔn)和數(shù)據(jù)庫(kù);甚至同一部分在不同時(shí)期建立的系統(tǒng)之間也未能形成信息共享體系,如招生宣傳網(wǎng)、招生數(shù)據(jù)管理、提前招生,就業(yè)管理等多個(gè)系統(tǒng),這些數(shù)據(jù)孤立地存放在本地?cái)?shù)據(jù)庫(kù)里,對(duì)這些系統(tǒng)數(shù)據(jù)隱含的價(jià)值以及數(shù)據(jù)之間的關(guān)聯(lián)沒(méi)有深入挖掘和利用,無(wú)法提供更深層次的決策服務(wù)。
3.“招生-培養(yǎng)-就業(yè)”未形成聯(lián)動(dòng)
高校的人才培養(yǎng)由招生、培養(yǎng)和就業(yè)構(gòu)成,三個(gè)環(huán)節(jié)緊密相連,共同構(gòu)成高校人才培養(yǎng)的系統(tǒng)過(guò)程。通過(guò)多年的招生、培養(yǎng)、就業(yè)數(shù)據(jù)積累,數(shù)據(jù)體現(xiàn)出數(shù)據(jù)量巨大、數(shù)據(jù)價(jià)值增加、數(shù)據(jù)種類多樣、數(shù)據(jù)處理復(fù)雜等重要特點(diǎn),當(dāng)前就業(yè)招聘市場(chǎng)的信息變化常常預(yù)示后繼幾年社會(huì)對(duì)人才需求的變化,高校當(dāng)前招生專業(yè)及人數(shù)的精準(zhǔn)管理需要同時(shí)研究就業(yè)市場(chǎng)的數(shù)據(jù)來(lái)進(jìn)行優(yōu)化,如果沒(méi)有應(yīng)用大數(shù)據(jù)平臺(tái)來(lái)進(jìn)行分析和挖掘,就不能充分利用招生、就業(yè)數(shù)據(jù)的價(jià)值,就無(wú)法形成三個(gè)環(huán)節(jié)數(shù)據(jù)的聯(lián)動(dòng)。
二、 招生平臺(tái)整體架構(gòu)設(shè)計(jì)思路
建立一個(gè)基于大數(shù)據(jù)的招生平臺(tái)必須要有一個(gè)技術(shù)層次合理的系統(tǒng)架構(gòu)(如圖1所示)。平臺(tái)從下往上可以分為四層:一是數(shù)據(jù)治理層,負(fù)責(zé)招生數(shù)據(jù)及相關(guān)就業(yè)數(shù)據(jù)的導(dǎo)入、抓取、清洗、規(guī)范化等數(shù)據(jù)治理工作;二是大數(shù)據(jù)平臺(tái)層,運(yùn)用以Hadoop為代表的大數(shù)據(jù)技術(shù),對(duì)歸集的招生、就業(yè)、招聘數(shù)據(jù)進(jìn)行處理;三是數(shù)據(jù)應(yīng)用層,對(duì)大數(shù)據(jù)處理層處理的結(jié)果基于招生業(yè)務(wù)需要進(jìn)行功能設(shè)計(jì)、統(tǒng)計(jì)分析、數(shù)據(jù)相關(guān)性計(jì)算等,并進(jìn)行大數(shù)據(jù)展示,以及歷年招生大數(shù)據(jù)的展現(xiàn),用于招生政策決策分析;四是應(yīng)用門戶,將數(shù)據(jù)應(yīng)用層產(chǎn)生的業(yè)務(wù)結(jié)果數(shù)據(jù)以網(wǎng)站、手機(jī)APP、手機(jī)微信應(yīng)用等多種形式提供給用戶端使用。
1.數(shù)據(jù)治理層
招生平臺(tái)數(shù)據(jù)來(lái)源:一方面有學(xué)校歷年的招生數(shù)據(jù),數(shù)據(jù)源格式有Excel、各類文件、關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù),這些數(shù)據(jù)的格式差別很大,需要進(jìn)行數(shù)據(jù)規(guī)范化、標(biāo)準(zhǔn)化后導(dǎo)入招生平臺(tái)數(shù)據(jù)倉(cāng)庫(kù);另一方面,為了開展招生、培養(yǎng)、就業(yè)全過(guò)程數(shù)據(jù)的分析研究,我們還要導(dǎo)入學(xué)校學(xué)生培養(yǎng)期間成績(jī)數(shù)據(jù)、企業(yè)招聘數(shù)據(jù)、學(xué)生就業(yè)數(shù)據(jù)等,這些數(shù)據(jù)來(lái)源有Excel、各類文件、關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù),以及通過(guò)Python爬蟲爬取的互聯(lián)網(wǎng)各類網(wǎng)站上的數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)治理就是處理數(shù)據(jù)的策略——收集、驗(yàn)證、存儲(chǔ)、訪問(wèn)、保護(hù)和使用數(shù)據(jù)。數(shù)據(jù)治理層就是針對(duì)這些不同的數(shù)據(jù)源、不同的數(shù)據(jù)格式,通過(guò)數(shù)據(jù)治理工具開展數(shù)據(jù)格式規(guī)整、數(shù)據(jù)值域規(guī)范化、元數(shù)據(jù)標(biāo)準(zhǔn)化相關(guān)工作,同時(shí)通過(guò)ETL工具去除一部分臟數(shù)據(jù),將元數(shù)據(jù)、主數(shù)據(jù)、招生就業(yè)數(shù)據(jù)、企業(yè)招聘參考數(shù)據(jù)生成標(biāo)準(zhǔn)、規(guī)范、有價(jià)值的數(shù)據(jù)集并導(dǎo)入招生平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)。
2.大數(shù)據(jù)平臺(tái)層
大數(shù)據(jù)平臺(tái)層對(duì)數(shù)據(jù)治理后導(dǎo)入的招生、就業(yè)、學(xué)業(yè)、招聘相關(guān)信息進(jìn)行數(shù)據(jù)處理?;跀?shù)據(jù)類型多樣及數(shù)據(jù)量龐大,采用關(guān)系數(shù)據(jù)庫(kù)、NoSql和Hbase數(shù)據(jù)庫(kù)相結(jié)合的模式。Hadoop主要由兩部分組成:一是HDFS,即Hadoop Distributed file System,是屬于Hadoop的分布式文件系統(tǒng);二是Hadoop MapReduce,它是一種分布式計(jì)算引擎,包括大規(guī)模的文字處理、數(shù)據(jù)挖掘等,它分兩個(gè)階段,一個(gè)是Map階段,一個(gè)是Reduce階段,Map階段就是把輸入來(lái)的諸多并行任務(wù)分給各個(gè)節(jié)點(diǎn)分別計(jì)算處理,Reduce則將Map分到各節(jié)點(diǎn)處理的結(jié)果進(jìn)行匯總。Hive是一個(gè)構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)工具,通過(guò)Hive將存儲(chǔ)在HDFS平臺(tái)上的數(shù)據(jù)與傳統(tǒng)SQL結(jié)合起來(lái),輕松地向Hadoop遷移。
3.數(shù)據(jù)應(yīng)用層
根據(jù)大數(shù)據(jù)平臺(tái)層的基礎(chǔ)數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)處理結(jié)果,開發(fā)招生業(yè)務(wù)相關(guān)的招生志愿填報(bào)智能服務(wù)、中高職銜接、招生宣傳管理、招生數(shù)據(jù)綜合分析展現(xiàn)等應(yīng)用,同時(shí)將就業(yè)數(shù)據(jù)、企業(yè)招聘數(shù)據(jù)與招生數(shù)據(jù)進(jìn)行相關(guān)性研究,提供招生政策、招生計(jì)劃來(lái)輔助決策功能。
4.應(yīng)用門戶層
應(yīng)用門戶層是將招生平臺(tái)的功能與數(shù)據(jù)向用戶端推送。用戶端的形式有Web門戶網(wǎng)站、手機(jī)APP、手機(jī)微信公眾號(hào)和微信小程序,同時(shí)將數(shù)據(jù)應(yīng)用層開發(fā)業(yè)務(wù)邏輯封裝成HTML5頁(yè)面提供給第三方用戶端門戶,包括電視終端。用戶端查詢、交互性能基于業(yè)務(wù)邏輯及 Hadoop數(shù)據(jù)平臺(tái)進(jìn)行優(yōu)化。