777精品久无码人妻蜜桃-欧美在线观看视频一区-99精品网-伊人网中文字幕-99福利网-国产精品99久久久久久武松影视-日本黄色片免费看-免费观看高清在线观看-人妻少妇被粗大爽9797pw-日韩国产在线播放-国产日产成人免费视频在线观看-一区二区人妻-午夜看毛片-国产精品s-午夜免费av-国产精品色情国产三级在-国产精品资源在线

文字識別技術在人事檔案工作中應用的前景研究

所屬分類:期刊常識時間:瀏覽:次

  【摘 要】論文通過對文字識別技術,特別是中文手寫識別技術的分析和文字識別技術的應用研究,及檔案工作的回顧分析,探索并提出文字識別技術在檔案工作中的應用場景,為數(shù)字化時代的檔案工作提供思路。

  【關鍵詞】文字識別;檔案管理;應用場景

檔案工程師論文

  1 引言

  數(shù)據(jù)采集是所有工作的起點,并決定了解決效果的上限。利用文字識別技術,目前大量的文檔采集從專有設備轉(zhuǎn)向了普通手機,數(shù)據(jù)采集者也從專業(yè)辦公人員轉(zhuǎn)向普通用戶。

  2 文字識別技術現(xiàn)狀分析

  計算機文字識別,又名光學字符識別、OCR識別,是利用光學技術和電子信息技術把印在或?qū)懺诩埳系奈淖痔崛〕鰜?,并轉(zhuǎn)換成一種計算機能夠接受、人又可以理解的形式。OCR技術是實現(xiàn)文字高速輸入的一項核心技術。

  2.1 文字識別技術的發(fā)展

  2.1.1 西文識別技術的發(fā)展

  在OCR技術中,印刷體文字識別是開展最早、技術上最為成熟的一個。早在20世紀20年代末期德國科學家最早取得了光學字符識別的專利。西方國家為了將大量報章雜志、文件材料和票據(jù)表格等紙質(zhì)材料輸入計算機進行信息處理,從20世紀50年代就開始了西文文字識別技術的研究。隨著信息技術的飛速發(fā)展與研究人員的不斷探索和完善,西文文字識別技術現(xiàn)已逐漸滲透于各行各業(yè)。

  2.1.2 中文識別技術的發(fā)展

  第一,中文印刷體識別技術的發(fā)展。

  與印刷體西文文字識別相比,漢字的印刷體識別技術的研究是在字母和數(shù)字的印刷體識別基礎上發(fā)展起來的,發(fā)源于20世紀60年代。60年代中期,BIM公司的工作人員發(fā)表了首篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法,識別了一千個印刷體漢字。從70年代以來,日本研究人員在漢字識別方面做了許多探索和發(fā)明,其中比較著名的系統(tǒng)有70年代東芝綜合研究所研制的可以識別兩千個獨立印刷體漢字的識別系統(tǒng);80年代早期,日本武藏野電氣研究所研制的可以識別兩千三百個連續(xù)漢字的識別系統(tǒng),代表了當時漢文OCR識別的最高水平。此外,日本的松下、富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字轉(zhuǎn)換的計算方法,使用了大量專用設備,甚至有的相當于大型機,價格不菲,所以并沒有得到普及和推廣。

  印刷體的中文識別自20世紀80年代中期規(guī)模發(fā)展以來,清華大學、中科院、沈陽自動化研究所等一眾單位分別研制并開發(fā)出了可以量產(chǎn)的印刷體中文OCR識別系統(tǒng)。尤其是由清華電子工程系研制的清華文字識別產(chǎn)品和由漢王開發(fā)的尚書文字識別產(chǎn)品,它們占據(jù)著OCR技術的領先地位,并擁有最多的OCR客戶,代表著印刷體中文OCR技術的未來發(fā)展趨勢。目前,印刷體中文識別技術已經(jīng)從簡單的文字識別逐漸發(fā)展到了表格的自動識別、自動輸入的研究階段,圖片文字混合、各種語言混合下的內(nèi)容提取、語義理解,各種卡片、票據(jù)的識別和歷史文獻的識別等都逐漸開展起來。多種相關的識別系統(tǒng)如雨后春筍般應運而生,如紫光文通推出的名片識別系統(tǒng)和慧視屏幕文字圖像識別系統(tǒng)等。這些新的識別系統(tǒng)的出現(xiàn),標志著印刷體中文識別技術的應用領域得到了擴展。

  第二,中文手寫識別技術的發(fā)展。

  中文手寫識別由于信息的獲取形式不同,可以劃分為非在線中文手寫識別和在線中文手寫識別兩種。在線中文手寫識別所處理的手寫體漢字是書寫者通過物理設備在線輸入獲取的文字信號,筆畫的順序通過計時器采樣實時輸入計算機中。非在線中文手寫識別所處理的手寫漢字是通過掃描設備或手機攝像頭等圖片抓取設備采集到的手寫漢字圖片。

  近年來,百度OCR技術在檢測、識別和端到端三個核心技術領域多次取得并保持了世界第一的排名,具備較明顯的領先優(yōu)勢。騰訊集團的數(shù)平精準推薦團隊研發(fā)了一種適用于各個角度漢字的點對點提取方法,能夠有效解決文字尺度不一、形態(tài)萬千和檢測器對標準過于敏感等問題,大幅提高了測試步驟的準確度。

  推薦閱讀:房地產(chǎn)檔案管理論文怎么發(fā)表

如果您現(xiàn)在遇到期刊選擇、論文內(nèi)容改善、論文投稿周期長、難錄用、多次退修、多次被拒等問題,可以告訴學術顧問,解答疑問同時給出解決方案 。

泽普县| 甘孜县| 福海县| 舟曲县| 安达市| 宁武县| 舞钢市| 上林县| 永寿县| 从化市| 海城市| 工布江达县| 黔西县| 镇原县| 陵水| 新密市| 上林县| 鹰潭市| 调兵山市| 丽水市| 安泽县| 平阴县| 堆龙德庆县| 类乌齐县| 波密县| 平邑县| 临汾市| 依兰县| 迭部县| 濮阳县| 天镇县| 衢州市| 富蕴县| 乐平市| 共和县| 宁国市| 安康市| 大丰市| 紫阳县| 建德市| 紫阳县|