在學(xué)習(xí)生活中經(jīng)常會(huì)使用一些文字識(shí)別軟件去提取一些文字,那么文字識(shí)別的過程是什么呢?這里給大家?guī)淼氖俏淖肿R(shí)別的過程詳細(xì)介紹,一起來看看吧。
經(jīng)常用掃描儀的朋友可能對OCR并不陌生.OCR即Optiotd Character Recognition.中文含義就是光學(xué)字符識(shí)別的意思,就是將圖像作一個(gè)轉(zhuǎn)換,使圖像內(nèi)的圖形繼續(xù)保存.將文字識(shí)別出來.這樣使人們從繁重的鍵盤錄入的勞動(dòng)中解脫出來。目前幾乎所有掃描儀都附帶有OCR識(shí)別軟件.但遺憾的是即使是同一個(gè)OCR軟件識(shí)別的正確率差距也較大。目前比較常見的OCR軟件有清華紫光和尚書六號。
掃描儀的一個(gè)重要功能就是通過OCR軟件(即文字識(shí)別軟件)將掃描后的文字圖像轉(zhuǎn)換成文本格式的文件,使文字處理軟件能夠調(diào)用處理。這樣可以大大提高文字錄入速度,極大地提高工作效率。目前,文字識(shí)別軟件主要有《尚書OCR》、《漢王OCR》和《紫光OCR》等幾種。不過,我們在進(jìn)行文字識(shí)別時(shí)經(jīng)常會(huì)遇到識(shí)別率低的問題,其原因除了被識(shí)別稿件有問題外,主要還是我們沒有掌握好掃描及OCR識(shí)別軟件的使用技巧。那么進(jìn)行文字識(shí)別時(shí)有哪些技巧呢?
一、根據(jù)識(shí)別稿的質(zhì)量進(jìn)行處理
進(jìn)行掃描識(shí)別時(shí),在可能的情況下應(yīng)盡量選擇清晰度與潔凈度都很高的識(shí)別稿,識(shí)別稿的清晰度與潔凈度的不同會(huì)使掃描后的識(shí)別率有很大差距。對一般的印刷稿、打印稿等質(zhì)量較好的文稿進(jìn)行識(shí)別,只要掌握好方法與技巧,其識(shí)別率一般可達(dá)到98%以上。而對報(bào)紙、雜志等清晰度不佳的原稿進(jìn)行識(shí)別,無論使用何種識(shí)別軟件都難以達(dá)到很高的識(shí)別率。
1.對一些帶有下劃線、分隔線等符號的文本原稿,有些OCR軟件是識(shí)別不出的,一般會(huì)出現(xiàn)亂碼。如果必須掃描帶有這些符號的原稿,一是要確保使用的識(shí)別軟件能夠識(shí)別這些符號。二是使用工具擦掉這些特殊符號,使識(shí)別軟件能正確識(shí)別這些文字。 如果掃描后的文檔中含有OCR軟件不能識(shí)別的圖像、圖形和一些特殊符號,可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除,同時(shí)將圖像上一些雜點(diǎn)也一并去除。使圖像中除了文字沒有多余的東西,這可以大大提高識(shí)別率并減少識(shí)別后的修改工作。
2.在掃描識(shí)別報(bào)紙或紙張較薄的文稿時(shí),掃描時(shí)稿件背面的文字通常會(huì)透過紙張?jiān)斐慑e(cuò)字或亂碼,使識(shí)別率大大降低。在對這類原稿掃描時(shí),我們可以在原稿的背面覆蓋一張黑紙,在進(jìn)行正式掃描時(shí),適當(dāng)增加掃描對比度或亮度,即可有效提高識(shí)別率。
3.對于一些圖文混排的原稿,掃描成一幅圖像進(jìn)行全區(qū)識(shí)別會(huì)嚴(yán)重影響OCR軟件的識(shí)別率。我們可以根據(jù)實(shí)際情況將掃描后的版面切分成多個(gè)區(qū)域后再識(shí)別,切分區(qū)域的原則是:將圖形、圖像排除在區(qū)域之外(圖1),盡量把文字字體、字號一致的劃在一個(gè)區(qū)域內(nèi),不要嫌這個(gè)過程煩瑣而選用自動(dòng)切分區(qū)域,手動(dòng)選取掃描區(qū)域會(huì)有更好識(shí)別效果,還應(yīng)注意各識(shí)別區(qū)域不能有交叉情況。
二、掃描識(shí)別稿的操作技巧
1.首先要保持工作環(huán)境的清潔,掃描儀的玻璃板以及若干個(gè)反光鏡片及鏡頭,其中任何一部分臟污都會(huì)影響掃描文字圖像的效果。因此,保持掃描儀的清潔是確保文字圖像掃描質(zhì)量及識(shí)別率較高的重要前提。
2.掃描儀在剛開啟時(shí),光源的穩(wěn)定性較差,而且光源的色溫也沒有達(dá)到正常工作所需的色溫,所以開始掃描以前最好先讓掃描儀預(yù)熱一段時(shí)間。
3.在放置掃描原稿時(shí),把掃描的文字材料擺放在掃描起始線正中,可以最大限度地避免由于光學(xué)透鏡導(dǎo)致的失真而影響識(shí)別率。
4.掃描后的文字圖像經(jīng)常會(huì)有一定角度的傾斜,出現(xiàn)這種情況必須在掃描后使用自動(dòng)或手動(dòng)旋轉(zhuǎn)工具進(jìn)行糾正,OCR軟件一般都設(shè)有自動(dòng)糾偏和手動(dòng)糾偏工具。否則OCR識(shí)別軟件會(huì)將水平筆畫當(dāng)作斜筆畫處理,識(shí)別率會(huì)下降很多。如果掃描后的文字圖像傾斜角度超過15°,傾斜校正會(huì)產(chǎn)生較大的失真和誤差,從而嚴(yán)重影響識(shí)別率,這種情況建議擺正原稿重新掃描。
三、掃描參數(shù)的設(shè)置
掃描參數(shù)的設(shè)置主要包括分辨率的設(shè)置及亮度和對比度的設(shè)置。
1.一般來講,分辨率越高識(shí)別率也就會(huì)越高。但這也不是絕對的,對于一些過大過粗的字體,設(shè)置過高的分辨率,識(shí)別率可能會(huì)降低,而且設(shè)置高分辨率后,掃描速度會(huì)大大降低。根據(jù)實(shí)際經(jīng)驗(yàn),1、2、3號字的文稿推薦使用200dpi,4、小4、5號字的文稿推薦使用300dpi,小5、6號字的文稿推薦使用400dpi,7、8號字的文稿推薦使用600dpi
2.掃描時(shí)適當(dāng)?shù)卣{(diào)整好亮度和對比度值,對識(shí)別率的高低影響很大,在進(jìn)行掃描亮度和對比度的設(shè)定時(shí)(圖3),以掃描后的圖像中文字的筆畫較細(xì)、均勻,且沒有明顯斷點(diǎn)為準(zhǔn)。如果掃描后的文字圖像存在黑點(diǎn)、黑斑或文字線條很粗很黑,分不清筆畫,說明亮度值太小,應(yīng)該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時(shí),說明亮度值太大,應(yīng)減小亮度后再重新掃描。如果要掃描質(zhì)量比較差的文稿,比如報(bào)紙,掃描出的圖像可能會(huì)出現(xiàn)大量的黑點(diǎn),而且在字體的筆畫上也會(huì)出現(xiàn)粘連現(xiàn)象,為獲得較好的識(shí)別結(jié)果,必須仔細(xì)進(jìn)行亮度和對比度值的調(diào)整,反復(fù)掃描多次才能獲得比較理想的效果。
四、識(shí)別后的處理工作
1.文字校正
文字校正是OCR識(shí)別工作中比較煩瑣的一步。一般OCR軟件對可能出現(xiàn)錯(cuò)誤的文字,會(huì)顯示出藍(lán)色標(biāo)記,請用戶確認(rèn)。但在沒有提示出錯(cuò)的地方,也有可能出錯(cuò)。所以大家在校對時(shí)應(yīng)該通讀一遍,以提高文字錄入的準(zhǔn)確率。
2.識(shí)別后文本的保存
如果把識(shí)別后的文本簡單復(fù)制粘貼到Word中保存處理,就需要去掉多余的硬回車,這樣會(huì)非常麻煩。正確方法是:先將識(shí)別后的文本存盤,在存盤時(shí)設(shè)置為軟回車就行了。對于《紫光OCR》,則需要在識(shí)別完成后,選擇文件菜單下的導(dǎo)出命令,將存儲(chǔ)類型選為TXT,段內(nèi)回車字符選為無。注意:一定不要直接存盤,否則不能自動(dòng)去掉文章的硬回車!渡袝鳲CR》、《漢王OCR》和《紫光OCR》都提供了段內(nèi)去除硬回車的功能。