東坡下載:內(nèi)容最豐富最安全的下載站!

首頁IT技術(shù)軟件教程 → 讓掃描儀文字識別更準(zhǔn)確的方法 如何讓掃描儀文字識別更準(zhǔn)確

讓掃描儀文字識別更準(zhǔn)確的方法 如何讓掃描儀文字識別更準(zhǔn)確

相關(guān)文章發(fā)表評論 來源:本站整理時(shí)間:2014/12/18 18:17:07字體大。A-A+

更多

作者:專題點(diǎn)擊:634次評論:0次標(biāo)簽: 掃描儀文字識別 文字識別 掃描儀文字識別準(zhǔn)確

要問掃描儀是做什么的?一般的用戶都會說拿來掃描照片之類的呀,殊不知掃描儀在錄入文字材料方面也是一把“好手”哦,通過掃描儀來快速掃描、識別文字,已經(jīng)成為許多單位用戶和個(gè)人用戶每天必修的“功課”之一。不過在用掃描儀識別、錄入文字材料的過程中,不少人往往只會用掃描儀缺省的設(shè)置參數(shù)來掃描識別文字,遺憾的是這種識別方法常常無法準(zhǔn)確地將材料中的文字識別出來。為了有效提高辦公效率,學(xué)會一些文字識別的操作技巧,從而提高文字材料的錄入速度是非常有必要的,F(xiàn)在,小編就將自己在掃描識別文字過程中總結(jié)出來的一些經(jīng)驗(yàn)貢獻(xiàn)出來,與各位朋友分享一下!

從識別軟件挖掘。

也許有人說,識別軟件不是內(nèi)置在掃描儀驅(qū)動程序中,這有什么好挖掘的?其實(shí)不然,不同的OCR掃描識別軟件在文字識別的能力以及功能方面是不完全相同的,而挑選一款操作方便、識別能力較強(qiáng)的識別軟件是提高文字識別準(zhǔn)確率的前提。一般用戶通常都會使用掃描儀內(nèi)置的OEM識別軟件,不過這種識別軟件相比其他專業(yè)的識別軟件來說,識別功能不強(qiáng),文字識別的準(zhǔn)確率也不是很高,甚至還無法對中文字體進(jìn)行識別;而類似尚書OCR6.0、清華紫光OCR2003等專業(yè)的文字識別軟件,不但在文本自動識別方面有較強(qiáng)的能力,而且在使用功能方面也比較突出一些,選擇這些專業(yè)的識別軟件可以很輕松地提高文字的識別準(zhǔn)確率。

當(dāng)然,要是目標(biāo)文稿中包含的文字具有復(fù)雜的格式,比方說段落中出現(xiàn)了首行縮進(jìn)格式,文字字體使用了斜體、粗體等格式,那么有的OCR軟件在識別這些格式時(shí),常常會識別出亂碼來;所以當(dāng)我們在掃描識別一些具有特殊格式的文字材料時(shí),一定要選用可以支持文字格式的掃描識別軟件,只有這樣才能獲得較高的文字識別成功率。

從放置操作挖掘

不少人都認(rèn)為放置掃描原稿是一件十分簡單的事情,只要將原稿正面的內(nèi)容對著平板玻璃放置,然后蓋上掃描儀的上面蓋就可以了;其實(shí)原稿的放置操作也會影響文字的準(zhǔn)確識別,正確放置文稿的方法應(yīng)該為先將文稿正面的內(nèi)容對著平板玻璃放置,然后將文稿位置調(diào)整到掃描起始線正中,同時(shí)確保掃描儀的平板玻璃表面完整和干凈,最后放下掃描儀的上面蓋。要是文稿放置有一定傾斜角度的話,一定要在掃描完成后使用旋轉(zhuǎn)工具對傾斜文字進(jìn)行糾正,不然的話掃描識別程序會將水平筆劃看作斜筆劃來處理,這樣文字識別的正確率就會下降很多。

從識別參數(shù)挖掘

在使用OCR識別軟件來識別目標(biāo)文稿中的文字時(shí),常常需要先在識別軟件中進(jìn)行合適的參數(shù)設(shè)置,畢竟使用默認(rèn)的參數(shù)設(shè)置是無法獲取最令人滿意的效果的。一般來說,需要設(shè)置的識別參數(shù)主要包括掃描模式設(shè)置、分辨率設(shè)置、亮度對比度設(shè)置等;在識別純文字材料時(shí),往往只需要將識別軟件的掃描模式設(shè)置為“黑白”模式就可以了,要是將掃描模式設(shè)置為“彩色”或“灰度”模式的話,只會增加掃描識別的時(shí)間,而且也不會提高文字識別的準(zhǔn)確率。要是被識別的目標(biāo)文稿質(zhì)量比較差時(shí),我們可以嘗試將掃描模式設(shè)置為“灰度”模式,然后用相關(guān)的掃描軟件對掃描結(jié)果進(jìn)行一下處理再繼續(xù)進(jìn)行識別,這樣一來文字識別準(zhǔn)確率就會大大提高。

在進(jìn)行分辨率設(shè)置時(shí),通常將分辨率設(shè)置得越低,掃描儀掃描文本的速度就越快,但掃描出來的文稿效果就越差;相反,將掃描分辨率設(shè)置得越高,掃描儀掃描文本的速度就越慢,但掃描出來的文稿效果就越好。不過這一理論并不是千篇一律的,畢竟將掃描分辨率設(shè)置得太高的話,文稿紙張上的小斑點(diǎn)都有可能被識別成標(biāo)點(diǎn)符號,這樣一來文字識別準(zhǔn)確率反而會得不到提高。經(jīng)過筆者多次測試發(fā)現(xiàn),如果目標(biāo)文稿中的文字字號為1、2、3號的話,那我們只需要將掃描分辨率設(shè)置為200dpi就可以了;要是目標(biāo)文稿中的文字使用的是4號或5號字體的話,那可以將掃描分辨率設(shè)置為300dpi;高于5號的文字字體,必須將掃描分辨率設(shè)置為400dpi以上,但不能超過掃描儀的光學(xué)分辨率。

使用合適的掃描亮度與掃描對比度,可以確保目標(biāo)文稿中的文字黑白分明,這對提高文字識別準(zhǔn)確率非常關(guān)鍵;在調(diào)整掃描亮度與對比度時(shí),我們應(yīng)該仔細(xì)觀察掃描預(yù)覽效果,當(dāng)發(fā)現(xiàn)預(yù)覽效果中的文字筆畫較細(xì)但并沒有斷開時(shí),就表明此時(shí)的亮度和對比度數(shù)值是最合適的。如果在識別過程中,發(fā)現(xiàn)預(yù)覽效果中的文字線條較粗較黑而且筆畫分不清時(shí),就表明此時(shí)的亮度數(shù)值設(shè)置得小了,我們應(yīng)該嘗試提高一些亮度值來看看;要是發(fā)現(xiàn)預(yù)覽效果中的文字線條看上去凹凸不平,甚至有斷線或殘缺不全的現(xiàn)象時(shí),那就表明此時(shí)的掃描亮度調(diào)整得有點(diǎn)高了,我們應(yīng)嘗試將亮度數(shù)值降低一些再看看。

此外,“輸出信息”的參數(shù)設(shè)置也會對文字的識別準(zhǔn)確率帶來一定的影響;在缺省狀態(tài)下,“輸出信息”的數(shù)值常常會被設(shè)置為100%,這種參數(shù)設(shè)置僅僅適合那些新墨粉打印出來的文字材料或者印刷出來的報(bào)紙、書籍等,相反在掃描識別那些文字色彩比較淺的文稿時(shí),最好能夠?qū)ⅰ拜敵鲂畔ⅰ钡臄?shù)值調(diào)整得稍微大一些,不然的話掃描出來的圖象看上去很不清晰,而且文字識別的準(zhǔn)確率也不會很高;當(dāng)然“輸出信息”的數(shù)值也不能設(shè)置得過大,不然會延長掃描識別的時(shí)間,而且還會使識別出來的文字筆畫看不清楚。

從識別原稿挖掘

在掃描識別不同類型的原稿時(shí),需要用不同的識別處理方法,才能保證得到比較理想的識別效果。如果原稿為報(bào)紙或者半透明文稿的話,那么在掃描識別之前要是不采取任何措施的話,報(bào)紙背面的文字很容易透過紙張表面來混淆目標(biāo)文字的字形,從而會對文字的正確識別造成不小的障礙。為此在掃描識別這類文稿時(shí),最好在原稿背面蓋上一張黑紙,同時(shí)在掃描過程中,將對比度稍微提高一些,這樣就能有效降低背面文字對識別效果的干擾程度了。在掃描識別一些印刷質(zhì)量較差的文稿時(shí),一定要先進(jìn)行色調(diào)調(diào)節(jié)操作,以確保掃描結(jié)果看上去黑白分明,否則的話掃描圖象中有可能會出現(xiàn)許多黑色斑點(diǎn),從而嚴(yán)重影響文字識別的準(zhǔn)確率。當(dāng)然在對色調(diào)參數(shù)進(jìn)行調(diào)節(jié)時(shí),一定注意觀察掃描識別界面中的圖象預(yù)覽效果,并根據(jù)預(yù)覽效果對色調(diào)進(jìn)行反復(fù)調(diào)整,才能得到非常理想的識別結(jié)果。在掃描識別圖文混排類型的原稿時(shí),應(yīng)該先確認(rèn)一下自己選用的掃描識別應(yīng)用程序能否支持自動圖文分析功能,要是可以支持的話,那我們就應(yīng)該啟用該功能,這樣掃描識別程序就會自動分析出目標(biāo)文稿中的文字內(nèi)容、文本位置等,而文字內(nèi)容部分只要按照標(biāo)示順序來進(jìn)行正常識別就可以了。

手工識別挖掘

現(xiàn)在許多文稿排版為了追求盡善盡美的視覺效果,常常會使用圖文混排方式,如果我們將原稿簡單地掃描成一幅圖像的話,將會嚴(yán)重影響文字的識別準(zhǔn)確率。有鑒于此,我們應(yīng)該根據(jù)實(shí)際情況,對原稿版面進(jìn)行手工劃分,讓其版面分為若干個(gè)區(qū)域;而且應(yīng)該保證處于同一區(qū)域中的文字字號與字體最好相同,盡量沒有圖像、圖形,每一行的文字寬度應(yīng)該相同,要是發(fā)現(xiàn)寬度長短不一的話,最好再進(jìn)行細(xì)分,通常情況下一次最多能掃描識別10個(gè)選擇區(qū)域。此外根據(jù)實(shí)際情況,我們還需要對多個(gè)選擇區(qū)域設(shè)置好識別順序。大家千萬不能嫌這樣的操作比較煩,這可是有效提高文字識別準(zhǔn)確率的理想途徑之一。

更多精彩內(nèi)容請點(diǎn)擊

文字識別軟件

專題

擴(kuò)展知識

相關(guān)評論

閱讀本文后您有什么感想? 已有 人給出評價(jià)!

  • 2791 喜歡喜歡
  • 2101 頂
  • 800 難過難過
  • 1219 囧
  • 4049 圍觀圍觀
  • 5602 無聊無聊
熱門評論
最新評論
發(fā)表評論 查看所有評論(0)
昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
字?jǐn)?shù): 0/500 (您的評論需要經(jīng)過審核才能顯示)