尚書七號(hào)是一款很不錯(cuò)的文字識(shí)別軟件,怎么樣準(zhǔn)確提取圖片上面的文字還是需要一定的技巧的,注意一點(diǎn)技巧,工作效率還是會(huì)提高的,下面給大家分享的是尚書七號(hào)文字識(shí)別軟件提取文字技巧。
基本使用方法:
1、打開尚書七號(hào),選擇打開圖象。(我用的版本可以識(shí)別的格式有bmp、tif、jpg)
2、選擇開始識(shí)別或按F8。識(shí)別結(jié)果將顯示在窗口上部,下部顯示版面分析結(jié)果。其中紅線為可識(shí)別部分,綠線為不可識(shí)別。
3、選擇輸出--到指定格式文件,將識(shí)別結(jié)果保存為需要的格式。
識(shí)別前應(yīng)注意的問(wèn)題:
1、圖片質(zhì)量。批量識(shí)別時(shí),首先應(yīng)確保要識(shí)別的圖片質(zhì)量。如不能識(shí)別還需要重新處理,甚至?xí)䦟?dǎo)致軟件死掉,浪費(fèi)時(shí)間。我本人就曾深受其苦。圖片分辨率應(yīng)稍高,肉眼看感覺偏大,因?yàn)樽R(shí)別工具是有點(diǎn)近視的,文字和底色對(duì)比要求不高,通常來(lái)說(shuō),肉眼能看清楚即可,底色發(fā)灰或發(fā)黑基本不會(huì)影響識(shí)別結(jié)果。
2、避免有不規(guī)則形狀(圖片)出現(xiàn)。識(shí)別工具在進(jìn)行版面分析時(shí),只能采用方形切割,當(dāng)圖片中存在文字環(huán)繞不規(guī)則形狀時(shí),則無(wú)法將文字和該形狀劃分開,則將出現(xiàn)錯(cuò)誤或無(wú)法識(shí)別。此時(shí),較快的辦法是在PS中,吸取該圖片附近的頁(yè)面底色,用粗畫筆將該區(qū)域涂上,不必講求效果,顏色沒(méi)有太大差別即可,重新保存圖片。
3、避免圖象傾斜。尚書七號(hào)中也有自動(dòng)傾斜校正和手動(dòng)傾斜校正工具,但即使經(jīng)過(guò)校正,識(shí)別率還是低很多。如果是拍攝的書本,可能會(huì)產(chǎn)生一定弧度,此時(shí)保證行的兩端對(duì)齊即可。另外在拍攝時(shí)應(yīng)避免高光等會(huì)使圖象各部分亮度反差大的情況。
書本轉(zhuǎn)換(掃描、拍攝)技巧
1、可以將書攤平,一次將兩邊都掃描或拍攝下來(lái),節(jié)省時(shí)間。處理圖片時(shí)不必剪開,這時(shí)要用到尚書七號(hào)的分欄工具了。直接用鼠標(biāo)在打開的圖象上拖拽,可出現(xiàn)選框,分成左右兩個(gè)分欄,分欄左上角的編號(hào)就是識(shí)別結(jié)果的排列順序。它會(huì)將自動(dòng)按照編號(hào)順序?qū)⑺蟹謾诘膬?nèi)容連接在一起。
2、手動(dòng)分欄可解決部分圖象無(wú)法識(shí)別的問(wèn)題。在進(jìn)行識(shí)別后,可以看到版面分析結(jié)果,有時(shí)候由于圖象質(zhì)量原因,自動(dòng)分析出的有效版面只是很小的一部分。此時(shí)可以按ctrl+del取消版面分析結(jié)果,用鼠標(biāo)拖拽,劃定需要識(shí)別的范圍,重新進(jìn)行識(shí)別。當(dāng)圖片質(zhì)量問(wèn)題不大時(shí),這個(gè)辦法有效。
有時(shí)候(尤其是拍攝所得圖片),文字扭曲嚴(yán)重,即使用PS也無(wú)法調(diào)整好?蓢L試手動(dòng)分欄,多劃分幾欄,每一欄包含一行或少數(shù)幾行文字,這樣對(duì)于每個(gè)分欄來(lái)說(shuō),它所包含的范圍內(nèi)誤差度相對(duì)減小,可提高識(shí)別率。
3、使用批量識(shí)別功能。尚書七號(hào)可以一次性識(shí)別大量圖片。但在實(shí)際應(yīng)用中,依次識(shí)別不宜過(guò)多,便于隨時(shí)檢查識(shí)別結(jié)果,發(fā)現(xiàn)錯(cuò)誤及時(shí)修正。
4、批量識(shí)別圖象時(shí),保存文件也要花費(fèi)大量時(shí)間。事實(shí)上,尚書七號(hào)在識(shí)別文件的同時(shí),會(huì)在圖片所在文件夾生成文本文檔,名稱與圖片名稱相同。因此,如果不是特別需要,可以不必再保存輸出結(jié)果。
如所識(shí)別內(nèi)容屬于一部分,可以將左側(cè)的圖象列表全選(ctrl+A),再選擇“輸出--到指定格式文件”,則當(dāng)前所有識(shí)別內(nèi)容按照?qǐng)D片排列順序保存在一個(gè)文件中。
我使用的尚書七號(hào)不能記憶保存路徑,每次選擇保存時(shí),都會(huì)默認(rèn)打開程序安裝目錄下的“outout”文件夾,不必每次都選擇路徑,可以先保存在這里,然后一起轉(zhuǎn)移文件。
5、如果想保留文件中的圖片,在輸出結(jié)果時(shí)選用RTF格式,再用word打開,可以看到格式完全正確的文字和圖片了。
6、用書本的頁(yè)碼給文件命名是明智的選擇。我曾經(jīng)用內(nèi)容摘要命名,自以為清晰明了,結(jié)果在最后修正錯(cuò)誤字符時(shí)悔恨交加。
7、當(dāng)一個(gè)圖象完全無(wú)法識(shí)別時(shí),可稍稍增加亮度或?qū)Ρ榷,有時(shí)候只差那么一點(diǎn)點(diǎn),它也不給你工作。
8、分欄的幾個(gè)類型。當(dāng)單擊一個(gè)分欄時(shí),工具欄中會(huì)相應(yīng)分欄類型的按紐會(huì)按下。分欄有橫欄(橫排文字)、豎欄(豎排文字)、圖片、表格等幾個(gè)類型,一般情況下可以自動(dòng)識(shí)別類型,但手動(dòng)分欄時(shí)一定要選擇相應(yīng)的類型,以提高識(shí)別率。
以上問(wèn)題針對(duì)拍攝情況而言,掃描的話相信會(huì)減少問(wèn)題,如果能拆書的話,最好還是拆吧。