捷速ocr文字識(shí)別對(duì)于一些經(jīng)常處理圖片文字的朋友們應(yīng)該很熟悉,小編在之前也介紹了捷速ocr文字識(shí)別軟件的使用方法,捷速ocr文字識(shí)別軟件的過程包含幾個(gè)步驟,下面小編就詳細(xì)介紹捷速ocr文字識(shí)別軟件的識(shí)別過程吧。
第一步:
是指通過輸入設(shè)備將文檔輸入到計(jì)算機(jī)中,也就是實(shí)現(xiàn)原稿的數(shù)字化,F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識(shí)別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測(cè)的傾斜角小,在進(jìn)行傾斜校正后,文字圖像的變形就小。這些簡(jiǎn)單的操作,會(huì)使系統(tǒng)的識(shí)別正確率有所提高。反之,由于掃描設(shè)置不當(dāng),文字的斷筆過多可能會(huì)分檢出半個(gè)文字的圖像。文字?jǐn)喙P和筆畫粘連會(huì)造成有些特征丟失,在將其特征與特征庫比較時(shí),會(huì)使其特征距離加大,識(shí)別錯(cuò)誤率上升。
第二步:
掃描一幅簡(jiǎn)單的印刷文檔的圖像,將每一個(gè)文字圖像分檢出來交給識(shí)別模塊識(shí)別,這一過程稱為圖像預(yù)處理。預(yù)處理是指在進(jìn)行文字識(shí)別之前的一些準(zhǔn)備工作,包括圖像凈化處理,去掉原始圖像中的顯見噪聲(干擾)。主要任務(wù)是測(cè)量文檔放置的傾斜角,對(duì)文檔進(jìn)行版面分析,對(duì)選出的文字域進(jìn)行排版確認(rèn),對(duì)橫、豎排版的文字行進(jìn)行切分,每一行的文字圖像的分離,標(biāo)點(diǎn)符號(hào)的判別等。這一階段的工作非常重要,處理的效果直接影響到文字識(shí)別的準(zhǔn)確率。
第三步:
單字識(shí)別是體現(xiàn)OCR文字識(shí)別的核心技術(shù)。從掃描文本中分檢出的文字圖像,由計(jì)算機(jī)將其圖形、圖像轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼,是讓計(jì)算機(jī)“認(rèn)字”的關(guān)鍵,也就是所謂的識(shí)別技術(shù)。就像人腦認(rèn)識(shí)文字是因?yàn)樵谌四X中已經(jīng)保存了文字的各種特征,如文字的結(jié)構(gòu)、文字的筆畫等。要想讓計(jì)算機(jī)來識(shí)別文字,也需要先將文字的特征等信息儲(chǔ)存到計(jì)算機(jī)里,但要儲(chǔ)存什么樣的信息及怎樣來獲取這些信息是一個(gè)很復(fù)雜的過程,而且要達(dá)到非常高的識(shí)別率才能符合要求。通常采用的做法是根據(jù)文字的筆畫、特征點(diǎn)、投影信息、點(diǎn)的區(qū)域分布等進(jìn)行分析。
第四步:
后處理是指對(duì)識(shí)別出的文字或多個(gè)識(shí)別結(jié)果采用詞組方式進(jìn)行上下匹配,即將單字識(shí)別的結(jié)果進(jìn)行分詞,與詞庫中的詞組進(jìn)行比較,以提高系統(tǒng)的識(shí)別率,減少誤識(shí)率。