如何提高扫描仪识别图片内的文字
扫描仪不仅仅可以复制图像,结合OCR软件使用,工作会变得更加轻松。以下是我在扫描OCR中总结出来的一些经验,希望对你有所帮助。 1. 准备原稿 为了获得最高的识别率,原稿必须平整,没有皱纹,并且没
扫描仪不仅仅可以复制图像,结合OCR软件使用,工作会变得更加轻松。以下是我在扫描OCR中总结出来的一些经验,希望对你有所帮助。
1. 准备原稿
为了获得最高的识别率,原稿必须平整,没有皱纹,并且没有污渍。当放置在玻璃板上时,边缘要与玻璃板平行,不能歪斜。同时,保持玻璃板的清洁,避免杂物进入。
2. 选择合适的软件
选择一款优秀的OCR软件非常重要,例如云脉文档识别软件。通常不建议使用扫描仪自带的OEM软件,因为它们功能有限,效果差,甚至可能没有中文识别功能。经过比较,我选择了清华TH-OCR MF7.50专业版文本自动识别输入系统。此外,还需要选择一个图像处理软件,如Photoshop。因为有些OCR软件并不能兼容所有的扫描仪,利用图像软件的扫描接口可以更方便地处理图像。
3. 设置扫描参数
对于用于OCR的图像,我的经验是:选择黑白模式,高质量的扫描模式,300DPI的分辨率,100%的缩放比例,根据原稿选择适当的滤镜。
4. 选取扫描区域
在设置好参数后,先进行预览,然后开始选取扫描区域。不要将所有要使用的文章都选在一个区域内,因为现在的文章排版通常采用图文混排,将其作为一幅图像扫描会影响OCR识别。根据实际情况将版面划分为多个区域,每个区域内文字的字体、字号最好一致,没有图形或图片,每行的宽度也保持一致。如果行长不一致,可以再次细分。一次最多扫描10个选取区域。虽然这个过程有些繁琐,但是可以提高识别率。
5. 存储图像
扫描出来的图像可以以TIF格式进行存储。
6. OCR软件操作
打开已扫描好的图像文件,将图像旋转至横排正文。然后进行图像倾斜校正和版面分析。在版面分析后,将非横排正文的区块设置为横排正文,并对各个区块进行倾斜校正。最后进行识别工作。
7. 编辑
识别后会出现编辑窗口,在此时打开汉字输入法。不必理会识别系统对可疑字的相似字提示,直接根据修改参照行(也称为浮动跟踪窗口)进行修改。完成修改后,OCR工作也就结束了。
8. 字体的影响
经过多次OCR工作,我发现软件对于不同字体的识别效果会有所不同。其中楷体的识别效果最好,仿宋和宋体次之,而圆体(特别是细圆体)的识别效果最差。
9. 扫描报纸的注意事项
由于报纸比较薄,且大部分纸质不高,扫描仪上的盖板无法完全压住报纸,导致有缝隙。因此,一般情况下,报纸的扫描识别效果不如杂志。解决办法是在报纸上放置一至两本16K杂志,这样可以改善扫描识别效果。