如何提高扫描仪识别图片内的文字

2024-01-14

2964

扫描仪不仅仅可以复制图像，结合OCR软件使用，工作会变得更加轻松。以下是我在扫描OCR中总结出来的一些经验，希望对你有所帮助。 1. 准备原稿为了获得最高的识别率，原稿必须平整，没有皱纹，并且没

扫描仪不仅仅可以复制图像，结合OCR软件使用，工作会变得更加轻松。以下是我在扫描OCR中总结出来的一些经验，希望对你有所帮助。

1. 准备原稿

为了获得最高的识别率，原稿必须平整，没有皱纹，并且没有污渍。当放置在玻璃板上时，边缘要与玻璃板平行，不能歪斜。同时，保持玻璃板的清洁，避免杂物进入。

2. 选择合适的软件

选择一款优秀的OCR软件非常重要，例如云脉文档识别软件。通常不建议使用扫描仪自带的OEM软件，因为它们功能有限，效果差，甚至可能没有中文识别功能。经过比较，我选择了清华TH-OCR MF7.50专业版文本自动识别输入系统。此外，还需要选择一个图像处理软件，如Photoshop。因为有些OCR软件并不能兼容所有的扫描仪，利用图像软件的扫描接口可以更方便地处理图像。

3. 设置扫描参数

对于用于OCR的图像，我的经验是：选择黑白模式，高质量的扫描模式，300DPI的分辨率，100%的缩放比例，根据原稿选择适当的滤镜。

4. 选取扫描区域

在设置好参数后，先进行预览，然后开始选取扫描区域。不要将所有要使用的文章都选在一个区域内，因为现在的文章排版通常采用图文混排，将其作为一幅图像扫描会影响OCR识别。根据实际情况将版面划分为多个区域，每个区域内文字的字体、字号最好一致，没有图形或图片，每行的宽度也保持一致。如果行长不一致，可以再次细分。一次最多扫描10个选取区域。虽然这个过程有些繁琐，但是可以提高识别率。

5. 存储图像

扫描出来的图像可以以TIF格式进行存储。

6. OCR软件操作

打开已扫描好的图像文件，将图像旋转至横排正文。然后进行图像倾斜校正和版面分析。在版面分析后，将非横排正文的区块设置为横排正文，并对各个区块进行倾斜校正。最后进行识别工作。

7. 编辑

识别后会出现编辑窗口，在此时打开汉字输入法。不必理会识别系统对可疑字的相似字提示，直接根据修改参照行（也称为浮动跟踪窗口）进行修改。完成修改后，OCR工作也就结束了。

8. 字体的影响

经过多次OCR工作，我发现软件对于不同字体的识别效果会有所不同。其中楷体的识别效果最好，仿宋和宋体次之，而圆体（特别是细圆体）的识别效果最差。

9. 扫描报纸的注意事项

由于报纸比较薄，且大部分纸质不高，扫描仪上的盖板无法完全压住报纸，导致有缝隙。因此，一般情况下，报纸的扫描识别效果不如杂志。解决办法是在报纸上放置一至两本16K杂志，这样可以改善扫描识别效果。