DocumentRecognitionSettings

DocumentRecognitionSettings class

pdf 识别的设置。 包含允许自定义识别过程的元素。

public class DocumentRecognitionSettings

构造函数

姓名 描述
DocumentRecognitionSettings(int, int) 初始化DocumentRecognitionSettings具有简短属性集的类。
DocumentRecognitionSettings(int, int, Language, bool, bool, int) 初始化DocumentRecognitionSettings具有全套属性的类。

特性

姓名 描述
Allowed { get; set; } 允许的字符集。确定识别结果允许的字符类型。
AutoContrast { get; set; } 允许在识别之前对图像使用额外的对比度校正算法。
AutoDenoising { get; set; } 允许使用额外的神经网络来改善图像 - 减少噪音。 对具有扫描伪影、失真、斑点、耀斑、渐变、外来元素的图像很有用。
AutoSkew { set; } 获取或设置一个标志,指示是否应启用自动图像倾斜校正。 默认启用(true)。
DetectAreas { set; } 获取或设置一个标志,指示是否应启用自动文本区域检测。 启用文档结构识别模块。这需要更多时间和内存来处理图像, 但在复杂情况下会提供更准确的结果。 禁用(设置为 false)以加快图像处理速度或在图像结构简单的情况下。
DetectAreasMode { get; set; } 允许为文档类型区域选择最佳模式:文档、照片、纯文本、列、图像。
IgnoredCharacters { get; set; } 设置识别符号的黑名单。
Language { set; } 获取或设置用于 OCR 的语言。 确定识别过程中使用的字母表。 默认为多语言。
LinesFiltration { get; set; } 允许识别表格中的文本(围绕线的区域)。
PagesNumber { get; set; } 设置识别多页pdf文件的页数。
StartPage { get; set; } 设置识别的第一页。
ThreadsCount { set; } 获取或设置要处理的线程数。 默认情况下,0 表示将使用与您的处理器数量相等的线程数处理图像。 ThreadsCount = 1 表示将在主线程中处理图像。
ThresholdValue { set; } 获取或设置图像二值化的自定义阈值。 范围从1到255。

也可以看看