CLOVA OCR使用指南
  • PDF

CLOVA OCR使用指南

  • PDF

使用CLOVA OCR服务,可从图片或文档中轻松、快捷地提取文本。 请参考以下指南使用OCR Builder。

使用CLOVA OCR

访问控制台后,可以通过以下步骤轻松使用服务。

  • 步骤1. 申请使用服务并同意条款
  • 步骤2. 创建域
  • 步骤3. 创建模板
  • 步骤4. 测试及分析
  • 步骤5. 组件
  • 步骤6. 设置
  • 步骤7. 部署管理

步骤1. 申请使用服务并同意条款

使用CLOVA OCR服务时,必须先提交使用申请并同意条款。

本服务使用条款包括CLOVA OCR产生数据的保存与使用、个人信息的委托与受托、公司义务及客户义务等相关内容。 在计划使用服务之前请务必查看条款内容。

进入CLOVA OCR使用条款

点击申请使用产品,同意条款后,进入下一步。

步骤2. 创建域

正式使用CLOVA OCR服务之前,首先需要创建域。

域是CLOVA OCR服务的基准单位。
例如,在创建“通知单”OCR时,被当作识别对象的所有通知单模板就构成一个单位的域。 因此,创建模板、关联渠道和统计信息的操作和管理都以一个域为基准进行。

① 点击创建域,可以看到General、Template和Document创建菜单。

  • General / Template域:支持只能提取文本的Text OCR / 提供一种模板Builder,通过指定解读区域提取识别值之后进行测试并发送结果
  • Document域:搭载了可基于机器学习机制理解文档内容结构的特殊模型引擎,能够自动提取输入信息(key-value)

创建General / Template:输入域名与域代码。 (Document OCR将在域创建指南下方的“添加专用模型”部分进行详细说明。)

  • 域名/域代码:可输入1~50个字符。域名和域代码均为唯一值,不得重复。

  • OCR Builder“输入区”支持文字:韩文、英文(半角大写字母/半角小写字母)、日文(全角片假名/平假名)、中文、部分特殊字符(? & 。_ - × 々)。

    但是,域代码只能输入英文大写/小写字母(半角大写字母/半角小写字母)和部分特殊字符(. ? & 。_ - × 々)。

  • 支持语言:在韩语和日语中择一。 英语是默认支持语言,所以在混用英语的文档中,可以同时识别所选的支持语言和英语字符。

  • 服务类型:支持只能提取文本的General类型和提供模板Builder的Template类型。 General类型在每个区域只能创建一个General域(运行Text OCR)。 选择Template类型时,界面显示识别模型和服务方案。

ocr3_1_zh.png

  • 识别模型:可区分为提供基本识别功能的Basic模型和提供更多种识别功能的Premium模型(包含手写体识别功能)。 模板布局是通用功能,多框、字段输入值Value type设置是Premium模型的专属功能。
识别模型 Basic Premium 说明
模型识别率 识别印刷体和手写体 识别印刷体和手写体 提供最符合商务需求的高性能OCR识别模型
适合文档 证明文件,格式固定的表格 手写的申请书加入表格、金融文件等
识别模板布局 提供 提供 设置识别区域
多框 不提供 提供 通过组合单框模板,控制带有编号的识别区域等
复选框 不提供 提供 识别复选框形式
字段类型 不提供 提供 通过设置类型,仅将识别值作为数字进行识别
  • 服务方案:CLOVA OCR服务根据各域的服务方案收取费用。 除了Basic识别模型下的Free选项以外,其他服务方案即使未发生OCR API调用操作,也将产生基本的维护费用。 各服务方案分别提供不同的OCR API调用次数,超过方案覆盖的区间时,将产生额外的费用。 点击“各服务方案的费用介绍”,即可查看详细的定价标准。

    1205_ocr_1_zh.png

  • 创建域时的注意事项
    • CLOVA OCR服务根据各域的服务方案收取费用。
    • 除了Basic识别模型下的Free选项以外,其他服务方案即使未发生OCR API调用操作,也将产生基本的维护费用。
    • 各服务方案分别提供不同的OCR API调用次数,超过方案覆盖的区间时,将产生额外的费用。 [各服务方案的费用介绍]{target="_blank"}

③ 完成域创建之后,即可查看域列表。 如果是只能提取文本的General域,将在操作菜单中显示Text OCR按钮(关联API Gateway)和Demo按钮,如果是Template域,将显示模板Builder运行按钮。

④ 在所选域的操作菜单下,点击模板Builder按钮,可以查看域信息,并且在新的窗口运行OCR Builder。

ocr6_1_zh.png

⑤ 点击操作菜单下的Text OCR按钮,即显示无需设置模板就能提取全部文本的General OCR的关联设置弹窗。通过设置Custom API Gateway,可以实现自动关联。

ocr7_1_zh.png

  • 通过设置Custom API Gateway实现自动关联
    • 点击Text OCR按钮时,界面将显示可与外部地址关联的设置窗口。
    • OCR Invoke URL指待输入至外部关联Endpoint的OCR API地址。
    • 如果已经申请使用API Gateway,点击自动关联(Interlock)按钮即可轻松实现自动关联。
    • 识别PDF时,最多可识别10张。每识别一张PDF,将产生调用一次General OCR的费用。 General OCR费用介绍

⑥ 点击操作菜单下的Demo按钮时,无需关联API Gateway,也可分行显示上传图片的Text OCR结果,因而能够更直观地查看数据后进行下载。

OCR_CN_1-1

OCR_CN_1-2

参考

已添加表格提取功能。

⑦ 啟用時,自動辨識文件內表格(Table)區域後,將會與文字(Text)一起以有結構性的型態來提供結果。
OCR_table_zh

参考

服务新增Document OCR功能,搭载了能够通过AI预学习机制优化处理不同文档的“专用模型”。

Document OCR可在NAVER Cloud门户网站申请使用,专用模型相关事宜请咨询“客户支持”。

同意CLOVA OCR(专业模型)服务技术/管理水平相关协议书条款后,进入下一步。

① 点击设置专用模型并选择拟使用的专用模型后,应用设置内容。

② 点击创建域后,开始创建Document域。

③ 输入域名与域代码。

  • 识别模型
    • 营业执照(韩语):可识别(个体/法人)营业执照、事业者登录证明、通信销售业申报证、营业申报证、印鉴证明
    • 信用卡(全球):可提取卡号和有效期,支持识别竖向信用卡
    • 收据(韩语):可提取店铺信息、结算明细、支付方式、金额等主要信息
    • 身份证(韩语):可识别居民身份证、驾照、护照
    • 名片(韩语/英语/日语):可提取姓名、公司名、部门、电话号码、地址和电子邮箱等输入信息

④ 完成域创建之后,可查看域列表。点击操作菜单下的Document按钮,界面即显示图片识别请求指南和Custom API Gateway设置弹窗。

参考

服务新增域复制功能。

点击域复制按钮,可按照原有设置创建新域。 点击服务类型Template和Document域左侧的复选框,复制域后即可更改识别模型(General类型不支持该功能)。 复制Template域后,将识别模型从Premium变更为Basic时,仅支持复制Basic功能,无法复制多框、字段输入值Value type设置等Premium专用功能。

参考

服务新增域搜索功能。

域列表界面提供通过域名和域代码搜索域的功能。 利用筛选功能可按照支持语言、识别模型或服务方案集中显示域信息。如果是提供Text OCR功能的General域,可在Filter > 识别模型 > Premium下的服务方案中选择General。

步骤3. 创建模板

OCR Builder是针对可从图片类文档中提取文本的模板进行编写和测试的Web控制台,提供CLOVA OCR服务覆盖的各种功能。

点击左侧菜单中的模板列表

① 点击创建模板,即显示可以输入模板基本信息的模板创建页面。

  • 模板名称中输入模板名称后,点击确定
  • 输入模板基本信息后,下方的设置范例样本范例样本名称指定解读字段区域将被激活。

ocr9_1_zh.png

设置范例样本时,须上传图片样本。

  • 建议上传20MB以下、JPG/PNG/PDF/TIFF格式、A4 150dpi以上,且最低分辨率10px以上~长轴基准1960px以下的图片
  • 上传范例样本图片后,可以指定解读字段。
  • 建议后续通过API输入的图片使用失真或受损较少的150dpi以上高清图片。

ocr10_1_zh.png

③ 指定文档标题区

  • 上传范例样本图片之后,拖动区域指定框指定文档标题区域。
  • 点击已指定区域时,区域指定框将被激活,点击X时,区域指定将被取消。
  • 点击已指定区域时,区域指定框将被激活。用鼠标拖动虚线,可重新设置区域。 点击V即可保存重新设置的区域。

ocr17_1_zh.png

④ 输入范例样本名称

  • 输入的范例样本名称将用于文档的模板分类。

ocr18_1_zh.png

  • 输入范例样本名称之前,确定按钮处于禁用状态。 输入范例样本名称后,确定按钮将被激活。点击确定按钮,即可查看保存及添加相似词的通知窗口。
  • 范例样本名称可在相应字段内自由修改。
  • 在相似词管理中,可添加与范例样本名称相似的单词以提高分类性能。 输入多个相似词时,用半角逗号(,)隔开。(例如:地方税单,地方税,地方税通知单)
  • 相似词管理的范例样本名称不能变更,只能添加和修改相似词。

ocr19_1_zh.png

⑤ 指定解读字段。

点击 指定字段 标签的 +添加字段 按钮,可指定解读字段。 多框指定和复选框指定是Premium识别模型的专用功能,在Basic识别模型中处于禁用状态。 关于多框和复选框功能的详细说明,请查看下面Premium识别模型的字段指定指南部分。

  • 指定字段

    ocr25_1_zh.png

    • 解读范围可根据各字段分别设置。 点击 +添加字段 按钮,界面将显示新的字段指定框。 调整方框大小,指定解读区域。

    • 点击已指定区域时,区域指定框将被激活,点击X时,区域指定将被取消。

    • 点击已指定区域时,区域指定框将被激活。用鼠标拖动虚线,可重新设置区域。 点击V即可保存重新设置的区域。

    • 点击字段框右侧的删除图标,即可删除指定的字段(删除01号字段)。

      ocr25_2_zh.png

    • 指定字段区域后,输入字段名称。

    • 字段名称可在相应字段内自由修改。

    • 点击字段名称右侧的设置图标,即可弹出包含Value type添加术语标签的字段设置窗口。

    • Value type:选择All时识别文本和数字,选择Numeric时仅识别数字。 利用Value type功能,可提前指定字段输入值的形式,从而仅提取特定值。

    ocr23_2_zh.png

    • 添加术语:可添加包含域专业词和相似词的术语词典。 添加至词典时仅识别该词典包含的代表词,识别到相似词时以代表词代为显示。 识别到代表词或相似词以外的其他单词时,按失败处理。
  • 指定Premium识别模型的字段

    • 多框:对于银行账号或手机号码这类输入栏分开显示的情况,可利用多框指定功能识别并提取个别框中的文字。
      将多框的边框外围作为字段范围进行设置,可仅对要提取的框内文字进行识别。 (不识别多框边框,各字段识别12个多框内文字)
    • 复选框:识别到方框(ㅁ)或圆框(O)内有“V、X、O、·”等非规则型字符时返回True值,反之则返回False值。 此功能结合OCR技术,可以在问卷调查、产品注册材料等各种形式的文档中用以识别勾选符号。
    • 在指定复选框时,须覆盖输入栏的边框,并保证指定框内只有复选框,不含其他文字或图形。 請盡量讓指定的範圍剛好包圍住整個多重下拉式選單。
    • 若程序无法正常识别,可能存在多种原因,例如标记符号位于复选框外、标记符号模糊或不可见、因修改导致同一复选框内存在多个相同标记符号,或复选框内存在为便于客户标记而添加的“标记符号和说明性文字”等。

ocr23_3_zh.png

  • 变更范例样本图片

    ocr27_1_zh.png

    • 若要更改已添加的范例样本或对内容进行修改,点击变更范例样本图片

    • 在范例样本修改弹窗中点击确定按钮,即可进入变更范例样本图片页面。

    • 创建模板时添加的模板名称、使用模型等模板的基本信息将自动显示。

    • 范例样本图片、范例样本名称、指定解读字段等范例样本设置信息显示空值。

      ocr28_1_zh.png

⑥ 点击保存按钮完成模板创建后,点击左侧菜单中的模板列表,即可查看已创建的模板。

ocr29_1_zh.png

  • 点击修改范例样本,进入可修改图片与内容的页面。

  • 在模板列表中选择模板ID左侧的选择框后,点击已激活的删除按钮,即可删除已创建的模板。

    ocr31_1_zh.png

  • 内部拥有验证服务器的情况下,可关联相应服务器,对各模板进行验证。

    ocr32_1_zh.png

⑦ 点击左侧菜单的样本列表

1205_ocr_3_zh.png

  • 查看样本:在样本列表中点击各样本编号,即可查看已上传的范例样本图片。

    ocr36_1_zh.png

步骤4. 测试及分析

上传希望提取文本的图片文档后,即可使用解读测试和下载的功能。
在综合指标页面下,可查看服务方案的API日调用次数以及各模板的外部验证结果。

点击左侧菜单中的测试之后,选择“Beta/模板解读”测试条件。

  • Beta测试:可在与服务部署环境相同的环境下,进行模板自动分类和解读区域测试。 完成Beta部署后,即可进行Beta测试及服务部署。
  • 模板解读测试:对已设置解读区域的模板或模型提供测试结果。

ocr37_1_zh.png

点击查找文件按钮,将显示可上传图片文档的弹窗。 选择符合测试图片要求的模板 → 上传图片 → 点击测试按钮,即可查看解读结果。

ocr38_1_zh.png

  • 以进行Beta与模板解读测试的合计次数为准,每月提供300次免费测试的机会。

    ocr39_1_zh.png

  • 测试结果可按CSV或JSON格式下载,解读结果在右侧以表格形式提供。

    ocr43_2_zh.png

点击左侧菜单中的综合指标

  • 日期范围最长可选择90天。

  • 可查看选中的各模板指标,选择全部模板时,将输出全部域的指标。

  • 下载综合指标:可以Excel形式下载所选指标。

  • API调用次数:在设置的日期范围内,按照使用中的服务方案调用API的次数。

  • 验证结果:可查看各模板的外部验证结果以及相应域的验证次数。 用鼠标划过验证结果图表时,显示VALID、UNCHECKED、ERROR、INVALID次数。

  • 模板识别失败次数:因模板不匹配而无法导出识别结果时,计为“模板识别失败”。此项显示在所设置的日期范围内识别失败的次数。

    1205_ocr_4_zh.png

步骤5. 组件

术语词典

  • 可以指定程序在特定字段内仅识别词典内的相应词语,并在识别到已添加的相似词时,以代表词代为显示结果值。
    • 可用Excel文档批量上传及下载术语词典。
    • 搜索词典名称时,将显示相应术语词典的搜索结果。点击刷新按钮,将显示术语词典的第一页。

ocr47_1_zh.png

  • 点击创建术语词典按钮,即显示“创建及修改词典”弹窗。

  • 词典名称:输入不重复的唯一名称。

  • 代表词:输入词典的代表词。
    相似词:输入已输入代表词的同义词或相似词。 输入多个相似词时,用半角逗号(,)隔开。(例如:地方税单,地方税,地方税通知单)

    ocr48_1_zh.png

步骤6. 设置

OCR Builder提供域信息、外部关联、权限管理等简单的设置功能。

ocr51_1_zh.png

外部关联

ocr50_1_zh.png

为了将最终OCR检测或识别结果值发送至关联地址,须进行关联外部平台的设置。
此功能将结合API Gateway提供,以确保对外服务的安全性。

  • 通过设置Custom API Gateway实现自动关联
    • 点击设置按钮,界面将显示可与外部地址关联的设置窗口。
    • OCR Invoke URL指待输入至外部关联Endpoint的OCR API地址。
    • 如果已经申请使用API Gateway,点击自动关联按钮即可轻松实现自动关联。

验证关联

ocr53_1_zh.png

  • 发送数据
    • 可直接设置并管理发送OCR结果的目标地址。
    • 点击创建按钮后,以“${结果发送名称}”形式输入名称。
    • URL字段内输入以“https://”开始的URL。

权限管理

ocr55_1_zh.png

  • 在此标签下,可添加新的管理员并赋予权限。
    • 权限设置创建URL:点击按钮将生成Invite URL,可通过URL赋予权限。

    • 点击URL复制按钮时,将显示Invite URL复制警告。

    • 点击删除按钮时,将显示Invite URL删除警告。

步骤7. 部署管理

Beta部署作为反映到模型的最终保存功能,可以学习应用于模板中的样本、解读区域以及术语词典等。 完成Beta部署后,可进行Beta测试和服务部署。

点击左侧菜单中的部署管理,即可查看模板列表。

1205_ocr_5_zh.png

  • 选择模板:在下拉框中选择模板,即可显示相应模板的部署内容。

  • 当前部署状态:显示相应模板的最新部署状态。

  • 在模板列表中选择要部署的模板,将激活Beta部署按钮。

ocr60_1_zh.png

  • 点击Beta部署按钮,即可查看Beta部署模板列表。

  • 点击确定按钮进行Beta部署。 部署完成后,即可进行Beta测试。 在测试菜单下测试解读结果后,修改的信息将在进行新的Beta部署时生效。

  • 将完成Beta测试的最新Beta部署模板部署到服务中。

ocr62_1_zh.png

  • 点击OCR Builder最上方的“服务部署”按钮。
  • 在服务部署窗口中,可查看服务部署模板列表、域名及正在使用的服务方案。
  • 点击确定按钮部署服务。

1205_ocr_6_zh.png

  • 各模板的部署详情在部署管理右侧下拉框中选择单个模板时提供。

ocr58_1_zh.png

  • 选择单个模板时,将显示部署时间等详细的部署信息。在“当前部署状态”下,可查看Beta、服务、Beta部署失败详情等内容。

服务使用注意事项

  • Template OCR的1次调用基准为在Builder中设置的模板的识别区域数量(最多50个)。 超过此数量将产生额外费用。 (例如,Template的Box区域数量为130个时,按调用3次API收费)

  • CLOVA OCR服务一直以来为提供高识别性能和快捷的处理速度而不断努力。 以批处理形式在短时间内识别大量内容以及定时处理功能均在准备阶段。目前,单个服务账户的建议调用性能上限为1tps。 (如果需要更高的调用性能,请咨询客户支持。)

  • 对于旋转45度以上的文档,OCR识别率可能有所降低。


本文是否有帮助