10
対象知識を利用した文書画像の 2 値化 田中 a) 藤井 勇作 堀田 悦伸 中川 正樹 †† A Document Image Binarization Method Using Object Knowledge Hiroshi TANAKA a) , Yusaku FUJII , Yoshinobu HOTTA , and Masaki NAKAGAWA †† あらまし 文書画像から罫線や文字などの特定オブジェクトを抽出するための文書画像 2 値化方式のフレーム ワークを提案する.文書画像の 2 値化は,背景階層の上に文字や図表などのオブジェクトが配置された 2 階層の 文書構造を仮定して,第一階層のオブジェクトを表す画素と,第二階層の背景を表す画素の 2 クラスに画素が分 類された 2 値画像を出力する処理である.白背景に黒い文字が印字されたような単純な画像であれば,画像 2 化は画素値を 2 クラスに識別する境界しきい値を求める問題に帰着するが,複雑な画像の場合には抽出したい対 象オブジェクトの特徴を考慮して画素のクラスを判定する必要がある.本論文では,抽出対象オブジェクトの性 質に関する知識を反映したオブジェクト抽出モデルを定義して,文書画像 2 値化の精度を改善するフレームワー クについて論ずる.まず,我々が開発した罫線抽出用 2 値化と文字抽出用 2 値化の実例を示し,オブジェクト抽 出モデルを利用して 2 値化誤りの原因を検討する.これにより,明確なモデル化を行うことが対象知識を活用す る上で有効であることを示す. キーワード 文書画像,2 値化,テキスト,罫線,対象知識 1. まえがき 文書画像の 2 値化は,背景階層の上に文字や図表な どのオブジェクトが配置された 2 階層の文書構造を仮 定して,第一階層のオブジェクトを表す画素と,第二 階層の背景を表す画素の 2 クラスに画素を分類する処 理である.分類された画素は 2 値画像として出力され, 一般にオブジェクトの画素(前景画素)を黒画素,背 景画素を白画素で表示することが多い.標準的な画像 2 値化手法(大津 2 値化 [1]Niblack 2 値化 [2] など) では,背景階層を平坦または滑らかに値が変化する単 一平面だとみなし,前景画素か否かの判定は 2 値化し きい値との大小比較によって行う.そのため,2 値化 処理はしばしばしきい値処理(thresholding)と呼ば れる. 一方で,背景階層が単一平面だとみなせないような 画像では,単純なしきい値処理では画素のクラスを判 定することはできない.そのような画像に対しては, (株)富士通研究所,川崎市 Fujitsu Laboratories Ltd., Kawasaki-shi, 211–8588 Japan †† 東京農工大学大学院,小金井市 Graduate School of Technology, Tokyo University of Agri- culture and Technology, Koganei-shi, 184–8588 Japan a) E-mail: [email protected] オブジェクト近傍の背景が区分的に平坦であると仮定 して(図 1),部分領域ごとにしきい値処理を適用する 方法 [3][5] や,前景と背景という 2 クラスへの識別 という概念を取り去って,画素を複数のクラスに分類 (クラスタリング)した後に特定のクラスに属する画 素を前景画素として選択するという方法 [6] などが提 案されている.更に,画素値のみではクラス判定が困 難な画素に対しては,抽出対象オブジェクトの特徴を 用いて判定する方法も用いられる.例えば,抽出対象 が文字である場合には,明度画像やエッジ画像に対す るしきい値処理によって 2 値画像を生成し,連結成分 分析(CCA: Connected Component Analysis)で分 割した部分領域の組合せを文字らしさの知識(領域の 形状や文字認識の結果)で検証する技術 [7][10] が提 案されている. 一般に文書画像の中には文字や図表などのオブジェ クトが多数存在するため,複雑な背景を仮定したクラ スタリング手法や,部分領域の組合せを文字認識に よって検証するような手法は処理時間がかかりすぎる. これらは情景画像からの文字列抽出のように文字数が 少ない場合に適した手法であり,文書画像に対しては しきい値処理を基本として区分的に平坦な背景を仮定 した簡便な手法が用いられることが多い. 電子情報通信学会論文誌 D Vol. J96–D No. 4 pp. 1029–1038 c 一般社団法人電子情報通信学会 2013 1029

対象知識を利用した文書画像の 値化web.tuat.ac.jp/~nakagawa/pub/2013/pdf/Tanaka_IEICE.pdf · 文書構造を仮定して,第一階層のオブジェクトを表す画素と,第二階層の背景を表す画素の2

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

論 文

対象知識を利用した文書画像の 2値化

田中 宏†a) 藤井 勇作† 堀田 悦伸† 中川 正樹††

A Document Image Binarization Method Using Object Knowledge

Hiroshi TANAKA†a), Yusaku FUJII†, Yoshinobu HOTTA†, and Masaki NAKAGAWA††

あらまし 文書画像から罫線や文字などの特定オブジェクトを抽出するための文書画像 2値化方式のフレームワークを提案する.文書画像の 2値化は,背景階層の上に文字や図表などのオブジェクトが配置された 2階層の文書構造を仮定して,第一階層のオブジェクトを表す画素と,第二階層の背景を表す画素の 2 クラスに画素が分類された 2値画像を出力する処理である.白背景に黒い文字が印字されたような単純な画像であれば,画像 2値化は画素値を 2 クラスに識別する境界しきい値を求める問題に帰着するが,複雑な画像の場合には抽出したい対象オブジェクトの特徴を考慮して画素のクラスを判定する必要がある.本論文では,抽出対象オブジェクトの性質に関する知識を反映したオブジェクト抽出モデルを定義して,文書画像 2 値化の精度を改善するフレームワークについて論ずる.まず,我々が開発した罫線抽出用 2値化と文字抽出用 2値化の実例を示し,オブジェクト抽出モデルを利用して 2 値化誤りの原因を検討する.これにより,明確なモデル化を行うことが対象知識を活用する上で有効であることを示す.

キーワード 文書画像,2 値化,テキスト,罫線,対象知識

1. ま え が き

文書画像の 2値化は,背景階層の上に文字や図表な

どのオブジェクトが配置された 2階層の文書構造を仮

定して,第一階層のオブジェクトを表す画素と,第二

階層の背景を表す画素の 2クラスに画素を分類する処

理である.分類された画素は 2値画像として出力され,

一般にオブジェクトの画素(前景画素)を黒画素,背

景画素を白画素で表示することが多い.標準的な画像

2値化手法(大津 2値化 [1],Niblack 2値化 [2]など)

では,背景階層を平坦または滑らかに値が変化する単

一平面だとみなし,前景画素か否かの判定は 2値化し

きい値との大小比較によって行う.そのため,2値化

処理はしばしばしきい値処理(thresholding)と呼ば

れる.

一方で,背景階層が単一平面だとみなせないような

画像では,単純なしきい値処理では画素のクラスを判

定することはできない.そのような画像に対しては,

†(株)富士通研究所,川崎市Fujitsu Laboratories Ltd., Kawasaki-shi, 211–8588 Japan

††東京農工大学大学院,小金井市Graduate School of Technology, Tokyo University of Agri-

culture and Technology, Koganei-shi, 184–8588 Japan

a) E-mail: [email protected]

オブジェクト近傍の背景が区分的に平坦であると仮定

して(図 1),部分領域ごとにしきい値処理を適用する

方法 [3]~[5]や,前景と背景という 2クラスへの識別

という概念を取り去って,画素を複数のクラスに分類

(クラスタリング)した後に特定のクラスに属する画

素を前景画素として選択するという方法 [6] などが提

案されている.更に,画素値のみではクラス判定が困

難な画素に対しては,抽出対象オブジェクトの特徴を

用いて判定する方法も用いられる.例えば,抽出対象

が文字である場合には,明度画像やエッジ画像に対す

るしきい値処理によって 2値画像を生成し,連結成分

分析(CCA: Connected Component Analysis)で分

割した部分領域の組合せを文字らしさの知識(領域の

形状や文字認識の結果)で検証する技術 [7]~[10]が提

案されている.

一般に文書画像の中には文字や図表などのオブジェ

クトが多数存在するため,複雑な背景を仮定したクラ

スタリング手法や,部分領域の組合せを文字認識に

よって検証するような手法は処理時間がかかりすぎる.

これらは情景画像からの文字列抽出のように文字数が

少ない場合に適した手法であり,文書画像に対しては

しきい値処理を基本として区分的に平坦な背景を仮定

した簡便な手法が用いられることが多い.

電子情報通信学会論文誌 D Vol. J96–D No. 4 pp. 1029–1038 c©一般社団法人電子情報通信学会 2013 1029

電子情報通信学会論文誌 2013/4 Vol. J96–D No. 4

図 1 区分的 2 クラス領域Fig. 1 Partially two class area.

我々は,これまでに表罫線の抽出を目的とした画像

2値化技術 [11]と,文字画像抽出のための画像 2値化

技術 [12], [13]を開発した.これらの技術は,オブジェ

クト近傍領域を抽出し,その領域内の背景を平たんだ

と仮定して標準的なしきい値処理を行うという共通の

構造をもつ.同様の構造を用いた先行研究 [3]~[5]は

いずれもテキスト抽出が目的だが,罫線抽出のため

の 2 値化技術 [11] も同じ流れで説明することができ

る.文字や図表などの異なったオブジェクトが混在す

る文書を認識する場合には,まず文書画像のセグメン

テーションを行ってオブジェクトごとの領域に分割し,

個々の領域が含むオブジェクトの種類に応じて異なっ

た 2値化技術を併用するという処理が一般的である.

更に,開発技術は 2値化しきい値の補正技術を利用

してクラス識別の誤りが生じやすい画素を特定し,対

象知識を用いて詳細判定するという点に特徴がある.

抽出対象である罫線や文字は人工的なオブジェクトな

ので,どのような特徴をもって罫線や文字とみなすか,

それぞれ定義することが可能である.例えば,罫線の

条件として「垂直または水平方向の直線」「線の太さ

は 1~10 pixel」のような条件設定を行った場合,これ

が罫線の定義となるため,これらの条件を満たさない

ものは罫線ではないと言い切ることができる.しかし,

現実に存在する罫線でも,これらの条件を満たさない

ものは抽出対象外となるので,不適切な条件設定は直

接的に 2値画像の精度低下につながる.

抽出対象の条件が適切に設定された場合でも,対象

画像の画質が劣化している場合には,設定した条件に

合致するか否かを画像から適切に判断できない場合が

ある.例えば,Sauvolaら [14]やWolfら [15]は,文

字の近傍には強い画素値こう配が生ずるという知識を

利用してノイズを抑制しているが,画質劣化によって

文字画像にボケが生ずると文字近傍の抽出に失敗しや

すくなる.またWangら [16]はテキストが単一色の連

結成分(CC: Connected Component)の組合せで構

成されているという条件を用いているが,文字が単一

色だという条件は画質の劣化によって崩れる危険性が

ある.これらの誤りは設定した条件を画像から抽出す

るための実装技術の課題を示している.

以上で述べたように,抽出対象オブジェクトの知識

は,抽出対象の定義や,その定義に基づく条件を画

像から抽出するための実装技術など,異なったレベル

で適用される.しかるに,対象知識を用いた先行研

究 [3]~[16]においては,抽出対象オブジェクトの知識

が様々な形で利用されており,知識の利用方法の適切

さについては十分に考慮されていない.

本論文では,対象知識を利用した文書画像 2値化の

フレームワークを提案し,対象知識のモデル化に関す

る議論を行う.まず対象知識を利用した 2値化に共通

したフレームワークを述べ,我々が開発した罫線抽出

のための 2値化技術 [11]と文字画像抽出のための 2値

化技術 [12], [13] を,フレームワークに沿って説明す

る.続いて対象知識を利用するためのオブジェクト抽

出モデルを示し,モデルに基づく誤り要因分析を行う.

最後に評価実験の結果を示して,2値画像の改善点を

オブジェクト抽出モデルを用いて考察する.

2. 対象知識を利用した 2値化

本章では,対象知識を利用した文書画像の 2値化方

式の一例として,我々が開発した罫線抽出と文字画像

抽出のための 2値化技術について述べる.まず両者に

共通する処理の流れを述べ,続いて抽出対象知識の利

用方法について,両者を比較しつつ記述する.

2. 1 2値化処理の流れ

対象知識を利用した 2値化は,特定の抽出対象に対

して設定した条件を用いて 2値化の精度を高める技術

である.例えば,罫線を抽出したい場合には,罫線ら

しさの特徴(知識)を用いて 2値化領域を限定し,そ

の領域内の画像をしきい値処理によって 2 値化する.

また,通常のしきい値処理ではクラス判別が困難な画

素を後処理で詳細判定する際にも罫線らしさの知識を

用いる.

図 2に対象知識を利用した 2値化の処理の流れを示

す.対象領域の抽出と後処理の双方に抽出対象の知識

を適用する.しきい値処理には,文献 [17]において文

字認識に適すると評価された Niblack 2 値化 [2] を用

いた.Niblack 2値化は,対象領域の各画素を中心と

した一辺 w の局所領域における画素値 I(i, j) の分布

から,式 (1)~(3)を用いて 2値化しきい値 T を求め

1030

論文/対象知識を利用した文書画像の 2 値化

図 2 2 値化処理の流れFig. 2 Procedure of image binarization.

図 3 適応的な背景判別Fig. 3 Adaptive background decision.

る.m は局所領域内の画素値の平均値,δ は標準偏差

である.なお本論文では,I(i, j) は明度値とする.

m =

w∑

i

w∑

j

I(i, j)/w2 (1)

δ2 =

w∑

i

w∑

j

{I(i, j) − m}2/w2 (2)

T = m + kδ (3)

2. 2 対象領域の抽出

我々が開発した罫線抽出用 2値化では,局所領域の

画素分布に基づく背景判別によって背景画素を予備的

に分類しており,これが対象領域抽出に相当する.具

体的には,画素ごとに設定した局所領域内を前景画素

と背景画素の 2クラスに分類し,各クラスの平均値を

それぞれ μ1,μ2 とすると,背景判別しきい値 d に対

して背景判別係数 F が F = |μ1 − μ2| − d で定義で

きる.ここで,この係数 F が負の値である場合に,そ

の画素が予備的に背景画素へ分類される [18].ただし,

図 3 (a) のように薄い罫線は,通常の背景判別しきい

値(実験により d = 10)では罫線の画素が背景だと

判定されて,図 3 (b)のように罫線に途切れが発生す

る.しかし d の値を単に小さくすると図 3 (c)のよう

にノイズが大量に発生する.そこで,罫線は黒画素が

直線的に連続しており,罫線に沿って背景の白画素も

直線的に連続して存在するという知識を用い,図 4の

ようなマスクによって直線成分を抽出することによっ

て,直線が存在する場合のみ d の値を小さく設定し

て,ノイズを抑えつつ薄い罫線の抽出に成功した.

我々の罫線抽出技術は,あらかじめ文書の傾きが補

正されており,罫線は垂直または水平の直線であるも

図 4 水平罫線用マスクFig. 4 Mask for horizontal line.

図 5 文字抽出用 2 値化Fig. 5 Text image binarization.

のとみなしている.図 4は水平罫線を抽出する場合に

用いるマスクを示す.一辺 w の局所領域に対応し,上

辺と下辺の一行分の領域をそれぞれ area A,area C,

中心の一行分の領域を area Bとする.背景判別係数

F を求める際に前景画素と判定された画素の数をそれ

ぞれの領域ごとに cntA~cntCとして,式 (4)が成り

立つ場合に局所領域には直線が存在するものとみなす.

我々の実験では,L1 = w × 0.75,L2 = w × 0.25 と

いう値を用い,直線が検出された場合には d の値を

0.3 倍にした.なお垂直罫線を抽出する場合には,マ

スクを 90度回転させて同様の判定を行う.

(cntB > L1)

∧((cntA < L2) ∨ (cntC < L2)) (4)

これは,抽出対象である罫線の特徴を用いて,罫線近

傍領域を抽出する処理に相当する.

一方,文字抽出用 2値化では,文字は直線とは限ら

ないため図 4のようなマスクは利用しない.その代わ

りに,文字輪郭の画像を作り(図 5 (b)),輪郭画素を

連結成分(CC: Connected Component)ごとに分離

(図 5 (c))した領域を文字の近傍領域とする.これは,

文字または文字を構成する部分要素が輪郭画素でまと

まっているという知識を利用した処理であり,抽出対

象が罫線の場合には適用できない.

2. 3 2値化しきい値の補正

前節で述べた対象領域抽出処理は,抽出対象オブ

ジェクトを含まない画素を背景画素として除き,抽出

対象画素の候補を残す処理であり,画素の大分類に相

当する.続いて式 (1)~(3) によって候補画素ごとに

1031

電子情報通信学会論文誌 2013/4 Vol. J96–D No. 4

図 6 強い近接画素の影響Fig. 6 Effect of strong neighboring pixels.

図 7 罫線画素の脱落Fig. 7 Dropping out of ruledline pixels.

2値化しきい値を求め,更に後処理でしきい値を適切

な値に補正する.この補正により,単純なしきい値処

理では分類が困難な画素を詳細判定する.しきい値補

正の基本的な考え方は罫線抽出,文字抽出とも同じで

ある.

先に述べたように,対象領域は 2クラス分離可能だ

とみなしている.しかし,局所領域の中に第三のクラ

スの画素が紛れ込むと,2値化しきい値が影響を受け

て適切な 2値画像が生成されないことがある.その一

例を図 6に示す.図 6は,上側の図が 2値化対象画素

とその周囲に設定した局所領域を示し,下側は局所領

域内の画素値の頻度分布を示す.図 6 (a) では局所領

域内には薄い前景画素と背景画素のみが含まれており,

頻度分布には二つのピークが存在する.一方,図 6 (b)

では局所領域の中に近接する黒い画素が含まれ,ピー

クが三つとなっている.この場合,局所領域の中に三

つの画素クラスが存在することとなり,2値化しきい

値が図中で左方面に変動する.しきい値が左方向に

変動すると,罫線と背景が同じクラスに属するため,

図 7の例にあるように,濃い画素の近くで罫線画素が

脱落する.

図 7 は罫線の近くに濃い文字が存在した場合だが,

文字画像の場合には同じ文字に属する画素の間で同様

の現象が起きる.図 8では,同じ文字に属する画素に

も濃淡の差が生じ,文字の一部の画素が脱落している.

図 8 文字画素の脱落Fig. 8 Dropping out of text pixels.

図 9 低解像度画像のボケFig. 9 Blurring of low resolution image.

図 10 局所領域のシフトFig. 10 Shifted local window.

これは図 9に示すように,低解像度画像では量子化誤

差が生じるため,一部の画素がボケて薄くなることが

原因である.一般に文字は狭い領域に複数の画が隣接

するため,ボケて薄くなった画素が 2値化の際に脱落

する現象が起きやすい.特に明朝体の文字は横画が細

く縦画が太いため,横画が脱落しやすい.

開発方式では,しきい値の変動による画素の脱落を

回避するためにしきい値補正を行う.しきい値補正の

考え方は,局所領域内に第三のクラスの画素が含まれ

ることがしきい値変動の原因であれば,局所領域を上

下左右にシフトして,問題となる第三のクラスの画素

を含まない局所領域でのしきい値を求めれば良い,と

いうものである.

ここでは,まずしきい値補正の原理について罫線抽

出用 2値化の例を用いて述べる.図 10では,局所領

域を右方向にシフトして,文字の画素を含まない領域

を求めている.この場合,シフトした領域で求めたし

きい値は,罫線のクラスと背景のクラスを分離できる

しきい値である.

実際には局所領域をどちらの方向にシフトすれば第

三のクラスの画素を含まなくなるかは分からないため,

全ての方向にシフトした領域でしきい値を求め,それ

1032

論文/対象知識を利用した文書画像の 2 値化

図 11 罫線抽出のためのしきい値補正Fig. 11 Threshold correction for ruledline extraction.

図 12 しきい値補正の画像例Fig. 12 Example of threshold correction.

らの最大値を補正しきい値とする.局所領域をシフト

する範囲 S は,2値化対象画素が局所領域の範囲外に

ならない値が望ましく,通常は S = (w − 1)/2 とす

ることが多い.座標 (i, j) でのしきい値を T (i, j) と

して,補正しきい値 T ′(i, j) は式 (5)で計算する.

T ′(i, j) =S

maxk, l=−S

{T (i + k, j + l)} (5)

ただし式 (5) は常に黒画素を増やす方向に作用し,

罫線ではない画素も黒画素に変換することがあるため,

図 11 (c)のように,罫線だけでなく隣接する文字まで

膨張する.罫線以外の画素が増加すると,後段で罫線

の座標を求める処理に悪影響が出るため,図 11 (c)は

望ましい結果ではない.そこで,罫線は「縦横方向の

長い直線」だという知識を用いて,罫線らしい画素だ

けを黒画素に変換する.すなわち,式 (5)の補正によっ

て白画素(背景画素)が黒画素に変化した部分を保留

(Reserved)画素とみなし(図 11 (d)),クラス判定を

保留としておく.続いて,既に黒画素に決定している

画素から長い直線(ラン)を求めて,その延長上にあ

る保留画素のみを黒画素に変換する(図 11 (e)).これ

により罫線の途切れが解消され,かつ文字画像の膨張

が抑制された 2値画像が得られる(図 11 (f)).図 12

は実際の画像例である.図 12 (c)で膨張した文字画像

が図 12 (d)で改善されている様子が分かる.

図 13 文字抽出のためのしきい値補正Fig. 13 Threshold correction for text extraction.

一方,文字抽出のための 2値化では別の知識を用い

て画像の不適切な膨張を抑制する.式 (5)では対象画

素の近傍に局所領域をシフトして,その位置でのしき

い値を求めている.これを局所領域の中心座標の移動

範囲で表すと図 13 (b) のようになる.しかし,しき

い値補正とはシフトしたしきい値を元に戻すためのも

のなので,対象画素と画素値が全く異なる座標でのし

きい値を流用するのは適切とはいえない.対象画素と

2値化しきい値が同等であるべき画素は,対象画素の

周辺で同等の値をもつ画素である.つまり図 13 (c)の

ように,薄いグレイの画素の範囲内での最大値を求め

た方がより適切だと考えられる.そこで,式 (5)に条

件を追加して式 (6)のように修正する.定数 e は,周

辺画素と対象画素の値の差がこの値よりも小さい場合

に同等の値とみなすための値である.我々の実験では,

これまでの経験から e = 20 とした.

T ′(i, j) =S

maxk, l=−S

{T (i + k, j + l)}

when |I(i + k, j + l) − I(i, j)| < e (6)

これを一次元の模式図で表すと図 13 (d),(e) のよ

うになる(縦軸は画素の強度を表すため,明度の逆数

とする).図 13 (d)において,ステップエッジの近く

でしきい値を表す点線が画素値を超えている部分が画

素が途切れた位置である.ここで,±S の範囲内で画

素値が同じレベルの部分のしきい値が変換され,途切

れが解消された様子を図 13 (e) に示す.図 14 は図 8

に示した文字画像が改善された例である.

1033

電子情報通信学会論文誌 2013/4 Vol. J96–D No. 4

図 14 2 値化文字画像の改善例Fig. 14 Example of improved text binary image.

本節では,しきい値補正によって脱落した画素の候

補を保留画素として求め,それに抽出対象オブジェク

トの知識を適用して,真に脱落した画素を判定すると

いう処理について述べた.罫線抽出用 2値化と文字抽

出用 2値化では用いる対象知識は異なるが,処理のフ

レームワークは共通している.

3. オブジェクト抽出モデル

本章では,罫線や文字など特定の抽出対象を想定し

た文書画像 2値化において,対象知識を利用するため

のオブジェクト抽出モデルについて述べる.

抽出対象の知識は三つの要素で考えることができる.

第一の要素は抽出したいカテゴリーである.例えば

図 15に例示するように,罫線には実線のほかに,境界

罫線,点線,テクスチャ状の模様領域の境界によるテ

クスチャ境界罫線など様々な種類がある.しかし我々

の罫線抽出用 2値化は,罫線の 2値画像が縦横方向の

直線を構成することが条件なので,対象カテゴリーは

実線と境界罫線のみである.一方,開発した文字抽出

用 2 値化では,文字領域を連結成分で抽出しており,

文字領域が互いに分離していることが前提となってい

る.したがって複数文字が連続して書かれる手書き文

字や,図 16 (b) のような Script フォントは対象外と

なる.

第二の要素は抽出対象の特徴定義である.例えば

図 11 (e)では黒画素が縦に連続する長いランを保留画

素の判定に用いているが,ここで「長いラン」とは具

体的にどの程度の長さかを定義する必要がある.我々

は実験に際して 200 dpi換算で 10 pixelという値を用

いた.これは 3.6 ptに相当する値で,小さな文字であ

れば文字の高さの半分程度である.

第三の要素は実装技術である.例えば,特徴定義で

10 pixel以上の黒画素のランを条件としても,黒画素

を安定して抽出する技術がなければ適用できない.つ

まり,特徴定義で記述した特徴を具体的に抽出するた

めのアルゴリズム(Niblack 2値化や Sobelフィルタ

など)が含まれる.

これら三つの要素の関係は図 17 のベン図で表すこ

図 15 様々な罫線Fig. 15 Various ruled-lines.

図 16 様々なフォントFig. 16 Various fonts.

図 17 対象知識のモデルFig. 17 Object knowledge model.

とができる.全ての要素を満足して抽出に成功した画

素は領域 A に相当し,それ以外は誤りである.例え

ば領域 B は,特徴定義と実装技術の条件に基づいて

対象オブジェクトの画素だと判定されたものがカテゴ

リー違いである場合で,つまり付加誤りを意味する.

領域 C は,抽出対象カテゴリーで特徴定義にも合致

しているが,画像処理アルゴリズムなどの技術によっ

て抽出に失敗したケースである.これは,画質劣化の

度合が大きいために抽出できない場合も含む.領域 D

は,抽出したいカテゴリーの画素が技術的にも抽出可

能だが,特徴定義に合致しない場合であり,例えば特

徴定義で 10 pixel以上の長さのランを罫線と定義した

場合に 8 pixel 程度の長さの罫線が脱落するような場

合である.

抽出対象オブジェクトの知識をこのようにモデル化

すると,誤り原因の分類が容易になる.モデル化が不

十分な場合,開発方式が当初想定していたカテゴリー

に含まれない画像が入力された場合に,その誤りをア

ルゴリズムの不備だと考えてアドホックな修正を加え

てしまう可能性があり,危険である.特に開発技術が

製品に適用されている場合,正確な誤り原因調査より

1034

論文/対象知識を利用した文書画像の 2 値化

も製品が正しく動作することが優先されるため,評価

画像のみで結果が改善されるような短絡的な修正が施

される傾向がある.そのような場合,開発技術の適用

条件が対象知識のモデル化という形で明記されている

のは非常に重要である.

4. 評 価 実 験

開発技術の評価実験を行い,対象知識のモデルに基

づいて結果の考察を行う.評価指標としては,最終目

的であるオブジェクト抽出への貢献度を評価するとい

う視点に基づき [17],それぞれ罫線抽出率,文字認識

率を評価指標として用いる.なお,いずれの実験にお

いても,局所領域のサイズ w は,画像の解像度によ

らず w = 7 を用いた.局所的 2値化では,解像度に

応じて局所領域のサイズを変更する方法と,常に同じ

サイズの局所領域を用いる方法があるが,それぞれ一

長一短があり,我々は同じサイズを用いることを採用

している.

4. 1 罫線抽出用 2値化の評価

我々は,これまでにラン抽出とエッジ抽出を併用し

た罫線抽出方式を開発した [19].本方式は実線罫線を

抽出するためのラン抽出に罫線抽出用 2値化を用いて

おり,対象知識を利用しない場合と利用した場合の精

度を再現率(recall)と適合率(precision: prec.)で

評価する.再現率は,罫線が正しく抽出された数(抽

出成功数)の正解罫線に対する割合であり,適合率は,

抽出成功数の全抽出罫線数に対する割合である.抽出

した罫線は,その始点と終点の座標値が正解罫線から

一定の範囲内(実験では x座標と y座標の差がいずれ

も 20 pixel以内)の場合に正しく抽出されたものとみ

なした.評価画像は伝票類(請求書や納付書)からな

る 69 画像で,スキャナ画像(scan)と OHR(Over

Head Reader)画像を含む 200 dpiのカラー画像であ

る.内訳は納付書 20画像(slip(scan)),納付書 28画

像(slip(OHR)),請求書 21画像(invoice(scan))

の 3セットからなる.罫線数は,それぞれ順に 775本,

1135本,587本である.

表 1に示すように,従来技術(conventional)に比

べて対象知識を用いた開発技術(developed)は再現

率,適合率とも高精度である.改善効果は比較的画質

が悪い納付書(slip)で顕著である.表 2は,誤り原因

を目視で計数した結果である.罫線の途切れ(broken

faint line)に起因する誤りと,近接文字の影響による

誤り(neighboring characters)を,付加誤り(add)

表 1 罫線抽出精度Table 1 Accuracy of ruled-line extraction.

表 2 誤り原因の分類Table 2 Causes of misrecognition.

図 18 罫線抽出用 2 値化の改善例Fig. 18 Example of improved ruledline binary image.

表 3 評価画像の内訳Table 3 List of test data.

と脱落誤り(drop)の数で示した.表 2によれば,薄

い罫線の途切れが約半分に削減でき,近接文字による

罫線画素の脱落は,評価画像では誤りが全て改善され

たことが分かる.

開発技術によって改善した 2値画像は,図 3 (d)と

図 12 (d)がそれに相当する.また図 18にもう一つの

画像例を示す.図 18 (a)の一部を拡大した図 18 (b)に

対して,従来技術では途切れていた罫線(図 18 (c))

が開発技術によって結合している(図 18 (d)).

4. 2 文字抽出用 2値化の評価

文字抽出用 2値化の評価は,評価画像に 63種類の

文書画像を用い,テキスト領域の座標をあらかじめ与

えて,その領域内を 2値化して文字列認識した.文書

画像は我々が評価用に収集したもので,内訳を表 3に

示す.解像度は 150 dpi~600 dpiの 4種類である.

評価結果を表 4 に示す.従来法(Niblack)に比べ

て,しきい値補正と対象知識を利用して途切れを改善

した開発方式(Developed)の方が精度が向上してい

1035

電子情報通信学会論文誌 2013/4 Vol. J96–D No. 4

表 4 文字認識精度Table 4 Accuracy of character recognition.

図 19 低解像度画像の 2 値化結果Fig. 19 Binarization result of low resolution text

images.

図 20 高解像度画像の 2 値化結果Fig. 20 Binarization result of high resolution text

images.

るが,その効果は特に低解像度で顕著である.これは

低解像度画像では同じ文書の画像でも相対的に文字サ

イズが小さくなるため,量子化誤差による画質の劣化

が文字形状の乱れにつながりやすいためだと思われ

る.比較対象として,しきい値処理に大津 2値化を用

いた場合の精度も示した(Otsu).低解像度画像では,

Niblack 2値化にしきい値補正を適用した方式の方が

高精度だが,高解像度画像では大津 2値化を用いた方

がよいという結果が得られている.この結果から,し

きい値補正の効果は主に低解像度画像で文字画像にボ

ケが多発する場合に有効であることが分かる.この傾

向は,罫線抽出用 2値化の改善効果が低画質の画像で

特に顕著であった結果と共通している.各方式による

2値化画像を比較するため,低解像度(150 dpi)の処

理結果を図 19に,高解像度(600 dpi)の処理結果を

図 20に示す.

以上の実験結果を受けて,開発方式(Niblack 2値

図 21 文字ストローク幅の推定Fig. 21 Stroke width estimation.

表 5 文字認識精度(統合方式)Table 5 Accuracy of character recognition (combined

method).

化 + しきい値補正)と大津 2値化を統合する方式(統

合方式)の実験も行った.単純に入力画像の解像度に

応じて方式を切り換えるのが最も簡単だが,ここでは

更に踏み込んで,抽出対象の文字のサイズに応じて

2 値化方式を切り換えるという方法の実験を行った.

文字サイズは,図 21 に示す方法で推定したストロー

ク幅で判定する.すなわち,しきい値処理の対象領域

を大津しきい値によって仮に 2 値化し,その 2 値画

像を縦横にスキャンして,黒画素が連続して現れた数

(ランレングス)の平均値を求め,これをストローク

幅 r とみなす.実行時には,定数 R をあらかじめ定

め,対象領域ごとに R < r であれば大津 2値化,そ

れ以外は Niblack 2値化としきい値補正を用いる.

統合方式による評価結果を表 5 に示す.解像度に

よって異なるが,R = 3 の結果が最もバランス良く改

善されている.この結果から,ストローク幅が狭い文

字画像では文字画像の途切れが生じやすいため,開発

方式が特に有効だということが分かる.

4. 3 考 察

評価実験の結果により,対象知識を利用して領域抽

出の改善やしきい値補正を行う開発方式が,オブジェ

クト抽出の視点による評価指標において,文書画像

2値化の品質向上に有効であることが分かった.また,

開発方式が低画質の画像に特に有効であることも判明

した.

しかし,個別に画像を見ると,まだ改善の余地があ

る.図 22 は罫線画像の途切れが改善できなかった例

である.これは,濃い文字画像が罫線の左右から近接

1036

論文/対象知識を利用した文書画像の 2 値化

図 22 罫線画像の誤り例Fig. 22 Example of binarization error in ruledline

image.

図 23 ラン長パラメータによる比較Fig. 23 Comparison on run-length parameter.

しているため,局所領域をシフトしてもしきい値補正

ができないことが原因と考えられる.図 14 の改善後

の文字画像において,「期」の横画の途切れが改善でき

ていない問題も同様の原因による.この誤りを対象知

識のモデル(図 17)で解釈すると,しきい値補正によ

る保留画素の推定に失敗したことが原因なので,実装

技術に課題があり,領域 C に相当するのだといえる.

問題を解決するためには脱落しそうな画素を推定する

新たなアルゴリズムの開発が必要となろう.

一方,図 11及び図 12において長いランのしきい値

を変化させた場合の 2値画像を比較したのが図 23で

ある.分かりやすく示すため,しきい値補正によって

黒画素に変更された画素をグレイで示している.図 12

では 10 pixel 以上の長さのランを長いランとみなし

ていたが,それを 15 pixel,20 pixelに変化させると,

図 23 (b),(c) のようになる.この場合,罫線の途切

れを解消するという目的においては,図 23 (b)が許容

範囲であり,文字画像への余分な付加画素も少ない.

このように,抽出対象である罫線をどのように定義す

るかによって結果が変わるので,図 23 (c)の罫線途切

れは,図 17では領域 Dに相当する.

5. む す び

罫線や文字などのオブジェクト抽出を目的とした文

書画像 2値化において,抽出対象の知識を利用するフ

レームワークについて述べた.文書画像 2値化で対象

知識を利用する手法はこれまで数多く提案されている.

しかしながら,既存の手法は対象知識をそれぞれの判

断で適用しているのみで,統一的なフレームワークが

存在しないという問題があった.

我々は,罫線抽出用 2値化と,文字抽出用 2値化の

新方式をそれぞれ開発した.これらは異なった対象を

抽出するための 2値化技術であるが,処理の手順は共

通したフレームワークで説明可能である.すなわち,

対象領域の抽出,対象領域内でのしきい値処理,そし

て後処理である.対象知識は対象領域抽出と後処理に

おいて適用され,標準的な 2 値化では前景,背景の

切分けが困難な画素を詳細判定するために用いる.対

象知識は,抽出カテゴリー,特徴定義,実装技術の三

つの分類でモデル化して用いられる.既存の手法では

対象知識の明示的なモデル化が行われないため,しば

しばアドホックな改良が適用されることがあり,実質

的な精度向上を難しくすることがあった.対象知識の

モデル化はそのようなリスクを回避するために有用で

ある.

本論文では,対象知識を利用した 2値化方式を二つ

の実例を用いて述べたが,今後は対象知識モデルに基

づいた精度改善を実施して,モデルの利用方法につい

てのノウハウを蓄積したいと考えている.更に,抽出

対象ごとにモデルの精緻化を進めることによって,例

えば罫線とは何か,文字とはどのような特徴をもつも

のか,などの根元的な知識の整理にもつながるのでは

ないかと期待している.

文 献[1] N. Otsu, “A threshold selection method from gray-

level histograms,” IEEE Trans. Syst. Man Cybern.,

vol.9, no.1, pp.62–66, 1979.

[2] W. Niblack, An Introduction to Digital Image Pro-

cessing, pp.115–116, Prentice Hall, Englewood Cliffs,

N.J., 1986.

[3] 藤本克仁,鎌田 洋,“低解像度カラー文書画像から高品質な文字画像を抽出する二値化方式,” 信学技報,PRMU99-

89, Oct. 1999.

[4] W.M. Pan, T.D. Bui, and C.Y. Suen, “Text segmen-

tation from complex background using sparse rep-

resentations,” Proc. 9th ICDAR, pp.412–416, Sept.

2007.

[5] T. Kasar and A.G. Ramakrishnan, “COCOCLUST:

Contour-based color clustering for robust binariza-

tion of colored text,” Proc. The Third CBDAR,

pp.11–17, Balcerona, Spain, July 2009.

[6] 芦田和毅,永井弘樹,岡本正行,宮尾秀俊,山本博章,“情景画像からの文字抽出,” 信学論(D-II),vol.J88-D-II,

no.9, pp.1817–1824, Sept. 2005.

[7] J. Ohya, A. Shio, and S. Akamatsu, “Recognizing

characters in scene images,” IEEE Trans. Pattern

Anal. Mach. Intell., vol.16, no.2, pp.214–220, Feb.

1037

電子情報通信学会論文誌 2013/4 Vol. J96–D No. 4

1994.

[8] H. Takebe, Y. Katsuyama, and S. Naoi, “Character

string extraction from newspaper headlines with a

background design by recognizing a combination of

connected components,” Proc. Document Recogni-

tion and Retrieval VI, pp.22–29, San Jose, CA, Jan.

1999.

[9] 平山勝裕,大町真一郎,阿曽弘具,“カラー情報と明度情報を利用した情景画像中の文字列の高精度抽出,” 信学論(D),vol.J89-D, no.4, pp.893–896, April 2006.

[10] 松田友輔,大町真一郎,阿曽弘具,“2 値化とエッジ抽出による情景画像からの高精度文字列抽出,” 信学論(D),vol.J93-D, no.3, pp.336–344, April 2010.

[11] H. Tanaka, “Threshold correction of document im-

age binarization for ruled-line extraction,” Proc. 10th

ICDAR, pp.541–545, Barcelona, Spain, July 2009.

[12] H. Tanaka, Y. Fujii, and Y. Hotta, “Threshold cor-

rection of document image binarization for text ex-

traction,” Proc. 6th VISAPP, Vilamoura, Portugal,

March 2011.

[13] 田中 宏,藤井勇作,堀田悦伸,“二値化閾値の補正による低解像度画像に頑強な文字抽出用二値化,” 信学技報,PRMU2010-254, March 2011.

[14] J. Sauvola, T. Seppanen, S. Haapakoski, and

M. Pietikainen, “Adaptive document binarization,”

Proc. 4th ICDAR, pp.147–152, Ulm, Germany, Aug.

1997.

[15] C. Wolf and J. Jolion, “Extraction and recognition

of artificial text in multimedia documents,” Pattern

Analysis and Applications, vol.6, no.4, pp.309–326,

Feb. 2004.

[16] Y. Wang and N. Tanaka, “Text string extraction from

scene image based on edge feature and morphology,”

Proc. 8th DAS, pp.323–328, Nara, Japan, Sept. 2008.

[17] O.D. Trier and A.K. Jain, “Goal-directed evalua-

tion of bainarization methods,” IEEE Trans. Pattern

Anal. Mach. Intell., vol.17, no.12, pp.1191–1201, Dec.

1995.

[18] L. Eikvil, T. Taxt, and K. Moen, “A fast adaptive

method for binarization of document images,” Proc.

1st ICDAR, pp.435–443, Saint-Malo, France, Sept.

1991.

[19] 田中 宏,中島健次,武部浩明,藤本克仁,“テクスチャ領域を含む帳票画像からの罫線抽出,” 信学技報,PRMU2006-

246, March 2007.

(平成 24 年 7 月 17 日受付,11 月 29 日再受付)

田中 宏 (正員)

1986東北大・工卒.同年富士通(株)入社,同年,(株)富士通研究所出向.2010

東京農工大大学院・博士後期課程了.オンライン手書き文字認識,ヒューマンインタフェース,文書画像認識の研究開発に従事.博士(工学).

藤井 勇作

1992 阪大・工・応用物理卒.1995 同大大学院工学研究科応用物理学専攻修士課程了.同年(株)富士通研究所入社.画像処理やパターン認識の研究に従事.

堀田 悦伸 (正員)

1992 東大・工・計数卒.同年(株)富士通研究所入社.以来,画像処理や文字認識の研究開発に従事.現在,富士通研究所イメージコンピューティング研究部主任研究員.

中川 正樹 (正員:フェロー)

1977 東大・理・物理工卒.1979 同大大学院修士課程了.同大在学中英国 Essex大学留学(M. Sc. in Computer Studies).1979 東京農工大・工・助手.現在,教授.オンライン手書き文字認識,手書きインタフェース,などの研究に従事.理博.

1038