多項ロジットモデルを用いた新たな統計的マッチング手法 · 高部勲. 総務省統計局山下智志統計数理研究所. 多項ロジットモデルを用いた

高部勲総務省統計局山下智志統計数理研究所

多項ロジットモデルを用いた新たな統計的マッチング手法の提案

2017年度統計関連学会連合大会

本日の発表内容

１．研究の概要

２．提案手法

３．データ

４．結果と考察

５．今後の課題と対応

1

2


２．提案手法

３．データ


５．考察と今後の課題

統計的マッチングの概要

3

複数のデータベースを、レコード単位で結合することで豊富な情報を持つデータベースを構築する方法。

新たな調査やデータ収集を行うことなく情報量を増大することが可能。

個体を識別できる照合キー(名称、所在地等)が利用できない場合、「距離関数」を定義し、最も近いレコードをマッチング。

• 統計的マッチングでは「ウエイト付き距離関数」が用いられることが多い。(D‘Orazio et al. (2006))

𝑑𝑑𝑖𝑖𝑖𝑖 = �𝑘𝑘=1

𝑝𝑝

𝜷𝜷𝒌𝒌 𝑋𝑋𝑖𝑖𝑘𝑘 − 𝑋𝑋𝑖𝑖𝑘𝑘𝑑𝑑𝑖𝑖𝑖𝑖：レコード 𝑖𝑖 と 𝑗𝑗 の距離

𝑋𝑋𝑖𝑖𝑘𝑘：レコード 𝑖𝑖 の第 𝑘𝑘 フィールド(項目)の値

𝜷𝜷𝒌𝒌：第 𝑘𝑘 フィールド(項目)のウエイト

課題：各項目のウエイト(𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐⋯ ,𝜷𝜷𝒑𝒑)を合理的な方法

で決定したい。データのマッチングの精度を確率の形で定量的

に評価したい。

統計的マッチング：課題

【ウエイト付き距離関数の例】

4

本研究では、

多項ロジットモデルを応用した、新たな統計的マッチングの手法を提案。

提案手法を、企業のデータベースのマッチングに適用し、従来の手法等の結果と比較。

本研究の概要

提案手法により、

各項目のウエイトを統計学的な方法で推定することが可能。

マッチングの一致確率を推定することが可能。

5

6


２．提案手法

３．データ



多項ロジットモデル

𝑃𝑃𝑡𝑡𝑡𝑡𝑡𝑡𝑖𝑖𝑡𝑡𝑃𝑃𝑏𝑏𝑏𝑏𝑏𝑏

𝑃𝑃𝑐𝑐𝑡𝑡𝑡𝑡

𝑃𝑃𝑡𝑡𝑖𝑖𝑡𝑡𝑝𝑝𝑎𝑎𝑡𝑡𝑡𝑡𝑎𝑎

𝑃𝑃𝑤𝑤𝑡𝑡𝑎𝑎𝑘𝑘

𝑃𝑃𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝑈𝑈𝑖𝑖

∑𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒 𝑈𝑈𝑖𝑖

【交通機関等の選択問題の例】

𝑈𝑈𝑖𝑖 = 𝛽𝛽1𝑋𝑋𝑖𝑖, + 𝛽𝛽2𝑋𝑋𝑖𝑖,所要時間費用・運賃

選択主体

複数の選択肢から選択対象を確率的に決定するモデル。

交通機関等の選択の分析などに利用。

選択肢（交通手段）

7

選択確率各選択の効用

多項ロジットモデルに基づく統計的マッチング

選択主体（マッチング「元」レコード（企業 𝑖𝑖 ））

選択肢（マッチング「先」レコード（企業 𝑗𝑗 ））

多項ロジットモデルの枠組みを統計的マッチングに適用

𝑃𝑃𝑖𝑖=𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

∑𝑖𝑖=1𝑁𝑁 𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

マッチング確率レコード（企業）間の距離

𝐷𝐷𝑖𝑖𝑖𝑖 = 𝛽𝛽1 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + 𝛽𝛽2 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + ⋯資本金資本金従業者数従業者数

8…

距離計算のイメージ

帝国データバンク【マッチング元】𝑖𝑖 TDB企業１ TDB企業２ … TDB企業Ｍ

経済セン

サス【

マッチ

ング

先】𝑗𝑗 EC企業１ dist(1, 1) dist(1, 2) dist(1, M)

EC企業２ dist(2, 1) dist(2, 2) … 距離(2, M)

…

…

…

…

EC企業Ｎ dist(N, 1) dist(N, 2) … dist(N, M)

9

【選択主体】

【選択主体】

パラメータ(ウエイト)の推定

• パラメータ (距離関数のウエイト：𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐,⋯ ,𝜷𝜷𝒑𝒑 ) は、

以下の尤度関数に基づく最尤法により推定。

𝑃𝑃𝑖𝑖𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

∑𝑖𝑖=1𝑁𝑁 𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖

𝐿𝐿𝐿𝐿 = 𝑙𝑙𝑙𝑙𝑙𝑙 �𝑖𝑖,𝑖𝑖

𝑃𝑃𝑖𝑖𝑖𝑖𝛿𝛿𝑖𝑖𝑖𝑖 = �𝑖𝑖,𝑖𝑖

𝛿𝛿𝑖𝑖𝑖𝑖 𝑙𝑙𝑙𝑙𝑙𝑙 𝑃𝑃𝑖𝑖𝑖𝑖

𝐷𝐷𝑖𝑖𝑖𝑖 = 𝜷𝜷𝟏𝟏 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + 𝜷𝜷𝟐𝟐 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + ⋯

ウエイトを統計的に推定することが可能。

( argmin𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐,⋯,𝜷𝜷𝒑𝒑

𝐿𝐿𝐿𝐿)

資本金従業者数資本金従業者数

10


２．提案手法

３．データ



11

分析に用いたデータマッチング元：

「帝国データバンク」データ(平成24年２月分)(※「ＣＯＳＭＯＳⅡ」企業概要ファイル・レイアウトＣ)

マッチング先：

「平成24年経済センサス‐活動調査」ミクロデータ(※ 統計法第33条による二次的利用の制度に基づき提供を受けたもの)

【分析用データの作成】

一部地域の中小企業のレコード（約1万3,000件）をキー情報により照合し、統合データセットを作成。

上記の統合データセットから学習用及びテスト用データセットをそれぞれ１／３ずつ抽出。

12

分析に用いる変数• 連続変数：「従業員数」「資本金額」「売上高」

⇒共通の値(1000, 10000など)で割ってスケーリング。

• カテゴリ変数：以下の変数を使用。

⇒一致( )・不一致( )をダミー変数として設定。

「開設年」 - 1984 1984 - 1994 1995 - 2004 2005 -

「産業」

日本標準産業分類・大分類

「地域」

県内の市・群

13

= 1 = 0


２．提案手法

３．データ



14

結果の評価• マッチング確率が「上位●件」のマッチング先に正解

レコードが入っている割合により精度を評価。

(「●」は、1～50の範囲で動かす)

• 複数の距離関数の結果を比較。

(1) ウエイト付き絶対値距離：

(2) ウエイト付き絶対値距離(対数変換)：

(3) ウエイト付きキャンベラ距離：

(4) 最近隣法(Nearest Neighbor Method)((1)のウエイトを１に固定)

• 学習用・テスト用データセットの抽出率を変化させた

場合の結果についても分析(1/1, 1/3, 1/5, 1/10)

15

�𝑘𝑘=1

𝑝𝑝𝛽𝛽𝑘𝑘 𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘

�𝑘𝑘=1

𝑝𝑝𝛽𝛽𝑘𝑘 �𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘 𝒙𝒙𝒊𝒊𝒌𝒌 + 𝒙𝒙𝒋𝒋𝒌𝒌 + 𝟏𝟏

�𝑘𝑘=1

𝑝𝑝𝛽𝛽𝑘𝑘𝒍𝒍𝒍𝒍𝒍𝒍 𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘

パラメータの推定結果マッチング先レコード数: 4552マッチング元レコード数: 2028

従業員数 -166.2579 *** -1.0285 *** -3.5807 ***(9.7439) (0.0465) (0.1561)

資本金額 -5031.9362 *** -0.8368 *** -14.0118 ***(155.9918) (0.0219) (0.4588)

売上高 -78.0490 *** -0.9604 *** -3.6303 ***(3.3216) (0.0222) (0.1085)

同一産業ダミー 3.5798 *** 3.4930 *** 3.4752 ***(0.0787) (0.0830) (0.0784)

同一開設年ダミー 1.5952 *** 1.5880 *** 1.5696 ***(0.0563) 0.0634 (0.0582)

同一地域ダミー 13.8171 * 9.4022 *** 9.4503 ***(4.6746) (0.7093) (0.7087)

対数尤度（L0）※ -17453 -17453 -17453対数尤度（LL） -5438 -3898 -4716疑似決定係数 0.6884 0.7766 0.7298修正疑似決定係数 0.6881 0.7763 0.7294※全てのパラメータ＝０として推定

絶対値距離（ウエイト付き）（対数変換なし）

絶対値距離（ウエイト付き）（対数変換あり）

キャンベラ距離（ウエイト付き）（対数変換なし）

16

正解率の比較(手法の違い)

17

正解率の比較(抽出率の違い)

18

※絶対値距離(ウエイト付き・対数変換あり)を使用


２．提案手法

３．データ

４．結果


19

考察と今後の課題• 提案手法による正解率は、最近隣法等と比較してより良好

なパフォーマンスを示している。

• 上位の順位における正解レコードの割合を高めていくため

には、マッチング対象の検索等に更なる工夫が必要。

• データベースの容量（レコード数）が増加した場合、

距離計算の対象となるレコードのペアの件数が著しく増加

するため、現実的な時間での計算が困難。

⇒主成分分析等により層化を行い、近隣の層のみを計算の

対象とすることで計算量を削減する方法を

検討・試算中。

⇒⇒マッチングの精度を落とさない層化の方法が課題。⇒⇒適切な層化・分割により、精度向上の可能性。

20

Documents

多項ロジットモデルを用いた 新たな統計的マッチング手法 · 高部 勲. 総務省統計局 山下智志 統計数理研究所. 多項ロジットモデルを用いた

多項ロジットモデルを用いた新たな統計的マッチング手法 · 高部勲. 総務省統計局山下智志統計数理研究所. 多項ロジットモデルを用いた