Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
高部 勲 総務省統計局山下智志 統計数理研究所
多項ロジットモデルを用いた新たな統計的マッチング手法の提案
2017年度統計関連学会連合大会
本日の発表内容
1.研究の概要
2.提案手法
3.データ
4.結果と考察
5.今後の課題と対応
1
2
1.研究の概要
2.提案手法
3.データ
4.結果と考察
5.考察と今後の課題
統計的マッチングの概要
3
複数のデータベースを、レコード単位で結合することで豊富な情報を持つデータベースを構築する方法。
新たな調査やデータ収集を行うことなく情報量を増大することが可能。
個体を識別できる照合キー(名称、所在地等)が利用できない場合、「距離関数」を定義し、最も近いレコードをマッチング。
• 統計的マッチングでは「ウエイト付き距離関数」が用いられることが多い。(D‘Orazio et al. (2006))
𝑑𝑑𝑖𝑖𝑖𝑖 = �𝑘𝑘=1
𝑝𝑝
𝜷𝜷𝒌𝒌 𝑋𝑋𝑖𝑖𝑘𝑘 − 𝑋𝑋𝑖𝑖𝑘𝑘𝑑𝑑𝑖𝑖𝑖𝑖:レコード 𝑖𝑖 と 𝑗𝑗 の距離
𝑋𝑋𝑖𝑖𝑘𝑘:レコード 𝑖𝑖 の第 𝑘𝑘 フィールド(項目)の値
𝜷𝜷𝒌𝒌:第 𝑘𝑘 フィールド(項目)のウエイト
課題: 各項目のウエイト(𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐⋯ ,𝜷𝜷𝒑𝒑)を合理的な方法
で決定したい。 データのマッチングの精度を確率の形で定量的
に評価したい。
統計的マッチング:課題
【ウエイト付き距離関数の例】
4
本研究では、
多項ロジットモデルを応用した、新たな統計的マッチングの手法を提案。
提案手法を、企業のデータベースのマッチングに適用し、従来の手法等の結果と比較。
本研究の概要
提案手法により、
各項目のウエイトを統計学的な方法で推定することが可能。
マッチングの一致確率を推定することが可能。
5
6
1.研究の概要
2.提案手法
3.データ
4.結果と考察
5.考察と今後の課題
多項ロジットモデル
𝑃𝑃𝑡𝑡𝑡𝑡𝑡𝑡𝑖𝑖𝑡𝑡𝑃𝑃𝑏𝑏𝑏𝑏𝑏𝑏
𝑃𝑃𝑐𝑐𝑡𝑡𝑡𝑡
𝑃𝑃𝑡𝑡𝑖𝑖𝑡𝑡𝑝𝑝𝑎𝑎𝑡𝑡𝑡𝑡𝑎𝑎
𝑃𝑃𝑤𝑤𝑡𝑡𝑎𝑎𝑘𝑘
𝑃𝑃𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝑈𝑈𝑖𝑖
∑𝑖𝑖 𝑒𝑒𝑒𝑒𝑒𝑒 𝑈𝑈𝑖𝑖
【交通機関等の選択問題の例 】
𝑈𝑈𝑖𝑖 = 𝛽𝛽1𝑋𝑋𝑖𝑖, + 𝛽𝛽2𝑋𝑋𝑖𝑖,所要時間 費用・運賃
選択主体
複数の選択肢から選択対象を確率的に決定するモデル。
交通機関等の選択の分析などに利用。
選択肢(交通手段)
7
選択確率 各選択の効用
多項ロジットモデルに基づく統計的マッチング
選択主体(マッチング「元」レコード(企業 𝑖𝑖 ))
選択肢(マッチング「先」レコード(企業 𝑗𝑗 ))
多項ロジットモデルの枠組みを統計的マッチングに適用
𝑃𝑃𝑖𝑖=𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖
∑𝑖𝑖=1𝑁𝑁 𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖
マッチング確率レコード(企業)間の距離
𝐷𝐷𝑖𝑖𝑖𝑖 = 𝛽𝛽1 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + 𝛽𝛽2 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + ⋯資本金 資本金 従業者数 従業者数
8…
距離計算のイメージ
帝国データバンク【マッチング元】𝑖𝑖 TDB企業1 TDB企業2 … TDB企業M
経済セン
サス【
マッチ
ング
先】𝑗𝑗 EC企業1 dist(1, 1) dist(1, 2) dist(1, M)
EC企業2 dist(2, 1) dist(2, 2) … 距離(2, M)
…
…
…
…
EC企業N dist(N, 1) dist(N, 2) … dist(N, M)
9
【選択主体】
【選択主体】
パラメータ(ウエイト)の推定
• パラメータ (距離関数のウエイト:𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐,⋯ ,𝜷𝜷𝒑𝒑 ) は、
以下の尤度関数に基づく最尤法により推定。
𝑃𝑃𝑖𝑖𝑖𝑖 =𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖
∑𝑖𝑖=1𝑁𝑁 𝑒𝑒𝑒𝑒𝑒𝑒 𝐷𝐷𝑖𝑖𝑖𝑖
𝐿𝐿𝐿𝐿 = 𝑙𝑙𝑙𝑙𝑙𝑙 �𝑖𝑖,𝑖𝑖
𝑃𝑃𝑖𝑖𝑖𝑖𝛿𝛿𝑖𝑖𝑖𝑖 = �𝑖𝑖,𝑖𝑖
𝛿𝛿𝑖𝑖𝑖𝑖 𝑙𝑙𝑙𝑙𝑙𝑙 𝑃𝑃𝑖𝑖𝑖𝑖
𝐷𝐷𝑖𝑖𝑖𝑖 = 𝜷𝜷𝟏𝟏 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + 𝜷𝜷𝟐𝟐 𝑋𝑋𝑖𝑖, − 𝑋𝑋𝑖𝑖, + ⋯
ウエイトを統計的に推定することが可能。
( argmin𝜷𝜷𝟏𝟏,𝜷𝜷𝟐𝟐,⋯,𝜷𝜷𝒑𝒑
𝐿𝐿𝐿𝐿)
資本金 従業者数資本金 従業者数
10
1.研究の概要
2.提案手法
3.データ
4.結果と考察
5.考察と今後の課題
11
分析に用いたデータ マッチング元:
「帝国データバンク」データ(平成24年2月分)(※「COSMOSⅡ」企業概要ファイル・レイアウトC)
マッチング先:
「平成24年経済センサス‐活動調査」ミクロデータ(※ 統計法第33条による二次的利用の制度に基づき提供を受けたもの)
【分析用データの作成】
一部地域の中小企業のレコード(約1万3,000件)をキー情報により照合し、統合データセットを作成。
上記の統合データセットから学習用及びテスト用データセットをそれぞれ1/3ずつ抽出。
12
分析に用いる変数• 連続変数:「従業員数」「資本金額」「売上高」
⇒共通の値(1000, 10000など)で割ってスケーリング。
• カテゴリ変数:以下の変数を使用。
⇒一致( )・不一致( )をダミー変数として設定。
「開設年」 - 1984 1984 - 1994 1995 - 2004 2005 -
「産業」
日本標準産業分類・大分類
「地域」
県内の市・群
13
= 1 = 0
1.研究の概要
2.提案手法
3.データ
4.結果と考察
5.考察と今後の課題
14
結果の評価• マッチング確率が「上位●件」のマッチング先に正解
レコードが入っている割合により精度を評価。
(「●」は、1~50の範囲で動かす)
• 複数の距離関数の結果を比較。
(1) ウエイト付き絶対値距離:
(2) ウエイト付き絶対値距離(対数変換):
(3) ウエイト付きキャンベラ距離:
(4) 最近隣法(Nearest Neighbor Method)((1)のウエイトを1に固定)
• 学習用・テスト用データセットの抽出率を変化させた
場合の結果についても分析(1/1, 1/3, 1/5, 1/10)
15
�𝑘𝑘=1
𝑝𝑝𝛽𝛽𝑘𝑘 𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘
�𝑘𝑘=1
𝑝𝑝𝛽𝛽𝑘𝑘 �𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘 𝒙𝒙𝒊𝒊𝒌𝒌 + 𝒙𝒙𝒋𝒋𝒌𝒌 + 𝟏𝟏
�𝑘𝑘=1
𝑝𝑝𝛽𝛽𝑘𝑘𝒍𝒍𝒍𝒍𝒍𝒍 𝑒𝑒𝑖𝑖𝑘𝑘 − 𝑒𝑒𝑖𝑖𝑘𝑘
パラメータの推定結果マッチング先レコード数: 4552マッチング元レコード数: 2028
従業員数 -166.2579 *** -1.0285 *** -3.5807 ***(9.7439) (0.0465) (0.1561)
資本金額 -5031.9362 *** -0.8368 *** -14.0118 ***(155.9918) (0.0219) (0.4588)
売上高 -78.0490 *** -0.9604 *** -3.6303 ***(3.3216) (0.0222) (0.1085)
同一産業ダミー 3.5798 *** 3.4930 *** 3.4752 ***(0.0787) (0.0830) (0.0784)
同一開設年ダミー 1.5952 *** 1.5880 *** 1.5696 ***(0.0563) 0.0634 (0.0582)
同一地域ダミー 13.8171 * 9.4022 *** 9.4503 ***(4.6746) (0.7093) (0.7087)
対数尤度(L0)※ -17453 -17453 -17453対数尤度(LL) -5438 -3898 -4716疑似決定係数 0.6884 0.7766 0.7298修正疑似決定係数 0.6881 0.7763 0.7294※全てのパラメータ=0として推定
絶対値距離(ウエイト付き)(対数変換なし)
絶対値距離(ウエイト付き)(対数変換あり)
キャンベラ距離(ウエイト付き)(対数変換なし)
16
正解率の比較(手法の違い)
17
正解率の比較(抽出率の違い)
18
※絶対値距離(ウエイト付き・対数変換あり)を使用
1.研究の概要
2.提案手法
3.データ
4.結果
5.考察と今後の課題
19
考察と今後の課題• 提案手法による正解率は、最近隣法等と比較してより良好
なパフォーマンスを示している。
• 上位の順位における正解レコードの割合を高めていくため
には、マッチング対象の検索等に更なる工夫が必要。
• データベースの容量(レコード数)が増加した場合、
距離計算の対象となるレコードのペアの件数が著しく増加
するため、現実的な時間での計算が困難。
⇒主成分分析等により層化を行い、近隣の層のみを計算の
対象とすることで計算量を削減する方法を
検討・試算中。
⇒⇒マッチングの精度を落とさない層化の方法が課題。⇒⇒適切な層化・分割により、精度向上の可能性。
20