Upload
hamlet
View
69
Download
0
Embed Size (px)
DESCRIPTION
Twitter Catches the Flu: 事実性判定を用いた インフルエンザ流行予測. 荒牧英治 * ** 増川佐知子 * 森田瑞樹 *** * 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ *** 独立行政法人 医薬基盤研究所. 本研究の特徴. 即時性 これまで: 1 週間間隔の更新であり,非常事態においてその察知が遅れる可能性がある 本研究: 超早期 での警告が可能 大規模 これまで: 全国 5,000 の医療機関の定点観測 本研究: 毎日数万 を超えるインフルエンザに関する Tweet. OUTLINE. - PowerPoint PPT Presentation
Citation preview
Twitter Catches the Flu: 事実性判定を用いた
インフルエンザ流行予測
荒牧英治 * ** 増川佐知子 *森田瑞樹 ***
* 東京大学 知の構造化センター** 科学技術振興機構 さきがけ
*** 独立行政法人 医薬基盤研究所04/20/23 NL201SLP86 1
04/20/23 NL201SLP86 2
04/20/23 NL201SLP86 3
本研究の特徴
• 即時性–これまで: 1 週間間隔の更新であり,非常事
態においてその察知が遅れる可能性がある–本研究: 超早期での警告が可能
• 大規模–これまで: 全国 5,000 の医療機関の定点観測–本研究: 毎日数万を超えるインフルエンザに
関する Tweet04/20/23 NL201SLP86 4
OUTLINE• 背景
• 目的
• 提案手法
• 実験
• まとめ
問題設定Twitter を用いることの問題
04/20/23 NL201SLP86 5
単語の頻度「風邪」「熱」「インフルエンザ」
04/20/23 NL201SLP86 6冬 夏
「ひきそう」
• 今日は暑いなぁ・・・・昨日は涼しかったのに。風邪ひきそうだよ・・・
• あう、変な場所で寝てしまった。風邪ひきそう
• 冷房ききすぎてて寒い…。本格的な風邪ひくかも。
• おはやう、昨日は寒くて風邪引くかとおもた• 風邪一歩手前。身体が冷えきってるので湯た
んぽなう。昨日は遊びすぎた
04/20/23 NL201SLP86 7
「願望」「予防」
• 今年の年末は風邪なんて引いちゃいられない!
• 雨で靴が濡れて足が冷えた。ヘッドホンの延長コードが断線した……帰りに新しいのを買いに行く。風邪ひきたくないな。
• 風邪予防マスクがあったかい朝。• 風邪予防に夜は濡れマスクをして寝てるん
だけど、思わぬ副効果有り!唇が荒れない!
04/20/23 NL201SLP86 8
動物の症状/誤字
• そんなことより今はまじめに家事やりたい。今日は子犬さんが風邪気味なので早めに帰ってあったかいものを作ってあげたいと思います。 ...
• おっはよぅ。晴れてるけ ど風邪が強いなぁ。• 台風並みに風邪が強いな
04/20/23 NL201SLP86 9
アニメの人物の症状• オリジナル展開のせい でりっちゃんと唯ちゃん で風邪が被ったな• 唯が最終話でひいた 風邪が律より重たかっ たのは、唯は風邪引い たことが無かったので 免疫が無かったからかな。
04/20/23 NL201SLP86 10
OUTLINE• 背景
• 目的
• 提案手法
• 実験
• まとめ
提案手法
04/20/23 NL201SLP86 11
学習器による判定(ベースライン)≒スパム判定
• 判定のための2つの条件
入力文入力文
事実非事実
「投稿者(またはその周辺の人間)が風邪をひく」といった内
容であるか?
「投稿者(またはその周辺の人間)が風邪をひく」といった内
容であるか?
その内容は,現在(または近い過去)であり,肯定文である
か?
その内容は,現在(または近い過去)であり,肯定文である
か?
内容(命題)の妥当性
モダリティの妥当性
04/20/23 NL201SLP86 12
コーパスの例
04/20/23 NL201SLP86 13
学習の素性周辺語の BOW ( window size=6)
たぶん インフル がちょっと流行ってるんかなぁ
R1 R2 R3 R4 R5 R6L1
04/20/23 NL201SLP86 14
SVM以外の学習手法は?
Classifier F-Measure TimeAdaBoost
0.592 40.192
Bagging 0.739 530.310Decision Tree 0.698 239.446Logistic Regression 0.729 696.704Naive Bayes 0.741 7.383Nearest Neighbor 0.695 22.441Random Forest 0.729 38.683SVM 0.738 92.72304/20/23 NL201SLP86 15
OUTLINE• 背景
• 目的
• 提案手法
• 実験
• まとめ
実験
04/20/23 NL201SLP86 16
どの程度,現実を予測できるのか ?
• 比較手法– (1) Tweet-SVM : 提案手法– (2) Tweet-Raw : ベースライン
• 単なるインフルエンザを含んだツィート数– (3) Google:
• Google Flu Trend 日本版 [Ginsberg et.al., Nature2009]– (4) Drug:
• 感冒薬 ( 風邪薬 ) の家計支出 [総務省家計調査 ]
• 評価– 国立感染症情報センターの報告との相関係数
04/20/23 NL201SLP86 17
過熱報道期(新型インフル騒動)
過熱報道期(新型インフル騒動)平常時 平常時
過熱報道期(新型インフル騒
動)
過熱報道期(新型インフル騒
動)
04/20/23 NL201SLP86 19
04/20/23 NL201SLP86 20
結果
過熱報道期過熱報道期
04/20/23 NL201SLP86 21
R=0.683
R=0.816
R=-0.208
R=0.817
04/20/23 NL201SLP86 22
04/20/23 NL201SLP86 23
結果
R=0.974
R=0.955
R=0.962
R=0.959
ピーク前とピーク後で分けて評価
04/20/23 NL201SLP86 24
OUTLINE• 背景
• 目的
• 提案手法
• 実験
• まとめ
医学/疫学研究(感染症モデル)との比較
04/20/23 NL201SLP86 25
感染症モデルSIRモデル( 1次マルコフ近
似)
SSSusceptible感受性人口
II RRInfectious感染人口
Removed隔離人口
感染率 β 隔離率 γ
経験的に γ 0.38≒(半減期は 1.8 日 )[西浦 &合原 2009]
仮定: S→I 遷移に Tweet する
04/20/23 NL201SLP86 27
γ=0.38 とすると r=0.834 (> 0.821)BUT: もっともフィットした時は γ 0.2 ≒(R=0.842)(半減期は 3.5 日 )
OUTLINE• 背景
• 目的
• 提案手法
• 実験
• まとめまとめ
04/20/23 NL201SLP86 28
まとめ• 言語情報のみでインフルエンザ流行を推定– Twitter は Web検索クエリと同等の精度– 特に平常時の流行のピーク前の予測精度は世界最高精度( r=0.97)
• 感染症モデル( SIRモデル)との整合性– Twitter は S→I 遷移の観測に相当する– 既存のモデルと整合しつつ高精度
• 実世界を扱うこと 社会的にも学術的にも重要な課題
04/20/23 NL201SLP86 29
公開しているリソース
• コーパス• ガイドライン
• カゼミル: 「カゼミル」で検索
荒牧英治 Ph.D.University of [email protected]
荒牧英治 Ph.D.University of [email protected]
http://mednlp.jp/http://mednlp.jp/
04/20/23 NL201SLP86 30