4
真凛 真凛 ©H.Lee ©H.Lee 連載 真凛(まりん) :TM研究室の真面目なアラサーリーダー。自然言語と統計 学の専門家。専門看護師の資格を持っている。 (まい) :ナースから研究員になったばかりの新人。おしゃべりで自由 奔放,アバウトなトラブルメーカー。時々,「げーっ,単に面倒くさい だけじゃん」とつぶやく。 (にん) :物静かなレディだが,細かいのが玉に瑕。仕事は完璧にこな す努力家。周りから「細かい」「細かすぎる」と煙たがられることもあ る。時々,舞との“細かいVSアバウト合戦”が勃発する。舞の1年先輩。 (ぐん) :無口でクールだが,たまにすごいアイデアを出す。舞忍合戦 の時「どっちもどっち…引き分けだな」と判定を下す。大学時代は落 語研究会に所属。スノボ上級者。 まい にん 登場人物紹介 たま きず マイニングの基本的な流れや,どのような分析ができるのか,概要を学びました。今日は,実際にビッ グデータを用いてテキストマイニングを行うようです。さぁ,メンバーと一緒に分析していきましょう。 第2話  ちょっぴり本格的にテキストマイニング テキストマイニングするなら… 今でしょ 「今でしょ」なんて,今絶対使ったらアカン やつになりました。時代遅れの寒~いギャグで すが,読者との心の距離を縮めるキッカケにな ればチョベリグ(超ベリー・グッド)です。 じゃあ,今回もアゲアゲ(テンション↑ あげ あげ )で いきましょう。 ところで,最近は,多くのテキストマイニン グのソフトが発売されていますが,「期待した 結果が出ない」「辞書作りが大変」「役に立たな い」といった声が出るくらいに,まだまだ使い こなされていないのが現状のようです。 これらの批判の中には,テキストマイニング の基本的な仕組みを理解しないまま使用するこ とによって生じる誤解が多々あるようです。そ こで今回は,適切に使用するために押さえておか なければならないポイントについて解説します。 SOAPのアセスメント テキストマイニングでは,文章の中にどのよ うな内容が記述されていて,「その内容が全体 として多いか少ないか」「増加しているか減少 しているか」「ほかの内容との関連が強いか弱 いか」という統計的な分析を行います。これは, 看護記録のSOAPの「A:アセスメント」に似 ていませんか? 似ているというより,そのも のですね。特に「ことばネットワーク」は,病 態関連図を見慣れている人は取っつきやすいと 思います。 ここは,テキストマイニング・ラボ(以下,TMラボ)。リーダー 真凛を中心に,舞,忍,軍の個性豊かなメンバーが,自然言語処理 とテキストマイニング技術の向上のため,日々,頭と手を(口も… モグモグ♪)動かしている集団です。 さて,「『看護研究』のイメージが一変するほど面白い」と評判の テキストマイニング。前回(本誌2016年8・9月号)は,テキスト もっと知りたい! TM なぜ「形態素解析」と「構文解析」を しなくてはいけないの? 文章から適切に単語の切り出しを行うのが「形態素解析」,文 章の構造を把握し意味のつながりを発見するのが「構文解析」 です。この前処理をしておかなければ,コンピュータが元デー タを読み取ることができません。ですから,面倒でもやらなけ ればいけない工程なのです。これは自動で行われますが,デー タ量が多いと何時間も掛かる場合があります。 66 看護人材育成 Vol.13 No.4

ちょっぴり本格的にテキストマイニング · 「形態素解析」や「構文解析」の技術のことを,「自然言語処 理」と言います。最近では大いに技術が進展してきましたが,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

軍軍

忍忍真凛真凛

舞舞

©H.Lee©H.Lee

連載

真凛(まりん):TM研究室の真面目なアラサーリーダー。自然言語と統計学の専門家。専門看護師の資格を持っている。

舞(まい):ナースから研究員になったばかりの新人。おしゃべりで自由奔放,アバウトなトラブルメーカー。時々,「げーっ,単に面倒くさいだけじゃん」とつぶやく。

忍(にん):物静かなレディだが,細かいのが玉に瑕。仕事は完璧にこなす努力家。周りから「細かい」「細かすぎる」と煙たがられることもある。時々,舞との“細かいVSアバウト合戦”が勃発する。舞の1年先輩。

軍(ぐん):無口でクールだが,たまにすごいアイデアを出す。舞忍合戦の時「どっちもどっち…引き分けだな」と判定を下す。大学時代は落語研究会に所属。スノボ上級者。

まいにん

● 登場人物紹介

たま きず

マイニングの基本的な流れや,どのような分析ができるのか,概要を学びました。今日は,実際にビッ

グデータを用いてテキストマイニングを行うようです。さぁ,メンバーと一緒に分析していきましょう。

第2話 ちょっぴり本格的にテキストマイニングテキストマイニングするなら…今でしょ 「今でしょ」なんて,今絶対使ったらアカン

やつになりました。時代遅れの寒~いギャグで

すが,読者との心の距離を縮めるキッカケにな

ればチョベリグ(超ベリー・グッド)です。

じゃあ,今回もアゲアゲ(テンション↑あげ

↑あげ

)で

いきましょう。

 ところで,最近は,多くのテキストマイニン

グのソフトが発売されていますが,「期待した

結果が出ない」「辞書作りが大変」「役に立たな

い」といった声が出るくらいに,まだまだ使い

こなされていないのが現状のようです。

 これらの批判の中には,テキストマイニング

の基本的な仕組みを理解しないまま使用するこ

とによって生じる誤解が多々あるようです。そ

こで今回は,適切に使用するために押さえておか

なければならないポイントについて解説します。

SOAPのアセスメント テキストマイニングでは,文章の中にどのよ

うな内容が記述されていて,「その内容が全体

として多いか少ないか」「増加しているか減少

しているか」「ほかの内容との関連が強いか弱

いか」という統計的な分析を行います。これは,

看護記録のSOAPの「A:アセスメント」に似

ていませんか? 似ているというより,そのも

のですね。特に「ことばネットワーク」は,病

態関連図を見慣れている人は取っつきやすいと

思います。

テキストマイニングするなら…今でしょ

SOAPのアセスメント

 ここは,テキストマイニング・ラボ(以下,TMラボ)。リーダー

真凛を中心に,舞,忍,軍の個性豊かなメンバーが,自然言語処理

とテキストマイニング技術の向上のため,日々,頭と手を(口も…

モグモグ♪)動かしている集団です。

 さて,「『看護研究』のイメージが一変するほど面白い」と評判の

テキストマイニング。前回(本誌2016年8・9月号)は,テキスト

もっと知りたい! TM

なぜ「形態素解析」と「構文解析」をしなくてはいけないの? 文章から適切に単語の切り出しを行うのが「形態素解析」,文章の構造を把握し意味のつながりを発見するのが「構文解析」です。この前処理をしておかなければ,コンピュータが元データを読み取ることができません。ですから,面倒でもやらなければいけない工程なのです。これは自動で行われますが,データ量が多いと何時間も掛かる場合があります。

66 看護人材育成 Vol.13 No.4

作業の流れ(図1)

 まず,元データとなるアンケートの自由記述

やインタビューの逐語録を自分で集めなければ

なりません。ここでテキストマイニングをする

のに適した分析対象をセレクトしておかなけれ

ば,最終の結果図表もありきたりのものになっ

てしまいます。

 次の段階は,全自動でコンピュータ処理され

るので安心してください。分かち書き(自然言

語処理)と呼ばれるコンピュータが文書を読み

取れるように加工することから始まります。続

いて,人手によるソフト内の辞書の整理です

が,面倒でもここで元データをきれいに下した

拵ごしら

しておかなければ,マズイ結果になりかねませ

ん。だから,分析のプロは,この作業に相当の

労力を掛けます。

 そして,コンピュータによる作図です。どん

なにチョベリバ(超ベリー・バッド)なデータ

であっても,それはそれは綺麗な図が自動作成

されます。でも最初に,「これを明らかにする

のだ!」という狙いをはっきりさせておかなけ

れば,どっさりと出た図表の中でアップアップ

して,大変なことになりますよ。

出力図表だけ4 4

で内容を推測してみたら… テキストマイニングは,途方もない膨大な文

字情報から「新たな事実や傾向」を発見する技

術です。試しに,次の条件で検索し,抄録を読ま

ずに出力図表だけで内容・傾向を把握してみま

しょう(図2)。解析には,Tテキスト

ext Mマ イ ニ ン グ

ining Sス タ ジ オ

tudio

バージョン6.0(NTTデータ数理システム)と,

一部Kケイエイチ

H Cコ ダ ー

oderを使用しました。

 ただし,本格的に研究する場合は,研究目的

を明確にして取り組まなければ,ゴールに辿り

着けませんよ。

©H.Lee©H.Lee

出力図表内容を推測してみたら…

人手による文書データの準備

人が考察して報告書作成

分かち書き文書に記述された内容をコンピュータが分析可能な状態にする

辞書の整備分析の精度を向上させるために内蔵されたユーザ辞書を整える

分析の実施文書全体の特徴や言葉の関連性をビジュアルに表示し,視覚的に把握する

コンピュータによる

情報の整理・分析

コンピュータによる

情報の整理・分析

前処理

前処理

マイニング

マイニング

図1●テキストマイニングの基本的な作業手順

検索条件1.医学中央雑誌  2.検索語⇒看護3.1987 ~ 2015年原著標題

出力図表1.基本情報  2.係り受け頻度解析3.ことばネットワーク

把握したいこと1.研究の動向  2.時系列での変遷3.新知見

図2●テキストマイニングの流れ

もっと知りたい! TM  自然言語処理

 「形態素解析」や「構文解析」の技術のことを,「自然言語処理」と言います。最近では大いに技術が進展してきましたが,類義処理を行うための辞書作成,意味的なまとまりを作り出すための辞書作成といった点に,課題が残っています。また,形態素解析の場合,文をどこで区切るかについては,言語学者の考え方や使用する解析ソフトによって異なっています。

辞書 もちろん,国語辞書や英和辞書のことではありません。テキストマイニングでは,言葉をまとめ上げて,どのような場合でも同じ単語として扱いたい時に,コンピュータに内蔵された「類義語辞書」という辞書を使用します。また,分析結果として表示させたくない単語がある場合は,「削除語辞書」を設定できます。

67看護人材育成 Vol.13 No.4

声だけ4 4

で誰だか分かる?舞:真凛先生! 声だけ

4 4

で誰か把握するのは難

しいですね。

真凜:そうですね。電話を使った“オレオレ詐

欺”が後を絶たないのもそうですよ。

忍:それって,先週,高速道路のサービスエリ

アに立ち寄った時の話でしょ?

真凜:何があったの?

舞:トイレの個室に入って,便座に座ろうとし

たら隣から「お久しぶり,元気?」って。

真凜:あら,いやだ…。隣から見えてるの?

舞:どうしていいか分からなかったので,躊ためら

いながら「まぁまぁ…」と答えました。

真凜:声だけ4 4

では誰だか判断できないからね。

舞:そしたらお隣さんが,「そっかぁ…。それ

で今,何してるの?」って聞くんです。

真凜:それで?

舞:変だなと思いましたが,「あなたと同じよ…」っ

て返答しました。

真凜:そうしか言えないですよね。

 …やがて,隣が声をひそめ「後でかけ直す…。

横にいちいち返答する人がいるのよ」

 道を歩いている時に「もしもし?」と声

をかけられて,「あっ,はい?」と答えな

がら声のした方を見ると,その人は電話を

していたってことありませんか? このよ

うに,声だけで判断するのは勘違いの基で,

ちゃんと声の主を確認するのが一番です。

 これと同様に,テキストマイニングで

も,出力図表からだけで判断するのは間違

いの基です。気がかりな言葉があれば,随

時「原文検索」機能を使って,内容を確認

することが大切です。

ビッグデータ…なんと12万件! 医学中央雑誌で,看護を検索語として実際に

やってみると,12万6,803件ヒットしました。

これくらいの膨大な量になると,ビッグデータ

と呼ばれます。

 この29年分の抄録タイトルをダウンロード

して,CSV形式で保存しました。その後,デー

タをセットして前処理を始めましたが,Text

Mining Studioでは30分,KH Coderでは8分で

した。この前処理時間の差は,どこにあるので

しょうか。

 答えは,解析内容の差です。KH Coderは「形

態素解析」のみを行っていますが,Text Mining

Studioでは「構文解析」までやっているので時

間がかかっているのです。

 「ふむふむ。なんとなく作業手順は分かったけ

れど…,具体的なイメージが沸かないなぁ…」

そんな読者の心の声が聞こえてきます。それで

は,TMラボのスタッフと一緒に,実際の分析

を進めながら学んでいきましょう!

図を眺めて,みんなでディスカッション真凜:みなさん,画面1は何を表しているで

しょうか?

舞:真凛先生! 中央に表示されている基本情

報を見ると,データ数は12万6,803件です。

真凜:舞さん,それだけ?

舞:左は単語頻度解析の結果画面です。

忍:縦軸に単語が多い順に表示され,横軸がそ

の実数になります。

真凜:じゃあ忍さん,頻出単語を具体的に言っ

てください。

忍:上から,看護,患者,検討,看護師,学生

の順になっています。

真凜:では軍さん,そのほかに分かることは?

軍:どんな単語が使われているかを見ることに

より,内容を大まかに把握できます。

真凜:そうですね。

軍:右の係り受け頻度解析が面白いです。

真凜:どんなふうに?

もっと知りたい! TM  ビッグデータ 単に量が多いだけでなく,さまざまな種類・形式が含まれる非構造化データ・非定型的データです。日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指します。今までは管理しきれなかったために見過ごされてきたデータ群を解析することで,新たな知見を発見できる可能性があります。

68 看護人材育成 Vol.13 No.4

軍:何を「分析」しているかがよく分かります。

真凜:もう少し詳しく。

軍:要因,アンケート調査,自己評価,実習記

録の分析が多いですね。

真凜:そう,気になる単語があれば調べること

ができますね。画面2は?

軍:10年毎の時系列分析が見て取れます。

真凜:左から,どんな特徴が読み取れますか?

軍:1980年代は「事故報告書」に関する標題

が多いようです。

真凜:そう,その年代に注目されていたことが

一目瞭然ですね。右は?

軍:1990年代に入ると,「因子・要因分析」が

増加しています。

真凜:じゃあ,画面3は?

軍:2000年代では,明らかに「要因分析」が

増えていますね。

真凜:右は?

軍:2010年代から,初めて“テキストマイニ

ング”が出てきました。

真凜:今後,どのような情報に着目して分析す

るかの指針を得ることができますね。

画面1●単語頻度解析(左)と係り受け頻度解析(右)

画面2●特徴表現抽出(1980~1999年)

画面3●特徴表現抽出(2000~2010年以降)

69看護人材育成 Vol.13 No.4