フリーの英文テキストマイニング可視化環境VOSviewer

VOSviewerは英文テキストの簡易テキストマイニング処理、そして、可視化の機能を有するフリーソフトです。英文の特許要約データやクレームデータ等が手元にあれば簡単にテキストマイニングを実施して、対象データの概略傾向や、良く出現するキーワード等の把握が可能です。(さすがに全文規模は無理)
VOSviewerはこちらからダウンロードしてください。解凍したフォルダ内のVOSviewer.exeを実行するとVOSviewerが立ち上がります(Java6以降のランタイムのインストールが必要と思います)。

先ずは、データの前準備が必要です。

英文の特許データで、特許各1件毎に改行が入っているテキストデータ。データは要約でもクレームでも構いませんが、このような形式で準備する必要があります。また、英文以外の言語は非対応です。

用意するデータのサンプルは次のようになります。

A gaming machine has a display and a game controller arranged to control images displayed on the display. The game controller is arranged to play a spinning reel game wherein one or more random events are caused to be displayed on the display and, if a predefined winning event occurs, the machine awards a prize. When at least one special symbol appears on the display, the special symbol is held in a superimposed representation in that position for at least one further game while at least that reel carrying the special symbol is re-spun for the at least one further game.(改行)
A gaming machine is provided, which awards loyalty points to players playing the game who have identified themselves to the machine. The machine is arranged to award loyalty points to the player and to play two game means wherein, the first or base game may be provided by the slot machine game as a stand alone function with no dependence upon a supporting communications network, the second game may be linked game in which a plurality of network connected machines (50) participate with control of the game being provided by a central game controller (60), while the communications network (62) is controlled by a network controller (61). A first game mode is available to all players and a second enhanced game mode is made available to players who have reached a predetermined threshold of loyalty points.(改行)

ゲーム機の要約英文です。これを例えばgame.txtとして保存します。

データの前準備が出来たら、VOSviewerを起動します。

VOSviewerが起動したら、左端にある”Action”タブ内の”Create”ボタンをクリックします。
次に、”Create a map based on a text corpus”をチェックして”Next”ボタンをクリックします。
そして、”Corpus file(English language only):”の下のボックスで取り込み対象のテキストファイル(今回はgame.txt)を選択して”Next”ボタンをクリック(いきなり”Finish”でもOKですが)します。
次に、”Binary Counting”にチェックが入っていることを確認して”Next”ボタンをクリックします。VOSviewer thesaurus file(optional)については説明を省略します。気になる方はがどうしても気になる方は英文マニュアルで確認してください。
次は、”Minimum number of occurrences of term”の数値を設定して下さい。分析の対象として最低限これだけの回数は出現しているキーワードを対象にするという調整になります。決定したら”Next”ボタンをクリックして下さい。
次は、上の条件で選択したキーワードの中で相互に関連性が深い順にランキングした場合に、その中から上位幾つまでのキーワードをマップ化の対象にするかを数値で調整します。マップが過密にならない程度に数値を調整しましょう。決定したら”Next”ボタンをクリックして下さい。
最終確認として、ここまでの操作で最終的に選択されたキーワードのリストが提示されます。確認してマップに表示したくないノイズワードがあればチェックボタンを外すことで表示しないようにすることが出来ます。後は”Finish”ボタンをクリックして完了して下さい。

英文テキストマイニング処理の結果が出てきます。
処理結果はこれまでの選択により決まっているので、結果の調整は再度取り込み処理の数値の調整を行うか、取り込み対象にした要約集合の調整(不要な語の削除や置換等)をするかしかありません。
これは結果のLabel Viewですが、クラスタ(色分け)は文章内容からワード出現傾向が似ているものが同一色に自動処理されています。

game1

 

こちらはDensity Viewになります。

game2

あとはCluster Density Viewもありますが、表しているものはほぼ同じなので好みの問題になります。

無料であり、使い方次第で色々な活用が期待出来るソフトです。

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。