Gephiで特許分析

Jupyterシリーズの途中ですが、横道にそれて今回はGephiの話題。

Gephiはネットワークグラフを描くためのツールです。Twitterで言えばだれがだれをフォローしている等の何かと何かの関係性を可視化するためのツールになります。特許データでいえば、出願人と出願人との共同出願の関係、発明者と発明者との共同発明の関係、分類と分類との共起性の関係、キーワードとキーワードとの共起性の関係等々があたります。

ネットワークグラフなんてどうやって作るんだと思うかもしれませんが、今回は特許データの世界では比較的よく見かけるExcelデータ、例えば、共同出願人名や共同発明者がセミコロン等で区切られて1セルに入っているようなデータからネットワークグラフを簡単に描く手順について紹介していきます。

まずはGephiを入手します。2017年9月現在、公式サイトhttps://gephi.org/で安定版としてVer0.92が公開されているため、ダウンロードしてインストールします。

インストールが終わったら起動します。Javaがインストールされていない場合にはJavaのインストールが必要になるかもしれません。

起動したら「Gephiへようこそ」のウィンドウが開いていると思いますがこれを閉じます。

次のような画面が出ていると思いますので左上のメニューから「ツール」→「プラグイン」→「使用可能なプラグイン」と選択していきます。次の画面になると思います。

「Convert Excel and csv files to networks」にチェックを入れて、インストールボタンを押してインストール作業を進めます。インストールが完了すると再起動を求められますので一旦再起動してください。

ネットワーク分析用のExcelデータを準備します。とりあえず、マッサージ機の特許データを使います。Fタームの共起を見ていきましょう。

ファイルメニューから「Import」を選びます「Import spreadsheet」ではありません。

次の画面で「次へ」ボタンを押して、分析対象のエクセルファイルを選びます。マッサージ機の特許データは公報番号とセミコロンで区切られたFタームデータが入ったデータです。

次のSelect agentsで、上下の枠で同じ「Fターム」を選びます。もしも共同出願人のネットワークデータを作成するなら上下ともに出願人、共同発明者なら上下ともに発明者を選びます。

次のSubfield in agentsで要素を区切っている記号を選択します。今回のデータではセミコロンなのでsemicolonを選びます。

次の画面では動的ネットワークを作成するための日時等のフィールドを選ぶか聞いてきます。今回は飛ばして「次へ」ボタンを押しますが、動的ネットワークを作成したい場合はここで出願日等を選びます。

次のメニューでは1番目と3番目のチェックボックスにチェックを入れます。

次の画面で「終了」ボタンを入れるとネットワークデータが作成されます。

今回のデータは一部のFタームデータに抜けがあるためエラーが出ますが、それ以外はネットワークデータが無事作成されます。

 

適当に見た目を整えるとこのような感じになります。DA05:胴、DA06:腰、DA10:脚などを中心としたマッサージ箇所と、CA06:背部への配置、BB03:モータ、BB05:ポンプ等の主要Fタームが個別に独立した付与ではなく、相互に密接な共起の関係にあることが見て取れます。

今回のGephiを用いたExcelデータからのネットワークグラフの作成は、ネットワーク理論でいうところの「無向」グラフの作成を簡単に行う方法になります。「無向」とは今回のFタームとFタームの共起性の関係や、出願人と出願人との共同出願の関係、発明者と発明者との共同発明の関係、分類と分類との共起性の関係、キーワードとキーワードとの共起性の関係等のように、「4C100DA10」と「4C100BB05」が共起したという表現の順を反対に入れ替えて「4C100BB05」と「4C100DA10」が共起したという表現にしても意味合いに違いが無いような関係を言います。

「無向」の反対は「有向」になりますが、「有向」の場合は順を反対に入れ替えるとおかしくなるような関係になります。特許のデータで言えば引用と被引用の関係や優先権の親と子の関係やクレームの独立と従属の関係のようなものです。「出願B」が「出願A」の審査で引用されたという表現の順を反対に入れ替えると「出願A」が「出願B」の審査で引用されたという表現にしてしまうと意味合いが全く違うものになってしまいます。今回の手法では有向データをExcelシートから上手く処理することはできないため、「有向」データをGephiに取り込む際にはPythonでの処理等の工夫が必要になります。

また、データを取り込んだ後のGephi上のレイアウトの整え方等の操作法については今回は省きましたので、それはまた別の機会に。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。