特許データのゴミ取り(名寄せ)へのOpen Refineの利用可能性(7)

今回の記事では、先回の記事で紹介した名寄せ手法(Open RefineでMetaphone3を用いたクラスタリング処理)を、手持ちのデータ、ゲーム機器のUS、EP出願データからの英文出願人名では、どうなるかについて見ていくことにする。

 

どんなデータかというと、

Applicant
ARISTOCRAT LEISURE IND PTY LTD
ARISTOCRAT TECHNOLOGIES AU
IGT RENO NEV
ARISTOCRAT LEISURE IND PTY LTD
ARISTOCRAT LEISURE IND PTY LTD
ARISTOCRAT TECHNOLOGIES AU
ARISTOCRAT LEISURE IND PTY LTD
ARISTOCRAT LEISURE IND PTY LTD
ARISTOCRAT LEISURE IND PTY LTD
TWO WAY MEDIA LT LONDON
IGT RENO NEV
ACRES GAMING INC
TWO WAY TV LTD
APPLE INC
JORASCH JAMES A
HAL LAB INC
CRAIG THORNER
CREATIVE KINGDOMS LLC
SONY CORP

こんな感じのデータ、ゲーム機関連の出願人名リストです。説明をわかりやすくするために、予め筆頭出願人名だけのデータにしています。

このデータでランキングを取ると、

Applicant 集計
ARISTOCRAT TECHNOLOGIES AU 382
NINTENDO CO LTD 372
IGT RENO NEV 345
WMS GAMING INC 279
KONAMI DIGITAL ENTERTAINMENT 246
ARUZE CORP 226
SONY COMP ENTERTAINMENT INC 175
MICROSOFT CORP 148
ARUZE GAMING AMERICA INC 136
BALLY GAMING INC 123
NAMCO BANDAI GAMES INC 72
DISNEY ENTPR INC 44
SONY COMP ENTERTAINMENT US 41
MULTIMEDIA GAMES INC 40
KONAMI GAMING INC 37
SQUARE ENIX CO LTD 36
CFPH LLC 35
SONY COMP ENTERTAINMENT EUROPE 32
IGT 29
SEGA CORP 28

このようなランキングになります。

 

さて、このような元データに対して、Open Refineで名寄せ処理を行なっていきます。

Game - Google Refine 1

先ずは、Open Refineにとりこんだのがこの状態。

ここからText Facetを選択して、ClusteringでMetaphone3を選択するとこのようになります。

Game - Google Refine 2

良い感じで名寄せ処理が自動的に行われています。

全部選択してマージ処理を実行して、名寄せ処理を完了した出願人名でランキングを取るとこのようになります。

Applicant 集計
ARISTOCRAT TECHNOLOGIES AU 400
NINTENDO CO LTD 372
IGT RENO NEV 345
WMS GAMING INC 281
SONY COMP ENTERTAINMENT INC 252
KONAMI DIGITAL ENTERTAINMENT 250
ARUZE CORP 226
MICROSOFT CORP 150
ARUZE GAMING AMERICA INC 136
BALLY GAMING INC 123
NAMCO BANDAI GAMES INC 73
DISNEY ENTPR INC 44
MULTIMEDIA GAMES INC 41
KONAMI GAMING INC 37
SQUARE ENIX CO LTD 36
CFPH LLC 35
IGT 30
SEGA CORP 28
ACRES FIORE PATENTS 26
IBM 26

名寄せ処理前後の集計を比較するとこんな感じ。

名寄せ処理後上位出願人 名寄せ処理後件数 名寄せ処理前上位出願人 名寄せ処理前件数
ARISTOCRAT TECHNOLOGIES AU 400 ARISTOCRAT TECHNOLOGIES AU 382
NINTENDO CO LTD 372 NINTENDO CO LTD 372
IGT RENO NEV 345 IGT RENO NEV 345
WMS GAMING INC 281 WMS GAMING INC 279
SONY COMP ENTERTAINMENT INC 252 KONAMI DIGITAL ENTERTAINMENT 246
KONAMI DIGITAL ENTERTAINMENT 250 ARUZE CORP 226
ARUZE CORP 226 SONY COMP ENTERTAINMENT INC 175
MICROSOFT CORP 150 MICROSOFT CORP 148
ARUZE GAMING AMERICA INC 136 ARUZE GAMING AMERICA INC 136
BALLY GAMING INC 123 BALLY GAMING INC 123
NAMCO BANDAI GAMES INC 73 NAMCO BANDAI GAMES INC 72
DISNEY ENTPR INC 44 DISNEY ENTPR INC 44
MULTIMEDIA GAMES INC 41 SONY COMP ENTERTAINMENT US 41
KONAMI GAMING INC 37 MULTIMEDIA GAMES INC 40
SQUARE ENIX CO LTD 36 KONAMI GAMING INC 37
CFPH LLC 35 SQUARE ENIX CO LTD 36
IGT 30 CFPH LLC 35
SEGA CORP 28 SONY COMP ENTERTAINMENT EUROPE 32
ACRES FIORE PATENTS 26 IGT 29
IBM 26 SEGA CORP 28

上位出願人名の変化、件数の変化が若干見られますね。

Open RefineでMetaphone3を用いたクラスタリング処理、英文ベースでの名寄せ処理になかなか有効なようです。

注意して欲しいのは、ここで言っている名寄せは、文字列がよく似ているが、全く同じでは無い表記が含まれる場合の対処の方法になります。大幅な社名変更やグループ会社の扱い等については別途検討が必要な事項で、Open Refineで扱うような話ではありません。

次回は、中国語の場合の有効性について試してみたい。

 

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。