今回の記事では、先回の記事で紹介した名寄せ手法(Open RefineでMetaphone3を用いたクラスタリング処理)を、手持ちのデータ、ゲーム機器のUS、EP出願データからの英文出願人名では、どうなるかについて見ていくことにする。
どんなデータかというと、
Applicant |
ARISTOCRAT LEISURE IND PTY LTD |
ARISTOCRAT TECHNOLOGIES AU |
IGT RENO NEV |
ARISTOCRAT LEISURE IND PTY LTD |
ARISTOCRAT LEISURE IND PTY LTD |
ARISTOCRAT TECHNOLOGIES AU |
ARISTOCRAT LEISURE IND PTY LTD |
ARISTOCRAT LEISURE IND PTY LTD |
ARISTOCRAT LEISURE IND PTY LTD |
TWO WAY MEDIA LT LONDON |
IGT RENO NEV |
ACRES GAMING INC |
TWO WAY TV LTD |
APPLE INC |
JORASCH JAMES A |
HAL LAB INC |
CRAIG THORNER |
CREATIVE KINGDOMS LLC |
SONY CORP |
こんな感じのデータ、ゲーム機関連の出願人名リストです。説明をわかりやすくするために、予め筆頭出願人名だけのデータにしています。
このデータでランキングを取ると、
Applicant | 集計 |
ARISTOCRAT TECHNOLOGIES AU | 382 |
NINTENDO CO LTD | 372 |
IGT RENO NEV | 345 |
WMS GAMING INC | 279 |
KONAMI DIGITAL ENTERTAINMENT | 246 |
ARUZE CORP | 226 |
SONY COMP ENTERTAINMENT INC | 175 |
MICROSOFT CORP | 148 |
ARUZE GAMING AMERICA INC | 136 |
BALLY GAMING INC | 123 |
NAMCO BANDAI GAMES INC | 72 |
DISNEY ENTPR INC | 44 |
SONY COMP ENTERTAINMENT US | 41 |
MULTIMEDIA GAMES INC | 40 |
KONAMI GAMING INC | 37 |
SQUARE ENIX CO LTD | 36 |
CFPH LLC | 35 |
SONY COMP ENTERTAINMENT EUROPE | 32 |
IGT | 29 |
SEGA CORP | 28 |
このようなランキングになります。
さて、このような元データに対して、Open Refineで名寄せ処理を行なっていきます。
先ずは、Open Refineにとりこんだのがこの状態。
ここからText Facetを選択して、ClusteringでMetaphone3を選択するとこのようになります。
良い感じで名寄せ処理が自動的に行われています。
全部選択してマージ処理を実行して、名寄せ処理を完了した出願人名でランキングを取るとこのようになります。
Applicant | 集計 |
ARISTOCRAT TECHNOLOGIES AU | 400 |
NINTENDO CO LTD | 372 |
IGT RENO NEV | 345 |
WMS GAMING INC | 281 |
SONY COMP ENTERTAINMENT INC | 252 |
KONAMI DIGITAL ENTERTAINMENT | 250 |
ARUZE CORP | 226 |
MICROSOFT CORP | 150 |
ARUZE GAMING AMERICA INC | 136 |
BALLY GAMING INC | 123 |
NAMCO BANDAI GAMES INC | 73 |
DISNEY ENTPR INC | 44 |
MULTIMEDIA GAMES INC | 41 |
KONAMI GAMING INC | 37 |
SQUARE ENIX CO LTD | 36 |
CFPH LLC | 35 |
IGT | 30 |
SEGA CORP | 28 |
ACRES FIORE PATENTS | 26 |
IBM | 26 |
名寄せ処理前後の集計を比較するとこんな感じ。
名寄せ処理後上位出願人 | 名寄せ処理後件数 | 名寄せ処理前上位出願人 | 名寄せ処理前件数 |
ARISTOCRAT TECHNOLOGIES AU | 400 | ARISTOCRAT TECHNOLOGIES AU | 382 |
NINTENDO CO LTD | 372 | NINTENDO CO LTD | 372 |
IGT RENO NEV | 345 | IGT RENO NEV | 345 |
WMS GAMING INC | 281 | WMS GAMING INC | 279 |
SONY COMP ENTERTAINMENT INC | 252 | KONAMI DIGITAL ENTERTAINMENT | 246 |
KONAMI DIGITAL ENTERTAINMENT | 250 | ARUZE CORP | 226 |
ARUZE CORP | 226 | SONY COMP ENTERTAINMENT INC | 175 |
MICROSOFT CORP | 150 | MICROSOFT CORP | 148 |
ARUZE GAMING AMERICA INC | 136 | ARUZE GAMING AMERICA INC | 136 |
BALLY GAMING INC | 123 | BALLY GAMING INC | 123 |
NAMCO BANDAI GAMES INC | 73 | NAMCO BANDAI GAMES INC | 72 |
DISNEY ENTPR INC | 44 | DISNEY ENTPR INC | 44 |
MULTIMEDIA GAMES INC | 41 | SONY COMP ENTERTAINMENT US | 41 |
KONAMI GAMING INC | 37 | MULTIMEDIA GAMES INC | 40 |
SQUARE ENIX CO LTD | 36 | KONAMI GAMING INC | 37 |
CFPH LLC | 35 | SQUARE ENIX CO LTD | 36 |
IGT | 30 | CFPH LLC | 35 |
SEGA CORP | 28 | SONY COMP ENTERTAINMENT EUROPE | 32 |
ACRES FIORE PATENTS | 26 | IGT | 29 |
IBM | 26 | SEGA CORP | 28 |
上位出願人名の変化、件数の変化が若干見られますね。
Open RefineでMetaphone3を用いたクラスタリング処理、英文ベースでの名寄せ処理になかなか有効なようです。
注意して欲しいのは、ここで言っている名寄せは、文字列がよく似ているが、全く同じでは無い表記が含まれる場合の対処の方法になります。大幅な社名変更やグループ会社の扱い等については別途検討が必要な事項で、Open Refineで扱うような話ではありません。
次回は、中国語の場合の有効性について試してみたい。