一年近くの放置からの記事になってしまいました。
今回は、クラスタリング機能の設定内容について書くはずだったのですが、もたもたしている間に海外の方に先を越されてしまったのでその紹介。
Patent Assignee Cleanup Using Google Refine (Open Refine) – Text Facets and Clustering
これです。Open Refineの特許データの名寄せへの利用で、おもいっきり被ってます。基本的な使い方の紹介等を含めた記事となっています。その辺りの基本的な操作はここでもこれまでに紹介しているので、名寄処理に関わる部分の要点だけ紹介します。
出願人名の名寄せをするのなら、Open Refineにはいろいろなアルゴリズムがあるけれども、Text FacetでMetaphone3を使うのがベストと述べられています。”I have found that I get the maximum value by using the Metaphone3 algorithm. If you only use one method use this one.”
残念ながらこの記事の中では、共願人がいる場合の処理についてまでは述べていません。
今回はここまで、次回は多分、手持ちのデータでMetaphone3は有効なのか試してみたいと思います。