特許データのゴミ取り(名寄せ)へのOpen Refineの利用可能性(5)

クラスタリング(Clustering)によるセルの編集

セルを編集する最も強力な方法は、クラスタリング機能を介した編集になります。

以下のように人名として、ファーストネーム、ラストネームの順、その逆、ミドルネームを含む等の種々のパターンを含むデータの場合に、テキストファセットを生成すると以下のようになります。

choice

count

Andy Anderson

79

Andy R. Anderson

9

Anderson, Andy

57

Beatrice Beaufort

28

Beatrice Mansfield

67

Beaufort, Beatrice

19

テキストファセットを用いた編集では、”Andy R. Anderson”と”Anderson, Andy”を個々に”Andy Anderson”に編集する作業を行い、次に・・・という作業を続ける必要がありますが、この様な操作をもっと自動化したものとしてクラスタリング機能を利用することが出来ます。

クラスタリング機能へのアクセスは2つの方法があります。既にテキストファセットを生成している場合には、テキストファセット内に”Cluster”ボタンが表示されています。テキストファセットを生成していない場合には、列のドロップダウンメニューからEdit cells > Cluster and edit…を選択します。

クラスタリング機能の画面で、Method:key collision、Keying Function:ngram-fingerprint、Ngram Size:1と設定すると、最初の2つのクラスタとして以下のグループが形成されます。

第1のグループ

  • Andy Anderson (79)
  • Andy R. Anderson (9)
  • Anderson, Andy (57)

第2のグループ

  • Beatrice Beaufort (28)
  • Beaufort, Beatrice (19)

結合したいグループにチェックし、変更する名称をテキストボックスに入力するとそれぞれのグループを一つの名前に統合する編集がかのうです。

クラスタリング機能で、Method、Keying等を変更することで、クラスタリングの程度を調整することが出来ます。また、クラスタリング機能で実施した編集は何時でもUndoすることが出来ます。

次回は、クラスタリング機能の設定内容について。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。