特許データのゴミ取り(名寄せ)へのOpen Refineの利用可能性(4)

セルの編集(Editing Cells)

①一つのセルを一度編集する

セルを編集するには、マウスカーソルをそのセル上に動かしたときに見える小さな青色の”edit”ボタンをクリックする。編集用のテキストボックスが表示されるので、修正するテキストを入力し”Apply”ボタンを押すか”Enter”キーを押すと、その一つのセルが修正される。一方、”Apply to All Identical Cells”ボタンを押すか”Ctrl+Enter”キーを押すと、その列内で同一のテキストが存在する全てのセルが修正される。所謂、検索&置換操作である。

また、テキストボックス上でデータタイプの変更も可能である。日付形式としてISO8601形式や、もっと読みやすい”today”,”yesterday”のような形式にすることもできる。

 

②テキストファセット経由での編集

テキストファセット経由での編集も可能である。先ず、ある列のテキストファセットを生成し、そのファセットから編集対象のテキスト上にマウスを移動させる、”edit”リンクが表示されるので、それをクリックして編集用のテキストボックスを表示させる。上記のセル毎の編集とは異なり、テキストファセット経由での編集ではテキスト形式での編集のみが可能である。

テキストファセット経由での編集も所謂検索&置換操作になる。例えば人名を含む列に対して、テキストファセットを生成した例として以下のようなファセットがある。

choice

count

Andy Anderson

79

Andy R. Anderson

9

Beatrice Beaufort

28

Cindy Mansfield

67

このテキストファセットで、”Andy R. Anderson”の編集を選択して、”Andy Anderson”に変更すると、9の”Andy R. Anderson”は全て”Andy Anderson”に変更され、テキストファセットは以下のような状態となる。

choice

count

Andy Anderson

88

Beatrice Beaufort

28

Cindy Mansfield

67

 

③トランスフォームコマンドによる編集

Google Refineでの最もポピュラーな列への編集操作は、列のトランスフォームコマンドを実行する操作である。列のドロップダウンメニューからEdit cells > Transform …を選択する。Expression枠に関数を入力して、その関数に基づいて元のセルの値から新しいセルの値を生成する編集操作を行う。

例えば、以下の様なデータセットを考える。

name

age

John Smith

28

Jane Doe

33

“name”列に対してトランスフォームコマンドを実行して、Expressionに以下の関数を入力する。

  value.split(" ").reverse().join(", ")

これを実行すると“name”列の1行目から順に、名前の文字列をスペースの位置で分割し、その順番を逆転させ、更に”, ”を間に入れて結合する処理を行う。OKボタンをクリックするとデータの編集結果は以下のようになる。

name

age

Smith, John

28

Doe, Jane

33

関数に関する更なる情報は、関数の理解(Understanding Expressions)を参照(後日投稿)。

 

④セル内の複数の値を分割して、レコードを生成

Google Refineには、” Split multi-valued cells”(複数の値を含むセルの分割)という機能がある。

以下の例を参照してください。

name

data type

data record

Kate Moss

Person

profession:Model,href:”/0122-kate-moss”,title=”Kate Moss”,hair:brown

Marilyn Monroe

Person

profession:Actor,href:”/1488-marilyn-monroe”,title=”Marilyn Monroe”,hair:blond

“data record”列には分割すべき複数のフィールドが存在しているが、新たに列を生成することはしたくなく、代わりに個々のフィールドデータを各々のパーソンレコードに対するものにしたい。この場合にはEdit Cells -> Split multi-valued cells…を”data record”列で選択し、セパレータキャラクターとしてカンマを選択する。適用後にはテーブルは以下のような状態となり、rowsモードでの表示かrecordsモードでの表示を選択可能になる。

Show as: rows records Show: 5 10 25 50 records

All

name

data type

Data record

Kate Moss

Person

profession:Model

href:”/0122-kate-moss”

title=”Kate Moss”

hair:brown

Marilyn Monroe

Person

profession:Actor

href:”/1488-marilyn-monroe”

title=”Marilyn Monroe”

hair:blond

次は、特許データのゴミ取り(名寄せ)で活用していきたい、クラスタリングによるセルの編集について理解していく。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。