セルの編集(Editing Cells)
①一つのセルを一度編集する
セルを編集するには、マウスカーソルをそのセル上に動かしたときに見える小さな青色の”edit”ボタンをクリックする。編集用のテキストボックスが表示されるので、修正するテキストを入力し”Apply”ボタンを押すか”Enter”キーを押すと、その一つのセルが修正される。一方、”Apply to All Identical Cells”ボタンを押すか”Ctrl+Enter”キーを押すと、その列内で同一のテキストが存在する全てのセルが修正される。所謂、検索&置換操作である。
また、テキストボックス上でデータタイプの変更も可能である。日付形式としてISO8601形式や、もっと読みやすい”today”,”yesterday”のような形式にすることもできる。
②テキストファセット経由での編集
テキストファセット経由での編集も可能である。先ず、ある列のテキストファセットを生成し、そのファセットから編集対象のテキスト上にマウスを移動させる、”edit”リンクが表示されるので、それをクリックして編集用のテキストボックスを表示させる。上記のセル毎の編集とは異なり、テキストファセット経由での編集ではテキスト形式での編集のみが可能である。
テキストファセット経由での編集も所謂検索&置換操作になる。例えば人名を含む列に対して、テキストファセットを生成した例として以下のようなファセットがある。
choice |
count |
Andy Anderson |
79 |
Andy R. Anderson |
9 |
Beatrice Beaufort |
28 |
Cindy Mansfield |
67 |
… |
… |
このテキストファセットで、”Andy R. Anderson”の編集を選択して、”Andy Anderson”に変更すると、9の”Andy R. Anderson”は全て”Andy Anderson”に変更され、テキストファセットは以下のような状態となる。
choice |
count |
Andy Anderson |
88 |
Beatrice Beaufort |
28 |
Cindy Mansfield |
67 |
… |
… |
③トランスフォームコマンドによる編集
Google Refineでの最もポピュラーな列への編集操作は、列のトランスフォームコマンドを実行する操作である。列のドロップダウンメニューからEdit cells > Transform …を選択する。Expression枠に関数を入力して、その関数に基づいて元のセルの値から新しいセルの値を生成する編集操作を行う。
例えば、以下の様なデータセットを考える。
name |
age |
John Smith |
28 |
Jane Doe |
33 |
“name”列に対してトランスフォームコマンドを実行して、Expressionに以下の関数を入力する。
value.split(" ").reverse().join(", ")
これを実行すると“name”列の1行目から順に、名前の文字列をスペースの位置で分割し、その順番を逆転させ、更に”, ”を間に入れて結合する処理を行う。OKボタンをクリックするとデータの編集結果は以下のようになる。
name |
age |
Smith, John |
28 |
Doe, Jane |
33 |
関数に関する更なる情報は、関数の理解(Understanding Expressions)を参照(後日投稿)。
④セル内の複数の値を分割して、レコードを生成
Google Refineには、” Split multi-valued cells”(複数の値を含むセルの分割)という機能がある。
以下の例を参照してください。
name |
data type |
data record |
Kate Moss |
Person |
profession:Model,href:”/0122-kate-moss”,title=”Kate Moss”,hair:brown |
Marilyn Monroe |
Person |
profession:Actor,href:”/1488-marilyn-monroe”,title=”Marilyn Monroe”,hair:blond |
“data record”列には分割すべき複数のフィールドが存在しているが、新たに列を生成することはしたくなく、代わりに個々のフィールドデータを各々のパーソンレコードに対するものにしたい。この場合にはEdit Cells -> Split multi-valued cells…を”data record”列で選択し、セパレータキャラクターとしてカンマを選択する。適用後にはテーブルは以下のような状態となり、rowsモードでの表示かrecordsモードでの表示を選択可能になる。
Show as: rows records Show: 5 10 25 50 records
All |
name |
data type |
Data record |
Kate Moss |
Person |
profession:Model |
|
href:”/0122-kate-moss” |
|||
title=”Kate Moss” |
|||
hair:brown |
|||
Marilyn Monroe |
Person |
profession:Actor |
|
href:”/1488-marilyn-monroe” |
|||
title=”Marilyn Monroe” |
|||
hair:blond |
次は、特許データのゴミ取り(名寄せ)で活用していきたい、クラスタリングによるセルの編集について理解していく。