Open Refineの入手及び使い方については、このページにあるが、一応、簡単な手順について残しておく。概略を一通り知るにはここの動画等もお勧めです。
先ずは、ここのDownload Open Refineからダウンロードする。Windows版の場合には任意の場所にダウンロードしたzipファイルを解答し、その中のgoogle-refine.exeを実行する。ダイヤモンドのようなアイコンのついた実行ファイルである。
実行して暫く経つと、Webブラウザが立ち上がり、Open Refineの初期画面が現れる。Open Refineの本体は、Windowsであればコマンドプロンプト上で動作しているWebサーバーである。従って、Open Refineの初期画面がブラウザに現れても、何か変なウィンドウが開いているなどと思ってコマンドプロンプトを閉じてはいけない。ブラウザ上でOpen Refineを操作する間はコマンドプロンプトはそのままにしておこう。
それでは、上記のOpen Refineのページの解説に基づいた、ざっくりした和訳で、Open Refineの基本操作について理解していく。
先ずは、Open Refineの主要機能
- インポート(Importing)
- フィルター/ファセット(Filtering/Faceting)
- 編集
- セルの編集(Editing Cells)、クラスタリング(Clustering)によるセルの編集
- 列の編集(Editing Columns)、データ拡張(Extending Data)による列の編集
- 行の編集(Editing Rows)
- 関数の理解(Understanding Expressions)
- 正規表現の理解(Understanding Regular Expressions)
- エクスポート(Exporting)
- 履歴(History)
がある。
この中で関数については、
- 変数(Variables)
- オープンリファイン関数(Open Refine Expression Langage)
- コントロール(Controls)
- 関数(Functions)
- ブーリアン関数(Boolean Functions)
- 文字列関数(String Functions)
- 配列関数(Array Functions)
- 数学関数(Math Functions)
- 日付関数(Date Functions)
- その他の関数(Other Functions)
- Jython言語
等の機能がある。これ以外にも、突合せ(Reconciliation)の機能やフリーベースとの接続機能等もあるらしいが、とりあえず、今回の目的には関係ないだろう。
次に、上記の主要機能の内で、インポート(Importing)機能
Open Refineでデータを利用するためにはインポートが必要である。Open Refineは多くのデータ形式を理解可能。現在サポートされている形式は、
- TSV、CSV、または値が指定したカスタム区切り文字で区切られたテキスト
- Excelファイル(xls、xlsx)
- XML、XMLとしてのRDF
- JSON
- Googleスプレッドシート
- RDFトリプルN3
非常に奇妙なテキスト形式のデータを扱いたい場合には、前処理等は行わずに、単にインポートしてから、インポータされたデータに対して独自のカスタム列の分割の処理等を行うと良い。アーカイブファイル(圧縮ファイル)のインポートを指示した場合には、その中で最も一般的な(多い)ファイル拡張子を検出し、その拡張子を持つすべてのファイルを単一のプロジェクトとしてロードする。
また、データファイルやGoogleスプレッドシートへのURLを指示することが出来る。そのURLのmime-typeからデータ形式を判別するが、現在インポートがサポートされているのはGoogleスプレッドシートのみ。
インポート後は、データはOpen Refine独自の形式で格納される。
初期画面を見ると、左端のCreate Projectのタブが選択された状態となっており、This Computer(自分のパソコン)」からLocate one or more files on your computer to upload(一つかそれ以上のファイルをアップロードしろ)と言ってきます。特許関連のデータであればCSVやExcel等の形式で持っているデータを使うことが多いだろう。ファイルを選択してNextを押すと、ExcelでCSVを開く時のような読み込み設定画面が現れ、ここで、適宜条件を設定した後、右上のCreate Projectを押して、データをOpen Refineに取り込む。
過去にデータをインポートして作成したProjectについては、Open Projectのタブを選択して、呼び出すことが出来る。
次はファセットについて理解していく。