特許データのゴミ取り(名寄せ)へのOpen Refineの利用可能性(1)

特許データというと、所定の様式で統一され、比較的ゴミが少ないデータではないかと思われるかもしれない。確かに、比較的ゴミが少ないデータかもしれないが、ゴミ取りの必要が全く無いかというとそうでもない。特許番号や出願日等のデータにはあまりゴミはないが、出願人や発明者の表記にはゴミやバラつきが多い。また、M&Aや社名変更等により、実態として同じ出願人でも表記が事なる場合もある。出願人名や発明者名に基づく集計等の処理を行う場合には、このバラつきのあるデータの整形(ゴミ取り)が欠かせない。このような特許データの整形には、比較的使い慣れたExcel等の表計算ソフトを用いている人が多いと思われる。しかしながら、表計算ソフトはこのようなデータの整形に特化したソフトでは無く、素早くデータ整形が出来るとは言い難い時もある。

特許データの名寄せ等の必要性については、例えば、http://www.tokugikon.jp/gikonshi/250kiko2.pdf や http://hdl.handle.net/10119/9421 等に説明されている。

で、Open Refineだが、GoogleのFreebaseチームがリリースしたオープンソース・ソフトウェア(旧Google Refine)で、ゴミを含むデータの整形(クリーニング/クレンジング)を行うためのツールとして開発されたものである。Excelであれば、検索・置換機能やフィルタ機能等を使いながら一つ一つゴミの修正や表記の統一等の作業を行なっていくのであるが、Open Refineの場合はクラスタリング機能を用いて、複数の似たような表記のデータを簡単に表記統一していくことが可能になる(クラスタリングの条件の調整等は必要であるが)。

先ずは、Open Refineの基本的な使い方を理解して、次に具体的な特許データでのゴミ取りを行ない、どの程度、効率的にゴミ取りが出来るのかを見ていきたい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。