特許データで自然言語処理(1)

ひさびさの更新。特許データを使って、自然言語処理を学ぼう!というデータ分析の勉強会を見かけました。大阪開催で既に定員も埋まっているようです。新ネタとして、この勉強会の概要から、同じような(と予想する)分析内容を書いていこうかと思います。

必要なのは、Jupyter Notebook、TensorFlow、matplotlib、scikit-learn(t-SNE)、mecab、gensimとなっています。

これらを揃えるためにはAnacondaからインストールしていくのが良いと思います。

Windows上でのセットアップは色々と面倒なので、最近Windows10に追加されたBash on Ubuntu on WindowsのUbuntu上にセットアップしていきます。

とりあえず、ここの記事に基づいて、Bash on Ubuntu on Windowsをインストールします。

インストールが完了したらさらにここの記事に基づいて、pyenv, Anaconda, … Tensorflowまでインストールしてしまいましょう。この手のコマンド操作に慣れていない方は厳しいかと思います。ちなみにWindows上でブラウザ内のテキストをコピーした後、Bash on Windowsの画面への貼り付けはマウスの右クリックです。viも使えた方がいいです。一通りインストールしたら、

conda update conda
conda update anaconda

で、アップデートしておきましょう。scikit-learn(t-SNE)も入るはずです。

conda install gensim

でgensimもインストールしたら、あとはmecab。

mecabのインストールはここを参考に。(手抜きだなw)

これで必要物は全部かな。これだけのもののインストールを参加条件にするのだから件の勉強会の参加の敷居は高いと思う。(参加30分前に行けばセットアップの相談にのってもらえるとのことだが)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。