Re:ゼロから始めるML生活

どちらかといえばエミリア派です

日本語wikipediaで遊んでみる

f:id:nogawanogawa:20190302082130p:plain:w600

最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。

過去にこんなことやってました。

tsunotsuno.hatenablog.com

tsunotsuno.hatenablog.com

今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては特にやる気がなく、本当にちょっと遊んでみたというだけです。

日本語wikipediaエンティティベクトル

今回はこちらを使用しました。

www.cl.ecei.tohoku.ac.jp

こんな便利なものがあるんですね。ありがたやありがたや。

使ってみる

試しに使ってみます。

検索なら一瞬でできますね。

データの書き出し

内部のデータを適当に加工してcsvに書き出してみます。

今回は類似度の高い上位5単語を紐づけて出力してみます。

このデータをDBとかに突っ込むときなんかに使えそうです。

ちなみに全単語に対して関連性の高い単語の上位5個をcsv書き出ししたら、丸一日かかりました。(Macbookでやりました)

感想

gensimは初めて使ったような気がしますが、慣れればあっという間に使えますね。