日本語wikipediaで遊んでみる - Re:ゼロから始めるML生活

f:id:nogawanogawa:20190302082130p:plain:w600

最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。

過去にこんなことやってました。

今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては特にやる気がなく、本当にちょっと遊んでみたというだけです。

日本語wikipediaエンティティベクトル

今回はこちらを使用しました。

こんな便利なものがあるんですね。ありがたやありがたや。

試しに使ってみます。

検索なら一瞬でできますね。

内部のデータを適当に加工してcsvに書き出してみます。

今回は類似度の高い上位5単語を紐づけて出力してみます。

このデータをDBとかに突っ込むときなんかに使えそうです。

ちなみに全単語に対して関連性の高い単語の上位5個をcsv書き出ししたら、丸一日かかりました。（Macbookでやりました）

gensimは初めて使ったような気がしますが、慣れればあっという間に使えますね。