最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。
過去にこんなことやってました。
今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては特にやる気がなく、本当にちょっと遊んでみたというだけです。
日本語wikipediaエンティティベクトル
今回はこちらを使用しました。
こんな便利なものがあるんですね。ありがたやありがたや。
使ってみる
試しに使ってみます。
検索なら一瞬でできますね。
データの書き出し
内部のデータを適当に加工してcsvに書き出してみます。
今回は類似度の高い上位5単語を紐づけて出力してみます。
このデータをDBとかに突っ込むときなんかに使えそうです。
ちなみに全単語に対して関連性の高い単語の上位5個をcsv書き出ししたら、丸一日かかりました。(Macbookでやりました)
感想
gensimは初めて使ったような気がしますが、慣れればあっという間に使えますね。