Re:ゼロから始めるML生活

ミスよりグズを嫌え

gensimで学習済みモデルに更に追加学習する

f:id:nogawanogawa:20190730110339p:plain

今や単語分散表現に関する学習済みのモデルはたくさん公開されています。

ただ、その多くはwikipediaやニュース記事をベースにしたものになっており、より突っ込んだトピックを取り扱おうとすると、そこからモデルを独自にカスタマイズする必要が出てきます。

今回はgensimでwikipediaの学習済みモデルに加えて、独自のコーパスを使用して学習してみたので、そのメモです。

続きを読む

SudachiPyでユーザー辞書を使う

f:id:nogawanogawa:20190718185410p:plain
 

気がついたら、前回のブログからだいぶ空いてしまいました。

これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が使えるようになったようです。

github.com

ということで、今回はそれを使ってみます。

続きを読む

livedoor ニュースコーパスで遊んでみる(4回目)

この前はtf-idfとwikipedia仕込みのword2vecを組み合わせる事で、文書ベクトルを3次元空間にマッピングして可視化しました。

tsunotsuno.hatenablog.com

今回は単語の加減算を使用して、概念を使用した検索機能を作ってみたいと思います。

続きを読む