Twitter見てたら、こちらを見かけました。 Continuous Delivery for Machine LearningAutomating the end-to-end lifecycle of Machine Learning applicationshttps://t.co/411c9l8e4d— u++ (@upura0) 2019年9月13日 気になるタイトルだったので、最近全然英…
今や単語分散表現に関する学習済みのモデルはたくさん公開されています。 ただ、その多くはwikipediaやニュース記事をベースにしたものになっており、より突っ込んだトピックを取り扱おうとすると、そこからモデルを独自にカスタマイズする必要が出てきます。…
気がついたら、前回のブログからだいぶ空いてしまいました。 これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が…
この前はtf-idfとwikipedia仕込みのword2vecを組み合わせる事で、文書ベクトルを3次元空間にマッピングして可視化しました。 tsunotsuno.hatenablog.com 今回は単語の加減算を使用して、概念を使用した検索機能を作ってみたいと思います。
最近何かとお世話になっているTensorboardですが、こちらはGoogleからオープンソースで提供されているので、内容を自由に改変していくことができます。 ※ライセンスはApache 2.0です github.com ということで、何を血迷ったか、Tensorboard自体の実装を弄っ…
しばらく大幅に脱線していましたが、以前こんな感じのことをやっていました。 tsunotsuno.hatenablog.com 今回も参考にさせていただいたのはこちら。 Pythonで動かして学ぶ 自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 2019/01/…
この前はこんな感じにやってました。 tsunotsuno.hatenablog.com 画面にラベルが出てきたものの、中身を見てみると悲惨なことになっていました。 文書分類の本来の趣旨からいえば、全くダメでした。 ということで、今回はちょっとデータサイエンスチックなや…
今回は特に新しいことはありません。完全に自分用メモです。 最近ローカルPCで機械学習をやりすぎて環境が汚くなりすぎてしまい、いろいろおかしくなってきました。(バージョンとか) ということで、前々からやろうとしていた環境のDocker完全移行のためのD…
前回はDoc2Vecを動かしてみました。 tsunotsuno.hatenablog.com 動いてはいたものの、ところどころうまく行かなかったので、今回はそのリベンジです。
前回はこんなことやっていました。 tsunotsuno.hatenablog.com すでにベクトル化されていたので、やりやすかったですが、実際はベクトル化されていません。 今回はベクトル化されていないデータセットで遊んでみます。 日本語系のデータセットはこの辺をご参…
最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。 過去にこんなことやってました。 tsunotsuno.hatenablog.com tsunotsuno.hatenablog.com 今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては…
この前はこんなことをやっていました。 tsunotsuno.hatenablog.com 今回は実際に溜め込んだデータを見ていきます。 今回も参考にしたのはこちらの本です。 Pythonで動かして学ぶ 自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 201…
この前までは、ディープラーニングという切り口で自然言語処理を勉強していました。 tsunotsuno.hatenablog.com しかし、自然言語処理はもっと多くのタスクをカバーする学問分野で、必ずしもディープラーニングが出てくるとは限りません。 そんなわけで、今…
この前はLSTMについて勉強してみました。 tsunotsuno.hatenablog.com 今回はもうちょっと進んで、seq2seqとAttentionを見ていきます。 今回も参考にしたのはこちらの本です。 ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メーカー: オ…