Re:ゼロから始めるML生活

どちらかといえばエミリア派です

2019-01-01から1年間の記事一覧

Elasticsearchで画像検索をやってみる

この記事は 情報検索・検索エンジン Advent Calendar 2019 - Qiita 16日目の記事です。 初日から非常に勉強になる記事を拝見させていただいて日々勉強しております。レベルが高すぎて内心ビクビクしてます。。。 何も考えずこのカレンダーに登録した1ヶ月前…

近傍探索ライブラリFaissを使ってみた

最近、レコメンデーション系のことをやっている関係で色々調べてます。 以前はNGTを使って近傍探索を試していました。 www.nogawanogawa.com Embeddingとかを使った検索やレコメンデーションには近傍探索ライブラリは非常に重要です。 ちょっと調べてみると…

推薦システム入門(その1:古典的手法)

最近こちらの本を購入しました。 推薦システム: 統計的機械学習の理論と実践作者: Deepak K. Agarwal,Bee‐Chung Chen,島田直希,大浦健志出版社/メーカー: 共立出版発売日: 2018/04/21メディア: 単行本この商品を含むブログ (1件) を見る レコメンデーション…

機械学習系開発におけるCD (CD4ML)

Twitter見てたら、こちらを見かけました。 Continuous Delivery for Machine LearningAutomating the end-to-end lifecycle of Machine Learning applicationshttps://t.co/411c9l8e4d— u++ (@upura0) 2019年9月13日 気になるタイトルだったので、最近全然英…

gensimで学習済みモデルに更に追加学習する

今や単語分散表現に関する学習済みのモデルはたくさん公開されています。 ただ、その多くはwikipediaやニュース記事をベースにしたものになっており、より突っ込んだトピックを取り扱おうとすると、そこからモデルを独自にカスタマイズする必要が出てきます。…

SudachiPyでユーザー辞書を使う

気がついたら、前回のブログからだいぶ空いてしまいました。 これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が…

livedoor ニュースコーパスで遊んでみる(4回目)

この前はtf-idfとwikipedia仕込みのword2vecを組み合わせる事で、文書ベクトルを3次元空間にマッピングして可視化しました。 tsunotsuno.hatenablog.com 今回は単語の加減算を使用して、概念を使用した検索機能を作ってみたいと思います。

Tensorboardの実装を眺め、弄る

最近何かとお世話になっているTensorboardですが、こちらはGoogleからオープンソースで提供されているので、内容を自由に改変していくことができます。 ※ライセンスはApache 2.0です github.com ということで、何を血迷ったか、Tensorboard自体の実装を弄っ…

自然言語処理で遊んでみる(その3:テキスト分類)

NLP

しばらく大幅に脱線していましたが、以前こんな感じのことをやっていました。 tsunotsuno.hatenablog.com 今回も参考にさせていただいたのはこちら。 Pythonで動かして学ぶ 自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 2019/01/…

livedoor ニュースコーパスで遊んでみる(3回目)

この前はこんな感じにやってました。 tsunotsuno.hatenablog.com 画面にラベルが出てきたものの、中身を見てみると悲惨なことになっていました。 文書分類の本来の趣旨からいえば、全くダメでした。 ということで、今回はちょっとデータサイエンスチックなや…

機械学習用の自分用Dockerfileをまとめる

今回は特に新しいことはありません。完全に自分用メモです。 最近ローカルPCで機械学習をやりすぎて環境が汚くなりすぎてしまい、いろいろおかしくなってきました。(バージョンとか) ということで、前々からやろうとしていた環境のDocker完全移行のためのD…

livedoor ニュースコーパスで遊んでみる(2回目)

前回はDoc2Vecを動かしてみました。 tsunotsuno.hatenablog.com 動いてはいたものの、ところどころうまく行かなかったので、今回はそのリベンジです。

livedoor ニュースコーパスで遊んでみる

前回はこんなことやっていました。 tsunotsuno.hatenablog.com すでにベクトル化されていたので、やりやすかったですが、実際はベクトル化されていません。 今回はベクトル化されていないデータセットで遊んでみます。 日本語系のデータセットはこの辺をご参…

日本語wikipediaで遊んでみる

最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。 過去にこんなことやってました。 tsunotsuno.hatenablog.com tsunotsuno.hatenablog.com 今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては…

自然言語処理で遊んでみる(その2:テキストデータの解析)

この前はこんなことをやっていました。 tsunotsuno.hatenablog.com 今回は実際に溜め込んだデータを見ていきます。 今回も参考にしたのはこちらの本です。 Pythonで動かして学ぶ 自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 201…

自然言語処理で遊んでみる(その1:テキストデータの準備)

この前までは、ディープラーニングという切り口で自然言語処理を勉強していました。 tsunotsuno.hatenablog.com しかし、自然言語処理はもっと多くのタスクをカバーする学問分野で、必ずしもディープラーニングが出てくるとは限りません。 そんなわけで、今…

自然言語処理について勉強してみた(その5:Seq2Seq・Attention)

この前はLSTMについて勉強してみました。 tsunotsuno.hatenablog.com 今回はもうちょっと進んで、seq2seqとAttentionを見ていきます。 今回も参考にしたのはこちらの本です。 ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メーカー: オ…

自然言語処理について勉強してみた(その4:LSTM)

この前は基本的なRNNの仕組みについて勉強していました。 tsunotsuno.hatenablog.com 今回は、現在RNNの中でも代表的なモデルの一つであるLSTMについて勉強します。 今回も参考にしたのはこちらの本です。 ゼロから作るDeep Learning ? ―自然言語処理編作者:…

自然言語処理について勉強してみた(その3:RNN)

この前はword2vecの勉強をしていました。 tsunotsuno.hatenablog.com 今回はもうちょっと突っ込んだRNN (Recurrent Neural Networks)について勉強してみます。 参考にしたのはこちら。 ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メ…

word2vecを使って単語の共起性を可視化してみる

最近突然、自然言語処理の勉強を始めたきっかけは、こちらの記事を拝見したからです。 karaage.hatenadiary.jp こういうコンピュータ・サイエンスっぽい絵を作りたくて作りたくて…(泣) というわけで、今回は共起ネットワークを作ってみました。 基本的に上…

自然言語処理について勉強してみた(その2:word2vec)

この前は自然言語処理の基本を勉強していました。 tsunotsuno.hatenablog.com 今回は、今どきの自然言語処理で普通に使われているword2vecについて勉強していきます。 今回もこちらの本を使って勉強しました。 ゼロから作るDeep Learning ? ―自然言語処理編…

【論文メモ:OpenPose】OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

いつもとは若干嗜好を変えてみます。 こちらが面白そうだったので、その論文のメモです。 難しそうな数学の式がいっぱい出てきますが、頑張って読んでみます。。。

自然言語処理について勉強してみた(その1:基本)

NLP

StackGAN、HDGANやAttnGANなどのText-to-Image系の勉強をしていると、ある程度自然言語処理の知識が必要になってきます。 今まではその辺度外視して、GANにフォーカスして勉強してみたんですが、このへんで自然言語処理について勉強してみようと思います。 t…

【論文メモ:Airbnb search engine】Applying Deep Learning To Airbnb Search

論文 著者 背景 検索モデルの変遷 Simple NN Lambdarank NN Decision Tree/Factorization Machine NN Deep NN 失敗談 Listing ID Multi-task learning 特徴エンジニアリング 正規化 分散 バグの局所化 一般化 特徴量の完全性確認 カテゴリーに関する濃度 シ…