Re:ゼロから始めるML生活

ミスよりグズを嫌え

近傍探索ライブラリFaissを使ってみた

最近、レコメンデーション系のことをやっている関係で色々調べてます。 以前はNGTを使って近傍探索を試していました。 www.nogawanogawa.com Embeddingとかを使った検索やレコメンデーションには近傍探索ライブラリは非常に重要です。 ちょっと調べてみると…

推薦システム入門(その1:古典的手法)

最近こちらの本を購入しました。 推薦システム: 統計的機械学習の理論と実践作者: Deepak K. Agarwal,Bee‐Chung Chen,島田直希,大浦健志出版社/メーカー: 共立出版発売日: 2018/04/21メディア: 単行本この商品を含むブログ (1件) を見る レコメンデーション…

機械学習系開発におけるCD (CD4ML)

Twitter見てたら、こちらを見かけました。 Continuous Delivery for Machine LearningAutomating the end-to-end lifecycle of Machine Learning applicationshttps://t.co/411c9l8e4d— u++ (@upura0) September 13, 2019 気になるタイトルだったので、最近…

gensimで学習済みモデルに更に追加学習する

今や単語分散表現に関する学習済みのモデルはたくさん公開されています。 ただ、その多くはwikipediaやニュース記事をベースにしたものになっており、より突っ込んだトピックを取り扱おうとすると、そこからモデルを独自にカスタマイズする必要が出てきます。…

SudachiPyでユーザー辞書を使う

気がついたら、前回のブログからだいぶ空いてしまいました。 これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が…

livedoor ニュースコーパスで遊んでみる(4回目)

この前はtf-idfとwikipedia仕込みのword2vecを組み合わせる事で、文書ベクトルを3次元空間にマッピングして可視化しました。 tsunotsuno.hatenablog.com 今回は単語の加減算を使用して、概念を使用した検索機能を作ってみたいと思います。

Tensorboardの実装を眺め、弄る

最近何かとお世話になっているTensorboardですが、こちらはGoogleからオープンソースで提供されているので、内容を自由に改変していくことができます。 ※ライセンスはApache 2.0です github.com ということで、何を血迷ったか、Tensorboard自体の実装を弄っ…

自然言語処理で遊んでみる(その3:テキスト分類)

NLP

しばらく大幅に脱線していましたが、以前こんな感じのことをやっていました。 tsunotsuno.hatenablog.com 今回も参考にさせていただいたのはこちら。 Pythonで動かして学ぶ 自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 2019/01/…

livedoor ニュースコーパスで遊んでみる(3回目)

この前はこんな感じにやってました。 tsunotsuno.hatenablog.com 画面にラベルが出てきたものの、中身を見てみると悲惨なことになっていました。 文書分類の本来の趣旨からいえば、全くダメでした。 ということで、今回はちょっとデータサイエンスチックなや…

機械学習用の自分用Dockerfileをまとめる

今回は特に新しいことはありません。完全に自分用メモです。 最近ローカルPCで機械学習をやりすぎて環境が汚くなりすぎてしまい、いろいろおかしくなってきました。(バージョンとか) ということで、前々からやろうとしていた環境のDocker完全移行のためのD…

livedoor ニュースコーパスで遊んでみる(2回目)

前回はDoc2Vecを動かしてみました。 tsunotsuno.hatenablog.com 動いてはいたものの、ところどころうまく行かなかったので、今回はそのリベンジです。

livedoor ニュースコーパスで遊んでみる

前回はこんなことやっていました。 tsunotsuno.hatenablog.com すでにベクトル化されていたので、やりやすかったですが、実際はベクトル化されていません。 今回はベクトル化されていないデータセットで遊んでみます。 日本語系のデータセットはこの辺をご参…

日本語wikipediaで遊んでみる

最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。 過去にこんなことやってました。 tsunotsuno.hatenablog.com tsunotsuno.hatenablog.com 今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては…

自然言語処理で遊んでみる(その2:テキストデータの解析)

この前はこんなことをやっていました。 tsunotsuno.hatenablog.com 今回は実際に溜め込んだデータを見ていきます。 今回も参考にしたのはこちらの本です。 Pythonで動かして学ぶ 自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 201…

自然言語処理で遊んでみる(その1:テキストデータの準備)

この前までは、ディープラーニングという切り口で自然言語処理を勉強していました。 tsunotsuno.hatenablog.com しかし、自然言語処理はもっと多くのタスクをカバーする学問分野で、必ずしもディープラーニングが出てくるとは限りません。 そんなわけで、今…

自然言語処理について勉強してみた(その5:Seq2Seq・Attention)

この前はLSTMについて勉強してみました。 tsunotsuno.hatenablog.com 今回はもうちょっと進んで、seq2seqとAttentionを見ていきます。 今回も参考にしたのはこちらの本です。 ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メーカー: オ…

自然言語処理について勉強してみた(その4:LSTM)

この前は基本的なRNNの仕組みについて勉強していました。 tsunotsuno.hatenablog.com 今回は、現在RNNの中でも代表的なモデルの一つであるLSTMについて勉強します。 今回も参考にしたのはこちらの本です。 ゼロから作るDeep Learning ? ―自然言語処理編作者:…

自然言語処理について勉強してみた(その3:RNN)

この前はword2vecの勉強をしていました。 tsunotsuno.hatenablog.com 今回はもうちょっと突っ込んだRNN (Recurrent Neural Networks)について勉強してみます。 参考にしたのはこちら。 ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メ…

word2vecを使って単語の共起性を可視化してみる

最近突然、自然言語処理の勉強を始めたきっかけは、こちらの記事を拝見したからです。 karaage.hatenadiary.jp こういうコンピュータ・サイエンスっぽい絵を作りたくて作りたくて…(泣) というわけで、今回は共起ネットワークを作ってみました。 基本的に上…

自然言語処理について勉強してみた(その2:word2vec)

この前は自然言語処理の基本を勉強していました。 tsunotsuno.hatenablog.com 今回は、今どきの自然言語処理で普通に使われているword2vecについて勉強していきます。 今回もこちらの本を使って勉強しました。 ゼロから作るDeep Learning ? ―自然言語処理編…

【論文メモ:OpenPose】OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

いつもとは若干嗜好を変えてみます。 こちらが面白そうだったので、その論文のメモです。 難しそうな数学の式がいっぱい出てきますが、頑張って読んでみます。。。

自然言語処理について勉強してみた(その1:基本)

NLP

StackGAN、HDGANやAttnGANなどのText-to-Image系の勉強をしていると、ある程度自然言語処理の知識が必要になってきます。 今まではその辺度外視して、GANにフォーカスして勉強してみたんですが、このへんで自然言語処理について勉強してみようと思います。 t…

【論文メモ:Airbnb search engine】Applying Deep Learning To Airbnb Search

論文 著者 背景 検索モデルの変遷 Simple NN Lambdarank NN Decision Tree/Factorization Machine NN Deep NN 失敗談 Listing ID Multi-task learning 特徴エンジニアリング 正規化 分散 バグの局所化 一般化 特徴量の完全性確認 カテゴリーに関する濃度 シ…

【論文メモ:GraphGAN】GraphGAN: Graph Representation Learning with Generative Adversarial Nets

論文 著者 背景 目的とアプローチ 目的 アプローチ 提案手法 GraphGAN Framework Discriminator Optimization Generator Optimization Graph Softmax関数 評価 評価環境 データセット 比較対象 その他 Empirical Study Link Prediction Node Classification …

【論文メモ:Pinterest recommendation model】Graph Convolutional Neural Networks for Web-Scale Recommender Systems

論文 著者 背景 目的とアプローチ 目的 アプローチ 提案手法 Graph Convolutional Networkの概要 問題設定 Model Archtecture Localized graph convolutions ランダムウォークによる近傍探索 畳み込みの多層化 学習 Loss function ミニバッチの設計 Producer…

【論文メモ:StarGAN】StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

論文 https://arxiv.org/abs/1711.09020 著者 Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo 背景 近年のimage-to-image translationの進歩がめざましい一方で、拡張性に乏しい問題がある。 特に、2種類以上の変換にはペア…

【論文メモ:InfoGAN】InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

論文 著者 背景 目的とアプローチ 目的 アプローチ Information Maximizing Generative Adversarial Networks (InfoGAN) GANの原理 潜在変数を含む相互情報 評価 収束の効率化 表現力に関する評価 結論 感想 論文 https://arxiv.org/abs/1606.03657 著者 Xi …

【論文メモ:DiscoGAN】Learning to Discover Cross-Domain Relations with Generative Adversarial Networks

論文 著者 背景 目的とアプローチ 目的 アプローチ 提案手法 DiscoGAN ネットワーク設計 Loss Generative Adversarial Loss Reconstruction Loss 評価 単純評価 実画像の評価 CAR to CAR FACE to FACE 多数の特徴が共通する場合の変換 完全に別のものを角度…

GCPでPyTorch(GPU)を使えるようにするまでにやったことのメモ

だいぶ期間が空いてしまいましたが、結構前にGoogle Cloud Platformの使い方を勉強していました。 (別に諦めてたわけではなく、単純にAWSでいろいろやることがあったので、そっちを使ってただけです) tsunotsuno.hatenablog.com 当初の目的としては、GPUを使…

tensorboardXを使っていろいろ眺めてみる

前回はtensorboardX導入までして、なんとなく動いてそうなことを確認しました。 tsunotsuno.hatenablog.com 今回はもうちょっといじくり回して見たいと思います。