Re:ゼロから始めるML生活

どちらかといえばエミリア派です

Python

時系列クラスタリングってやつをやってみる

複数の時系列データがあるとき、これらを傾向に従ってクラスタリングしたくなることがあります。 そういった手法を、時系列クラスタリングと呼ぶらしいです。 ちょっと調べてみると、こちらの記事を見かけました。 時系列クラスタリングの研究サーベイ論文を…

ベイズ構造時系列モデルってやつをやってみる

時系列分析というと、SARIMAモデルや状態空間モデルなどがよく使われているかと思います。 私自身、これらのモデルについて一つの系列データについてモデルを適用したことはありますが、複数の系列データが影響するようなモデルについては扱ってきませんでし…

k-meansのいい感じのクラスタ数を自動で設定したい

教師なし分類の代表的な手法として、k-meansがあります。 k-meansは分類自体は自動で出来るんですが、その際のクラス数はマニュアルで設定する必要があります。 そのため、どう分類されるかはここで指定するクラス数に強く依存するわけです。 この辺は人間の…

Microsoft Vision Model ResNet-50 を使ってみる

先日、こちらのツイートを拝見しました。 https://t.co/LUuVrYQo7nMicrosoftが非常に高性能な学習済みResNet50のモデルを公開。複数の大規模なデータセットでマルチタスク学習を行なっている。GoogleのBig Transfer, OpenAIのClipを超える転移学習の性能をし…

EfficientNetを使ってみたメモ

普段あまり画像をデータを取り扱うことがないんですが、最近ちょっといじってたりします。 www.nogawanogawa.com そんなことをやってるところに、何やらEfficientNetなどという代物があるということを見かけました。 更に調べてみると結構すごいやつというこ…

ResNetのPyTorch学習済みモデルをfine tuneして使うときのメモ

普段画像データを使って機械学習をすることがあまりないんですが、色々あって最近ちょくちょく触っています。 そんなわけで、画像認識で使うニューラルネットワークの勉強をしていて、最近では画像認識のベースラインとして使用されることもあるResNetについ…

nlplotを使ってみた

最近、昨年書かれたこちらの記事を見かけました。 www.takapy.work なんだか非常に良さそうな感じで実際に使ってみたので、今回は使ってみたときのメモです。

Prophetでお手軽時系列分析をやる

最近時系列分析を勉強し直してました。 www.nogawanogawa.com この過程で調べてると、何やらProphetなるライブラリがあるようで、今回はそれを使ってみたのでそのメモです。

Pythonで時系列分析をやりながら復習する

最近時系列系のデータについて扱う機会があって、その関係でちょっと勉強してました。 世の中に時系列分析の本はそこそこ出ている印象ですが、多くの場合でR言語での実装が紹介されており、Pythonでの実装が紹介されている文献はあまり多くない印象です。 と…

Optunaを使ってみる

結構前にmlflowを使ってOptunaのチューニングの過程を可視化することをやってみてました。 その時はmlflowの勉強の意図だったので、Optunaについてはあんまりわかってませんでした。 今回は、Optunaの使い方を中心に勉強してみたいと思います。

タスク固有に追加学習したBERTのEmbeddingをLightGBMに突っ込んで使用する

この前は学習済みのBERTをから取り出したEmbeddigを使ってLightGBMに突っ込んでみるところまでやってみました。 その時は特にタスク個別にBERTを学習させていなかったので、今回はタスク向けに転移学習させたBERTをモデルを使用して、そのEmbeddingをLightGB…

学習済みのBERTからEmbeddingを取得する

最近はちょいちょいBERTとかを使って遊んでたりします。 今回は、学習済みのBERTのモデルを使って、文書Embedgingを取得してみたいと思います。 参考にさせていただいたのはこちらの記事です。 yag-ays.github.io 毎度のことながら、やることは上の記事とほ…

LightGBMで含意関係認識をしてみる

この前はBERTを使って含意関係認識をやってみました。 前回は何も考えずにとにかくBERTに突っ込んで、とりあえずやってみたって感じでした。 今回は、もう少し泥臭い方法で含意関係認識をやってみたいと思います。 今回参考にさせていただいたのはこちら。 w…

BERTを用いて含意関係認識をやってみる

この前は、BERTを使って文章の空欄を埋めるタスクをやってみました。 今回はBERTの勉強がてら含意関係認識(Recognizing Textual Entailment, RTE)というタスクをやってみたいと思います。 今回非常に参考にさせていただいたのはこちらの記事です。 hironsan.…

GiNZAを使って係り受け解析をやってみる

結構前にGiNZAを使った固有表現抽出で遊んでました。 www.nogawanogawa.com GiNZAは固有表現抽出の他にも、自然言語処理の様々な機能を備えており、今回はその中の係り受け解析で遊んでみたいと思います。

BERTの学習済みモデルを使って穴埋め問題を解く

最近ではBERTやその派生が自然言語処理の多くのタスクでSOTAを更新していて、非常に話題になっています。 そんなBERTですが、日本語の学習済みモデルも非常に多く公開される様になっており、計算資源が乏しい私でも使用するだけなら不自由なく使えるようにな…

テキスト生成をやってみる

自然言語処理のタスクの一つにテキスト生成があります。 質問文に対する応答を生成したり、長文を短く要約したり、和文英訳したりと、テキスト生成は自然言語処理の応用の様々なところで使用されます。 今回は、このテキスト生成についてやってみたのでその…

BERTScoreで文章の類似性を測定してみた

最近こんな記事を見かけました。 ai-scholar.tech 機械翻訳や機械要約のタスクでは、自然文を生成することになりますが、その際に生成された文がどれほど良いかについて評価する必要が出てきます。 ICLRで発表されたBERTScoreはこれを従来の評価指標より正し…

GiNZAを使って固有表現のマスキングをやってみる

最近GiNZAを使って固有表現抽出するという記事をよく見かける気がします。具体的には、この辺りの記事を見てました。 acro-engineer.hatenablog.com qiita.com www.ai-shift.jp ということで、なんだか面白そうで、自分でもやってみたのでそのメモです。

数字で見るバスケットボール

最近Sports Analyst Meetupの発表を聞かせて頂いて、毎回非常に面白いLTばかりで、自分でもやってみたくなりました。 とはいうものの、分析・機械学習ですらまともにやったことがなく、スポーツに関する分析に至っては何から手をつけていいのかわかりません…

ローカル環境のmlflowの記録をGCPに残す

前回までこんなことやってました。 www.nogawanogawa.com www.nogawanogawa.com mlflowの使い方がだんだん分かってきたので、実験の結果をgcp上に保存してみたいと思います。 参考にさせていただいたのはこちらの記事です。 towardsdatascience.com それでは…

mlflow+optunaでチューニングを管理してみる

この前はmlflowの使い方を確認してました。 www.nogawanogawa.com 今回はもうちょっと進んで、mlflowに加えてoptunaを使ってハイパーパラメータのチューニングを管理してみたいと思います。

mlflowを使ってみた

最近こちらの記事を拝見しました。 ymym3412.hatenablog.com 読んでて、mlflowってなんじゃい??ってなったので、今回はmlflowの使い方を勉強してみたのでそのメモです。

gensimでword2vecの学習するときに再現性をとる時のメモ

gensimのword2vecを使ってembeddingを計算するときに再現性が取れなくて悩んでいたんですが、こちらのツイートを拝見しました。 NotebookでgensimのWord2Vecの学習を再現するには、重みの初期化に使われるハッシュ関数を自作して再現するものに変えれば良い…

gokartを使ってみる

この前はluigiを使ってみてました。 www.nogawanogawa.com この前参加したの勉強会で登壇者のみなさんがgokart激推しだったので、今回はエムスリーさんで開発されているgokartを使ってみたいと思います。 (エムスリーさん主催の勉強会で、登壇者の半分がエ…

luigiを使ってみた

先日MLOpsの勉強会に出てました。 www.nogawanogawa.com その場では、「ワークフローライブラリ使ってるとなんかイケてるんだなあ」くらいにしか思ってなかったんですが、機械学習の実験をしていて必要性を感じる場面があったので、試しに使ってみることにし…

トピックモデルとlivedoor ニュースコーパスで遊ぶ

この前は全然分からないなりに、トピックモデルの雰囲気だけ勉強をしました。 www.nogawanogawa.com 今回は、理論の復習しながら、実装してみます。 参考にしたのは今回もこちら。 トピックモデル (機械学習プロフェッショナルシリーズ)作者:岩田 具治出版社…

近傍探索ライブラリFaissを使ってみた

最近、レコメンデーション系のことをやっている関係で色々調べてます。 以前はNGTを使って近傍探索を試していました。 www.nogawanogawa.com Embeddingとかを使った検索やレコメンデーションには近傍探索ライブラリは非常に重要です。 ちょっと調べてみると…

gensimで学習済みモデルに更に追加学習する

今や単語分散表現に関する学習済みのモデルはたくさん公開されています。 ただ、その多くはwikipediaやニュース記事をベースにしたものになっており、より突っ込んだトピックを取り扱おうとすると、そこからモデルを独自にカスタマイズする必要が出てきます。…

SudachiPyでユーザー辞書を使う

気がついたら、前回のブログからだいぶ空いてしまいました。 これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が…