Re:ゼロから始めるML生活

どちらかといえばエミリア派です

Python

GPT-4oをOCRとして使う

OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるとい…

Naive RAGからModular RAGまで

RAGの評価についてちょこちょこ調べたりしてましたが、今回はRAGの改善方法について調べたいと思います。 正直、今でもいたるところで手法が提案されているので追いかけきれませんが、包括的なレポートで言及されている考え方くらいは調べてみたいと思います…

いまさらLlamaIndexの使い方について勉強する

最近、というかこのGW中はRAGしかやってません。 www.nogawanogawa.com www.nogawanogawa.com www.nogawanogawa.com www.nogawanogawa.com そんなRAGをやっているんですが、実はLlamaIndexについてはちゃんと勉強してなかったことに気がついたので、今更なが…

RAGの評価をRagasを使ってやってみる

この前はPhoenixを使ってRAGの実験管理をしてみました。 とはいうものの、Phoenixに事前定義された機能で評価をしただけなので、今回改めてRAGアプリケーションの精度評価について考えてみようと思います。 RAGの評価周りでよく知られたツールとしてRagasが…

LlamaIndexを使ったサンプルRAGアプリケーションを動かす

2023年くらいからLLMがブームになってますが、自分はというとChatGPTをそのまま使っていたくらいで、それ以上はLLMに特に触っていませんでした。 正直そんなに興味はなかったんですが、まったく知らないのはそれはそれでまずいと思うようになりました。 とい…

Feature Storeってどんなもん?Feastを使ってみる

この記事はMLOps Advent Calendar 2023の23日目の記事です。 以前、Feature Storeに関する記事を書いていました。 www.nogawanogawa.com この記事を書いた当時は「Feature Storeってこんな感じかー」って思って終わってしまい、どんな感じに使うのかは触って…

PyTorch Metric Learningの使い方を眺める

良質なEmbeddingを作成したくなることがあって、Deep Metric Learningを試してみることにしました。 やってみたら意外と使い方にハマったので、備忘の意味で記録していこうと思います。

PyTorch Lightningでcross validationを書こうと思ったら失敗した話

前にこんな感じのことをつぶやいていました。 pytorch lightningでcross validation書くときって、こんな感じに書かなきゃダメなの?もっとシンプルに書けるもんなのか?(全然わかってない顔)https://t.co/R3OzpZC0lq— 野川の側 (@nogawanogawa) 2022年11…

ランク学習の推薦モデルについて解釈してみる

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の20日目の記事です。 機械学習の解釈性・説明性が注目され始めてから久しく現在では、回帰や分類タスクに関するXAIへの取り組み方は調べれば文献が得られるようになってきたなと思ってい…

EASEを使ってみる

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の13日目の記事です。 今回は、EASEというアルゴリズムを試してみようと思います。 ※見様見真似で書いてみたものの、スコアが低すぎてなんかおかしいので多分後で実装し直します。

iALSを使ってみる

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の12日目の記事です。 最近iALSという、暗黙的FBを使った協調フィルタリングのアルゴリズムに関する記事を見かけました。 engineering.visional.inc このアルゴリズムは結構昔からあるの…

基本的な推薦アルゴリズムを書いて眺める

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の11日目の記事です。 推薦関係のアルゴリズムは現在でも新しいアルゴリズムがありますが、古典的なアルゴリズムとして協調フィルタリング〜Factorization Machineが挙げられると思います…

recsys-pythonをやる (第13章 推薦順位に基づく正確性)

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の7日目の記事です。 前回に引き続きrecsys-pythonをやっていきます。 www.nogawanogawa.com 今回は13章をやっていきたいと思います。

recsys-pythonをやる (第11章 嗜好予測の正確性・第12章 好き嫌い分類に基づく評価指標)

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の6日目の記事です。 前回に引き続きrecsys-pythonをやっていきます。 www.nogawanogawa.com 今回は11章からやっていきたいと思います。

recsys-pythonをやる (第9章 単純ベイズ分類器・第10章 決定木)

この記事は(1人で)基礎から学ぶ推薦システム Advent Calendar 2022の5日目の記事です。 前回に引き続きrecsys-pythonをやっていきます。 www.nogawanogawa.com 今回は9章・10章をやっていきたいと思います。

recsys-pythonをやる (第7章 評価履歴の次元削減・第8章 評価値行列の次元削減)

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の4日目の記事です。 前回に引き続きrecsys-pythonをやっていきます。 www.nogawanogawa.com 今回は7章からやっていきたいと思います。

recsys-pythonをやる (第5章 ユーザベース協調フィルタリング・第6章 アイテムベース協調フィルタリング)

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の3日目の記事です。 前回に引き続きrecsys-pythonをやっていきます。 www.nogawanogawa.com 前回は4章までだったので、今回は5章からやっていきたいと思います。

recsys-pythonをやる (第3章 類似度に基づく推薦・第4章 k近傍法)

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の2日目の記事です。 前回に引き続きrecsys-pythonをやっていきます。 www.nogawanogawa.com 今回は3章からやっていきたいと思います。

recsys-pythonをやる (第1章 評価履歴・第2章 評価値行列)

この記事は (1人で)基礎から学ぶ推薦システム Advent Calendar 2022の1日目の記事です。 2022年に、こちらの問題集が公開されました。 recsyslab.github.io こちらは下記の書籍に関連する問題集らしく、下記の文献を読みながらやってみたのでそのメモです…

Recsim NGを使ってみる(その2)

この前、RecSim NGのチュートリアルをやってました。 www.nogawanogawa.com このときは特に強化学習っぽいところまで行きませんでした。 今回は確率的シミュレーションに関するチュートリアルをやってみたいと思います。

RecSim NGを使ってみる

先日とあるチュートリアルを聞いていたところ、RecSimというライブラリが使用されていました。 どうやら、推薦を行うエージェントがコーパスやユーザーと対話する推薦システム環境をシミュレーションするライブラリのようでした。 こちらのライブラリが2019…

形態素解析器をいろいろ試す

日本語自然言語処理を行う際に、形態素解析をどうするかという問題はいつもつきまとってきます。 今回記事を書こうと思ったのは、Vaporettoなる形態素解析器を見かけたからです。 こちらに興味が湧いたのと、他の形態素解析器と比較してみたくなったので、や…

MLFlowでLightGBMの学習結果をtrackingしてみる

結構前にMLFlowをいろいろ触ってみていたんですが、最近全然触っていなかったので色々見てみました。 www.nogawanogawa.com 前に自分が触っていたときよりだいぶ使いやすくなってたので、今回は最近の自分の用途に合わせて改めてMLFlowを使ってみます。

A/Bテストで使用される検定を試してみる

最近A/Bテストについて勉強してました。*1 この前、こちらの記事を拝見しました。 www.rco.recruit.co.jp この手の検定の話は結構苦手意識があり、良い機会だったので勉強してみたので今回はそのメモです。 *1:https://www.nogawanogawa.com/entry/ab_testing

SHAPを使ってみた

先日こちらの記事を見かけました。 towardsdatascience.com 機械学習モデルの解釈についてあまり勉強したことがなく、いい機会だったので上記の記事を参考に勉強してみたので、今回はそのメモです。

xfeatを使ってみる

pfn-researchから公開されているxfeatという特徴量エンジニアリングのライブラリがあります。 【リリース】特徴量エンジニアリングのライブラリ xfeat を公開しました。データフレームから特徴量を作成するための各種エンコーダーを実装しています。cuDF を…

時系列クラスタリングってやつをやってみる

複数の時系列データがあるとき、これらを傾向に従ってクラスタリングしたくなることがあります。 そういった手法を、時系列クラスタリングと呼ぶらしいです。 ちょっと調べてみると、こちらの記事を見かけました。 時系列クラスタリングの研究サーベイ論文を…

ベイズ構造時系列モデルってやつをやってみる

時系列分析というと、SARIMAモデルや状態空間モデルなどがよく使われているかと思います。 私自身、これらのモデルについて一つの系列データについてモデルを適用したことはありますが、複数の系列データが影響するようなモデルについては扱ってきませんでし…

k-meansのいい感じのクラスタ数を自動で設定したい

教師なし分類の代表的な手法として、k-meansがあります。 k-meansは分類自体は自動で出来るんですが、その際のクラス数はマニュアルで設定する必要があります。 そのため、どう分類されるかはここで指定するクラス数に強く依存するわけです。 この辺は人間の…

Microsoft Vision Model ResNet-50 を使ってみる

先日、こちらのツイートを拝見しました。 https://t.co/LUuVrYQo7nMicrosoftが非常に高性能な学習済みResNet50のモデルを公開。複数の大規模なデータセットでマルチタスク学習を行なっている。GoogleのBig Transfer, OpenAIのClipを超える転移学習の性能をし…