vllmで埋め込みモデルの推論を高速化する

Python

小ネタです。 transformersの埋め込みモデルを使ってembeddingを作りたいことは割といろんなところであるかと思いますが、このembedding作成もそこそこ時間を食ったりします。可能であれば埋め込みを計算するときも高速化したいので、今回はvllmで高速化し…

torchtuneを使ってカスタムデータセットでLlama 3.1をfinetuneする

Python

最近LLMをいじってるんですが、LLMのfinetuneをコードを自分で書いて実行するのはまだまだ不安です。処理も重たくGPU必須なのでそれなりにコストがかかるのに、変にバグらせるとショックもでかいです。なので、できればコマンドだけでぱぱっとできると嬉し…

その他

最近LLMを使って自力で学習とか回していたんですが、最近のNLP系のコンペはLLMがほぼ必須になっており庶民でも気軽に使えるColab ProにあるA100 ではメモリ40GBしかないのでどうにもならないことがあります。 AWSとかGCPにあるハイエンドGPUインスタンスを使…