PR

最新のLLMをいち早く体験!Hugging FaceのGGUFファイルをOllamaで簡単に動かす方法

AI

はじめに

本記事では、Hugging FaceからGGUFファイルで公開されている最新のLLMを、Ollamaを使ってサクッと動かす方法をご紹介します。LLMを専門としない私のような人でも、手軽に最先端のAIを体験できるようになるでしょう。ぜひ最後までお付き合いください。

先日、話題のDifyとOllamaを連携させてLlama3を動かしてみました。

日本語があまり得意ではないようで、Hugging Face上で公開されている日本語LLMに興味が湧いてきました。

Ollamaでは用意されているモデル(Llama3,Phi3など)をrunコマンドですぐ使えるようになっているのですが、更にHugging Faceで公開されているモデル(GGUFファイル)も読み込んで利用することができることを知りました。

GGUFとは

モデルの迅速なロードと保存のために最適化されたバイナリ形式であり、推論目的のために非常に効率的です。GGUFはGGMLや他のエクゼキュータと一緒に使うために設計されています。

上記は、Hugging Faceのgguf説明ページの翻訳した内容です。

GGUFを公開してくれているアカウント

さまざまなモデルがHugging Face上で公開されていますが、調べてみるとすべてのLLMがGGUFを用意してくれているわけではありませんでした。

そんな中、以下の方はGGUFに変換し公開してくれています。とてもありがたいです。

mmnga (momonga)
User profile of momonga on Hugging Face

事前準備

OllamaはWindowsプレビュー版とはなりますが、インストーラーを使ってインストールするだけで非常に簡単に使い始めることができます。

また、私のPCはWindows11、GPUはRTX3060 12GBです。

Ollamaのセットアップ(Windows)については以下の記事をご確認ください。

モデルの作成手順

今回はmmngaさんが公開してくれている「mmnga/rinna-nekomata-14b-instruction-gguf」を使ってみます。

ggufに変換しているLLMはこちらのモデルです。

rinna/nekomata-14b-instruction · Hugging Face
We’re on a journey to advance and democratize artificial int...

GGUFのダウンロード

コマンドプロンプトを使って作業していきます。

まずはGGUFファイルをローカルにダウンロードします。

データサイズが大きいので1時間以上(数時間?)がかかると思います。ディスクの容量にも注意してダウンロードしてください。今回のデータは合計185GBあります。

git lfs install
git clone https://huggingface.co/mmnga/rinna-nekomata-14b-instruction-gguf

無事にダウンロードが完了

※追記

git cloneではすべてのファイルをダウンロードしてしまうので、LLMの「Files and vesions」から1つのggufを選んでダウンロードして利用することもできました。

Modelfile作成

ダウンロードしたモデルのフォルダに移動

cd rinna-nekomata-14b-instruction-gguf

dirコマンドを実行すると以下のように複数のggufがダウンロードされていることが確認できます。圧縮レベルの違いが主なようです。

次にModelfileを作成します。今回は「rinna-nekomata-14b-instruction-q4_K_M.gguf」を指定します。

メモ帳などを使って、Modelfileという拡張子がないファイルを作成し、以下の内容を入力し保存します。

FROM ./rinna-nekomata-14b-instruction-q4_K_M.gguf

Ollamaモデル作成

Ollama上で表示されるモデル名を「rinna_nekomata_q4_K_M」として、以下のコマンドを実行します。

ollama create rinna_nekomata_q4_K_M -f Modelfile

処理が完了

動作確認

軽く会話してみました。

まとめ

本記事では、Hugging Faceで公開されているGGUFファイル形式のLLMを、Ollamaを使ってローカル環境で手軽に動かす方法を紹介しました。

GGUFは、大規模言語モデルを効率的に扱うために最適化されたバイナリ形式です。Hugging Faceでは、LLMの公開元が作成してくれる場合もありますが、さらに有志の方々がさまざまなLLMをGGUFに変換して公開してくれています。今回は、mmngaさんが公開している「rinna-nekomata-14b-instruction-gguf」を例に、具体的な手順を解説しました。

Ollamaのセットアップ、GGUFファイルのダウンロード、Modelfileの作成、モデルの作成と実行という流れで、最新のLLMを手元で動かすことができました。Ollamaを使えば、LLMの専門知識がなくても、最先端のAIを気軽に体験できます。

今後も、Hugging Faceには新しいLLMがGGUF形式で続々と公開されていくでしょう。本記事を参考に、みなさんもお気に入りのモデルを見つけて、Ollamaで動かしてみてください。きっと、AIとの対話が、より身近で楽しいものになるはずです。

コメント

タイトルとURLをコピーしました