はりうすブログ (のすけのメモ)

湘南にある小さな会社 代表 ”のすけ”のブログです

【ローカルで動くLLM】Macbook ProでLM Studioを試してみた

Makbookの最新CPU[M1,M2,M3]には多くのVRAMが統合されており、実はAIに向いているという話があります。


確かに家のデスクトップPCのグラフィックボード[ NVIDIA 4080 ]ですらVRAMは16GBしかない。


しかし、ここに来てMシリーズCPUならばVRAMが統合されており最大128GBととんでもない容量を誇っている。


ちょうどM3 Maxを購入して96GBメモリを手に入れたので、ローカル実行のLLMを試してみた。

はじめ方

LM Studio - Discover, download, and run local LLMsからダウンロードしてインストールするだけ

起動

GUIでアプリ一覧から起動すると、このように様々な言語モデルがダウンロードできるUIとなっている


とてもわかりやすい。またHuggingFaceの検索もできるようで、最新のLLMモデルを試すのも容易そうだ。

チャットしてみる

試しに、チャットタブをクリックして早速チャットを試そうと思う


左のメニューまたは、「Welcome To LM Studioから[AI Chat]を選択」


モデルを1つはダウロードしてね!と出てくるので、「Llama 3 - 8B Instruct(4.92GB)」をダウンロードしてみた


2024年4月18日にMetaより公開された最新のLLMのようだ。



そうすると、見慣れたチャット画面がでてくる。


試しに日本語でメッセージを入力してみる。



「モデルがロードされていません」どうやらダウンロードしたモデルを選択する必要があるようだ。



上のメニューの「Select a model to load」から先ほどダウンロードした[Meta Llama 3 Instruct]を選択する。


そうするとモデルのロードが始まり10秒ほどでロードが完了した。


早速チャットしてみると。なかなか軽快に応答が帰ってきた



speedは16.64 tok/sとなっている模様。WebのChatGPTより速く感じるのでそれなりに速いのではないかと思います。


設定を変更してみる

右上の設定マークから各種設定を変更できるようだ。Content Lengthを4096に、GPU Settingsのn_gpu_layersの設定を初期値の10から最大値の33に増やしてみた

試しにメッセージを送ってみると、speedは40.46 tok/sとかなり上がった模様

70Bも試してみる

正直メモリ全然使ってなかったので、Llama 3の700億パラメータモデルである70Bをダウンロードしてみました

選んだのはMeta-Llama-3-70B-Instruct.Q4_K_M(42.52GB)

モデルの容量が大きいですね

GPU settingを30にした場合

speedが2.74 tok/s でした。結構遅いですが普通に動いているのが凄い

GPU settingをMAXの81にした場合


ちょっとファンが回りますが、これも普通に動きました。


speed 5.51tok/s

ChatGPT4よりちょっと遅いくらいの感覚で、これくらいならギリギリ使えるかな。でも遅いかなといったところ。
ローカルで動かせるなんてMacbook Pro M3 MAX 凄いですね。


RAMは40.13GB使用していました

最後に

Macbook Pro M3 MAX CPU12コア、GPU30コア、メモリ96GBでLM Studioを立ち上げローカルでLLMを動かしてみました。

700億パラメータのMeta-Llama-3-70B-Instruct.Q4_K_Mをギリギリ実用レベルで動かすことに成功。RAM使用量40GBでしたので、まだいけそうではありました。


ただ動かしている間は負荷がかかりすぎるので、他の作業しながら使うのは無理そう。現実的なのは7Bモデルでしょうか。


そうなるとChatGPT4 turboの方がお手軽に精度良く利用できるので、迫っては来ているものの、ローカルLLMはもう少し先かなという感覚でした。