はりうすブログ (のすけのメモ)

湘南にある小さな会社代表 ”のすけ”のブログです

【ローカルで動くLLM】Macbook ProでLM Studioを試してみた

人工知能

Makbookの最新CPU[M1,M2,M3]には多くのVRAMが統合されており、実はAIに向いているという話があります。

確かに家のデスクトップPCのグラフィックボード[ NVIDIA 4080 ]ですらVRAMは16GBしかない。

しかし、ここに来てMシリーズCPUならばVRAMが統合されており最大128GBととんでもない容量を誇っている。

ちょうどM3 Maxを購入して96GBメモリを手に入れたので、ローカル実行のLLMを試してみた。

はじめ方
起動
チャットしてみる
設定を変更してみる
- 70Bも試してみる
  - GPU settingを30にした場合
  - GPU settingをMAXの81にした場合
最後に

はじめ方

LM Studio - Discover, download, and run local LLMsからダウンロードしてインストールするだけ

起動

GUIでアプリ一覧から起動すると、このように様々な言語モデルがダウンロードできるUIとなっている

とてもわかりやすい。またHuggingFaceの検索もできるようで、最新のLLMモデルを試すのも容易そうだ。

チャットしてみる

試しに、チャットタブをクリックして早速チャットを試そうと思う

左のメニューまたは、「Welcome To LM Studioから[AI Chat]を選択」

モデルを１つはダウロードしてね！と出てくるので、「Llama 3 - 8B Instruct(4.92GB)」をダウンロードしてみた

2024年4月18日にMetaより公開された最新のLLMのようだ。

そうすると、見慣れたチャット画面がでてくる。

試しに日本語でメッセージを入力してみる。

「モデルがロードされていません」どうやらダウンロードしたモデルを選択する必要があるようだ。

上のメニューの「Select a model to load」から先ほどダウンロードした[Meta Llama 3 Instruct]を選択する。

そうするとモデルのロードが始まり10秒ほどでロードが完了した。

早速チャットしてみると。なかなか軽快に応答が帰ってきた

speedは16.64 tok/sとなっている模様。WebのChatGPTより速く感じるのでそれなりに速いのではないかと思います。

設定を変更してみる

右上の設定マークから各種設定を変更できるようだ。Content Lengthを4096に、GPU Settingsのn_gpu_layersの設定を初期値の10から最大値の33に増やしてみた

試しにメッセージを送ってみると、speedは40.46 tok/sとかなり上がった模様

70Bも試してみる

正直メモリ全然使ってなかったので、Llama 3の700億パラメータモデルである70Bをダウンロードしてみました

選んだのはMeta-Llama-3-70B-Instruct.Q4_K_M(42.52GB)

モデルの容量が大きいですね

GPU settingを30にした場合

speedが2.74 tok/s でした。結構遅いですが普通に動いているのが凄い

GPU settingをMAXの81にした場合

ちょっとファンが回りますが、これも普通に動きました。

speed 5.51tok/s

ChatGPT4よりちょっと遅いくらいの感覚で、これくらいならギリギリ使えるかな。でも遅いかなといったところ。
ローカルで動かせるなんてMacbook Pro M3 MAX 凄いですね。

RAMは40.13GB使用していました

最後に

Macbook Pro M3 MAX CPU12コア、GPU30コア、メモリ96GBでLM Studioを立ち上げローカルでLLMを動かしてみました。

700億パラメータのMeta-Llama-3-70B-Instruct.Q4_K_Mをギリギリ実用レベルで動かすことに成功。RAM使用量40GBでしたので、まだいけそうではありました。

ただ動かしている間は負荷がかかりすぎるので、他の作業しながら使うのは無理そう。現実的なのは7Bモデルでしょうか。

そうなるとChatGPT4 turboの方がお手軽に精度良く利用できるので、迫っては来ているものの、ローカルLLMはもう少し先かなという感覚でした。