Makbookの最新CPU[M1,M2,M3]には多くのVRAMが統合されており、実はAIに向いているという話があります。
確かに家のデスクトップPCのグラフィックボード[ NVIDIA 4080 ]ですらVRAMは16GBしかない。
しかし、ここに来てMシリーズCPUならばVRAMが統合されており最大128GBととんでもない容量を誇っている。
ちょうどM3 Maxを購入して96GBメモリを手に入れたので、ローカル実行のLLMを試してみた。
はじめ方
LM Studio - Discover, download, and run local LLMsからダウンロードしてインストールするだけ
起動
GUIでアプリ一覧から起動すると、このように様々な言語モデルがダウンロードできるUIとなっている
とてもわかりやすい。またHuggingFaceの検索もできるようで、最新のLLMモデルを試すのも容易そうだ。
チャットしてみる
試しに、チャットタブをクリックして早速チャットを試そうと思う
左のメニューまたは、「Welcome To LM Studioから[AI Chat]を選択」
モデルを1つはダウロードしてね!と出てくるので、「Llama 3 - 8B Instruct(4.92GB)」をダウンロードしてみた
2024年4月18日にMetaより公開された最新のLLMのようだ。
そうすると、見慣れたチャット画面がでてくる。
試しに日本語でメッセージを入力してみる。
「モデルがロードされていません」どうやらダウンロードしたモデルを選択する必要があるようだ。
上のメニューの「Select a model to load」から先ほどダウンロードした[Meta Llama 3 Instruct]を選択する。
そうするとモデルのロードが始まり10秒ほどでロードが完了した。
早速チャットしてみると。なかなか軽快に応答が帰ってきた
speedは16.64 tok/sとなっている模様。WebのChatGPTより速く感じるのでそれなりに速いのではないかと思います。
設定を変更してみる
右上の設定マークから各種設定を変更できるようだ。Content Lengthを4096に、GPU Settingsのn_gpu_layersの設定を初期値の10から最大値の33に増やしてみた
試しにメッセージを送ってみると、speedは40.46 tok/sとかなり上がった模様
70Bも試してみる
正直メモリ全然使ってなかったので、Llama 3の700億パラメータモデルである70Bをダウンロードしてみました
選んだのはMeta-Llama-3-70B-Instruct.Q4_K_M(42.52GB)
モデルの容量が大きいですね
GPU settingをMAXの81にした場合
ちょっとファンが回りますが、これも普通に動きました。
speed 5.51tok/s
ChatGPT4よりちょっと遅いくらいの感覚で、これくらいならギリギリ使えるかな。でも遅いかなといったところ。
ローカルで動かせるなんてMacbook Pro M3 MAX 凄いですね。
RAMは40.13GB使用していました
最後に
Macbook Pro M3 MAX CPU12コア、GPU30コア、メモリ96GBでLM Studioを立ち上げローカルでLLMを動かしてみました。
700億パラメータのMeta-Llama-3-70B-Instruct.Q4_K_Mをギリギリ実用レベルで動かすことに成功。RAM使用量40GBでしたので、まだいけそうではありました。
ただ動かしている間は負荷がかかりすぎるので、他の作業しながら使うのは無理そう。現実的なのは7Bモデルでしょうか。
そうなるとChatGPT4 turboの方がお手軽に精度良く利用できるので、迫っては来ているものの、ローカルLLMはもう少し先かなという感覚でした。