OCuLink 接続で RTX 3050 を N5 で使ってみる

OCuLink 接続で RTX 3050 を N5 で使ってみる

GPU には手を出さないつもりだったのに、友人から「余ってるお古の RTX 3050 いる?8GB 版だよ。安くしとくよ。」と言われて二つ返事で譲ってもらいました

8GB 版は消費電力が 130W あり自作 OCuLink ユニットでは電力が足りませんGPU 利用なら、市販品の方が良いので Minisforum DEG1 外付けGPU ドッキングステーション を買ってきました

そんなわけで、今回は DEG1 と N5 を使って RTX 3050 8GB 版を動かしてみた話です。

利用機材

ホストマシン

ホストマシンには当サイトではお馴染みの Minisforum N5 を使います。

大変よくできた、パワフルで取り回しのいい NAS 向けミニ PC です。とても気に入っています

TrueNAS Community Edition(旧 TrueNAS Scale)をインストールして NAS をメインにしつつCPU もパワフルなので VM や Dcoker コンテナも常時稼働しています。

今回のようなレビュー利用にはストレージを交換して、Windows 11 で起動することもあります。

Minisforum DEG1

Minisforum DEG1 は N5 と同じ Minisforum が出している OCuLink 外付け GPU を接続するドッキングステーションです。同社の PC と接続した場合には FLLOW START(電源連動)や TGX(OCuLink をホットスワップ可能にする Lenovo の規格にも対応します

OCuLink(PCIe 4.0 x4)接続のドッキングステーションなので Thunderbolt には未対応ですが、シンプルなので安価で安定している印象があります。作りもしっかりしていてお勧めです。

年内にも OCuLink に加えて USB4 Ver 2.0( 80Gbps)に対応した DEG2 が登場するようです。

事実上 Thunderbolt 5 対応とのことでかなり期待ができそうですが、だいぶ高額になりそうです。

DEG1自体のレビューは割愛しますが、電源は玄人志向の KRPW-GK750W/90+ を用意しました。

OCuLink について興味のある方は、過去記事など参照してもらうと面白いかもしれません。

GeForce RTX 3050(8GB)

ZOTAC GeForce RTX 3050 8GBZT-A30500M-10B)です。パッケージ売りされていたものではなく、どこかの BTO PCに搭載されていたものだそうです。

コンパクトなシングルファンモデルだがフルハイト。
コンパクトとはいえ2スロットを占有するサイズ。大きなヒートシンクとヒートパイプが見える。

現行モデルは RTX 50X0 シリーズなので、2世代前のエントリークラスのグラフィックスボードになります。中古で 25,000円くらいが相場です。

GeForce RTX 3050 は 2022年発売の NVIDIA Ampere アーキテクチャのグラフィックボードで廉価版の 6GB版もあります。

製品名 RTX 3050(8GB) RTX 3050(6GB)
リリース 2022年 2024年
CUDA コア 2,560基 2,304基
RTコア 28基(第2世代) 18基(第2世代)
Tensorコア 80基(第3世代) 72基(第3世代)
ベースクロック 1,552MHz 1,042MHz
ブーストクロック 1,777MHz 1,470MHz
メモリ 8GB(GDDR6) 6GB(GDDR6)
メモリバス幅 128bit 96bit
アーキテクチャー Ampere Ampere
DLSS v2.0 v2.0
NVENC 第7世代 第7世代
TOPs 72 TOPs 非公開(60 TOPS 程度)
PCIe 接続 PCIe 4.0 x16 PCIe 4.0 x16
補助電源コネクタ PCIe 8 ピン x1 不要
消費電力 130W 70W

VRAM 容量以外にも意外とスペックが異なり、8GB の方が高性能です。グラボ界隈は難しい...。

ゲーミングパフォーマンスでは 8GB と 6GB であまり差がないようで、6GB の方が多く出回っています。しかし LLM など AI 用途だと VRAM のサイズが大きい方が有利なので 8GB 版を譲ってもらったのはラッキーでした。

また、市場に PCIe 3.0 と PCIe 4.0 マザーボードが混在する時期に発売された世代ということもあり、PCIe 3.0 x16 接続でもゲーミングパフォーマンスがほとんど低下しないという特性があります。

PCIe のバス速度の影響をあまり受けないということは、PCIe 4.0 x4 という OCuLink 接続のボトルネックによる影響も少なめだと思われます

ゲームはしないけど LLM による AI 活用を安価に試したかった私にとてもマッチするクラボですね。

動作確認と基本のベンチマーク

N5DEG1 を OCuLink ケーブルで接続して Windows 11 で起動NVIDIA のGeForce Game Ready ドライバー(v581.57)を入れたら完全に動作しました。特にトラブルらしいトラブルは皆無です。

HWiNFO と GPU-Z

 いつもの HWiNFO に加えて GPU-Z でも確認してみます。

HWiNFO のサマリー表示 PCIe 4.0 x4 接続を確認

HWiNFO で GeForce RTX 3050 8GB が認識されていて、PCIe 4.0 x4 で接続されていることを確認できます。

余談ですが GPU は使われていないとバス速度を落として省電力モード(PCIe 1.1 x1 接続)になります。仕方ないので GPU ぶん回した状態で確認してます。

HWiNFO で見るとホストPC  の PCIe x4 Bus #1 に RTX 3050 が見える

GPU-Z で各種グラフィックス API が有効になっていることを確認

GPU-Z でも PCIe 4.0 x4 接続各種グラフィックス API も有効になっているのが確認できますね。

モダンなグラフィックボードを OCuLink 接続するWindows 環境では error code 43 が表示されるという話も聞いていて身構えてたのですが遭遇しませんでした。DEG1 が優秀なのか最新の NVIDIA ドライバーで解決済みなのか詳細はよくわかりません。

AIDA64 GPUGPU Benchmark

次に AIDA64 でダイレクトな GPU 性能のベンチマークを取ってみます

TRIAL でも [Results] ボタンを押せば全ての値を確認可能

Results 画面

とりあえず、N5 の Ryzen 7 255 CPU に搭載されている Radeon 780 と比較させていますが GPU と CPU の比較ではあまり意味もなくRadeon 780 も健闘しているなぁ」という感想ぐらいしか言うことがありません。

PCIe 4.0 x16 スロットの環境がないので、検索して見つけた PCGH によるオンボード接続時の AIDA64 ベンチマークと比較してみます。

RTX 3050 8GB (GA106)  OCuLink (PCIe 4.0 x4) On-board Slot (PCIe 4.0 x16) On-board Slot 比
Memory Read 6268 MB/s 12528 MB/s 50.0%
Memory Write 6371 MB/s 12606 MB/s 50.5%
Memory Copy 192.90 GB/s 192.16 GB/s 100%
Single-Precision FLOPS 9663 GFLOPS 9813 GFLOPS 98.4%
Double-Precision FLOPS 151.8 GFLOPS 153.6 GFLOPS 98.8%
24-bit Integer IOPS 4837 GIOPS 4931 GIOPS 98.0%
32-bit Integer IOPS 4837 GIOPS 4931 GIOPS 98.0%
64-bit Integer IOPS 1193 GIOPS 1204 GIOPS 99.0%
AES-256  15391 MB/s 15355 MB/s 100.2%
SHA-1 Hash 77725 MB/s 77390 MB/s 100.4%
Single-Precision Julia 1877 FPS 1934 FPS 97.0%
Double-Precision Mandel 44.51 FPS 45.36 FPS 98.1%

Memory Read と Memory Write が大きくスコアを落とし、50% の速度低下が発生しています。
これは、OCuLink 接続では PCIe 4.0 x4 の最大速度が 64Gbps(7.88 GB/s)に速度が制限されてしまうのが原因だと思われます。

その他の項目は最大 3% 程度のスコア減にとどまり、RTX 3050 の演算性能をしっかり発揮しています。

OCuLink 接続では PCIe バスを通じた GPU <-> PC 間の通信速度に大きな影響がでるが、GPU の演算性能への影響は最小限と言えそうです。

FINAL FANTASY XV WINDOWS EDITION ベンチマーク

情報も多く、比較に便利そうだったのでゲーミングパフォーマンスのチェックには FINAL FANTASY XV ベンチマークを選びました。

フルHD(1920 x 1080) のフルスクリーンで計測しています。他のことはよくわからないのでデフォルト設定のままです。

高品質設定のスコアは 6634 で「快適」判定
標準品質設定のスコアは 9141 で「とても快適」判定

高品質設定のスコアは 6634 で「快適」判定、標準品質設定のスコアは 9141 で「とても快適」判定でした。

他の方のレビューを見ると通常、高品質設定のスコアは 6630 〜 6700台のようで、OCuLink 接続でもオンボード PCIe スロット(PCIe 4.0 x16)と同等のスコアが出せています。

PCIe バス速度によるゲーミングパフォーマンスがほとんど低下しないという前評判通りの結果ですが、ここまで健闘するとは思いませんでした。

RTX 3050 は OCuLink 接続でも、FINAL FANTASY XV ベンチマーク本来のパフォーマンスに近い実力を発揮できるようです。

なお、実際に計測はしていませんが AIDA64 ベンチマークの結果を踏まえるとゲームのロード時間が2倍くらいになっている思われます

より世代の新しいグラフィックボード(RTX 50X0など)では OCuLink の PCI バス速度の影響をより大きく受けて本来のパフォーマスよりもっと大きくスコアを落とすと思われます。

ゲームのスコアはゲームの種類、GPU の VRAM 容量、ホストPC のスペックにも大きく影響されるので、こと OCuLink 接続では GPUスペックが高ければ高いほどよいわけではないのも難しいところです。

OCuLink 接続には RTX 30X0 シリーズ世代がちょうどいいのかもしれません。

ローカル LLM の簡単なベンチマーク

ここまでやっておいて、普段全くゲームをしないので RTX 3050 8GB は自宅用ローカル LLM(AI 大規模言語モデル)として活用する予定です。

実際にどの程度の応答速度が出せるのか簡単なテストをしてみます

実行環境

Truenas Scale 24.10Linux Kernel 6.6.44 / Nvidia Driver 550.142)上の Docker で Ollama 0.12.8 をコンテナを起動して計測しています。Docker からは NVIDIA Container Toolkit を通じて RTX 3050 を利用

環境構築の話は今回は省きますが、そのうち記事にすると思います。たぶん。きっと。するんじゃないかな。

テスト対象のモデルは、RTX 3050 8GB の VRAM に収まるサイズで選定。今回は Gemma3Gemma3nGranite3.3 を選びました。どのモデルも 2025年10月では最新のモデルで、かつ日本語を上手に扱います

なお、推論速度を見るのが目的なので各モデルの出力結果の優劣については今回は不問とします。

ベンチマーク方法と結果

各モデルに対して、以下の(適当に決めた)プロンプト指示して「応答開始までの時間」と「応答生成速度の平均を計測します。

アインシュタインの相対性理論について、中学生にも分かるように150文字以内で要約してください。

本当は創造的なプロンプト("秋の公園というテーマで 1,000文字程度のエッセイを書いて"など)や、より複雑な推論が必要そうな複数のアプローチも試すべきところですが、今回はごく簡単に実行速度だけを見ます。

結果は以下の通りとなりました。

Model name VRAM usage Prompt eval duration Eval rate
gemma3:4b 5.4 GB 36.907737ms 66.06 tokens/s
gemma3n:e2b 6.3 GB 34.349466ms 78.46 tokens/s
gemma3n:e4b 8.3 GB 50.925544ms 51.62 tokens/s
granite3.3:2b 2.6 GB 35.96783ms 98.16 tokens/s
granite3.3:8b 6.7 GB 83.641609ms 37.10 tokens/s

どのモデルでも 0.1秒(100ms)以下でプロンプトへの応答を開始し、応答速度も 51〜98 tokens/secホームラボ用途なら十分に実用的な速度が出ています。

Prompt eval duration がプロンプトへの応答開始までにかかった時間(≒ AI の思考時間)。Eval rate が応答の生成速度(≒ AI が思考を文字にして喋る速度)です。

今年は「小さく高機能で効率的かつ実用的」なモデルが登場したという事情もあり、OCuLink で接続した RTX 3050 でもモデルさえ選べば十分に実用的と言えそうです

もちろん、gpt-oss など大きめのモデルを実用的な速度で動かしたいとなると、VRAM が全然足りないので RTX 3090(32GB)クラスが必要になってきます。

しかし中古で 25,000円ほどで買えるグラフィックボードとしては、驚異的な結果じゃないでしょうか。RTX 3050 と OCuLink の組み合わせは、想像していた以上のパフォーマンスを発揮してくれそうです


おまけ

以下、ベンチマークに使った各モデルの簡単な説明と実行結果です。

gemma3:4b モデル

Google の Gemini を基盤とした軽量モデル。軽量モデルながら、4B パラメータモデルはマルチモーダル(テキストと画像の処理)に対応し、140以上の言語をサポートします。

# ollama run gemma3:4b --verbose
>>> アインシュタインの相対性理論について、中学生にも分かるように150文字以内で要約してください。
アインシュタインの相対性理論は、大きく分けて「特殊相対性理論」と「一般相対性理論」の2つからなる。

**特殊相対性理論**は、光の速さは誰が見ても同じであり、時間や空間は観測者の速度によって変わるという考え方。

**一般相対性理論**は、重力は空間の歪みであり、質量がある場所で空間を歪めることで、物体がその空間に沿って動くという考え方。

どちらも、時間や空間といった概念を大きく変える、アインシュタインの重要な業績です。

total duration:       2.30181974s
load duration:        174.523692ms
prompt eval count:    35 token(s)
prompt eval duration: 36.907737ms
prompt eval rate:     948.31 tokens/s
eval count:           133 token(s)
eval duration:        2.013280397s
eval rate:            66.06 tokens/s
>>> /bye

# ollama ps
NAME         ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
gemma3:4b    a2af6cc3eb7f    5.4 GB    100% GPU     4096       2 minutes from now
gemma3n モデル

Google の Gemini を基盤とした gemma3 シリーズの最新モデルで、スマートフォン、ノートパソコン、タブレットなどの日常的なデバイスでの使用向けに最適化されたモデルテキスト、画像、音声、動画のマルチモーダル処理が可能。

Per Layer Embeddings(PLE)により E2B で 5B相当E4Bで 8B 相当のパラメーターを扱えます。

gemma3n:e2b
# ollama run gemma3n:e2b --verbose
>>> アインシュタインの相対性理論について、中学生にも分かるように150文字以内で要約してください。
光の速度は、誰がどれだけ動いても変わらないという「光の速度不変の原理」を基本に、時間と空間が互いに歪み合う「相対性」を提唱しました。

高速で移動する物体では、時間の流れが遅れたり、長さが縮んだりします。重力も空間の歪みであり、質量が大きいほど空間を歪ませます。

宇宙の始まり(ビッグバン)や、重力による時間の遅れなど、現代物理学の根幹をなす重要な理論です。


total duration:       1.771460213s
load duration:        167.098642ms
prompt eval count:    34 token(s)
prompt eval duration: 34.349466ms
prompt eval rate:     989.83 tokens/s
eval count:           118 token(s)
eval duration:        1.504010741s
eval rate:            78.46 tokens/s
>>> /bye

# ollama ps
NAME           ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
gemma3n:e2b    719372f8c7de    6.3 GB    100% GPU     4096       3 minutes from now  
gemma3n:e4b
# ollama run gemma3n:e4b --verbose
>>> アインシュタインの相対性理論について、中学生にも分かるように150文字以内で要約してください。
時間の流れは、観測者の速度によって変わる。光の速度は誰から見ても一定で、その結果、時間の遅れや長さの収縮といった不思議な現象が起こる。重力も空間を歪めるため、これも時間の流れに影響を与える。

total duration:       1.434773413s
load duration:        168.517048ms
prompt eval count:    34 token(s)
prompt eval duration: 50.925544ms
prompt eval rate:     667.64 tokens/s
eval count:           60 token(s)
eval duration:        1.162419402s
eval rate:            51.62 tokens/s
>>> /bye

# ollama ps
NAME           ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
gemma3n:e4b    15cb39fd9394    8.3 GB    100% GPU     4096       4 minutes from now 
granite3.3

IBM のオープンソース AIモデル granite ファミリーの最新モデルで、主に企業向けアプリケーション向けに設計されているのが特徴。

音声認識(STT)および自動音声翻訳(AST)モデルである「Granite Speech 3.3 8B」を含み、優れた言語モデルを提供。画像やテキストを含む視覚文書理解(VDU)に特化した Granite 3.3 Vision モデルも気になっています。

granite3.3:2b
# ollama run granite3.3:2b --verbose
>>> アインシュタインの相対性理論について、中学生にも分かるように150文字以内で要約してください。
アインシュタインの相対性理論は、時空の概念を変えました。特殊相対性は、光速が一定であることから、時間と空間が相関していることを示し、遅れや縮小があります。一般相対性では、重力は物質の弾力による時空の歪みとして説明され、大いだ天体の影響が光の進路に影響を与えます。シンプルに言うと、時間と空間は結び
つけられており、重力もその中で変形します。

total duration:       1.554025647s
load duration:        22.444001ms
prompt eval count:    76 token(s)
prompt eval duration: 35.96783ms
prompt eval rate:     2113.00 tokens/s
eval count:           144 token(s)
eval duration:        1.467017721s
eval rate:            98.16 tokens/s
>>> /bye

# ollama ps
NAME             ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
granite3.3:2b    07bd1f170855    2.6 GB    100% GPU     4096       3 minutes from now  
granite3.3:8b
# ollama run granite3.3:8b --verbose
>>> アインシュタインの相対性理論について、中学生にも分かるように150文字以内で要約してください。
アインシュタインの相対性理論は、時間と空間が密接結びついている「時空」を説明します。特に、重力は物体の質量によって空間が歪み、それで他の物体が引き寄せられるという考え方です。この理論では、光も時間と空間の歪みに影響され、時計や測定が異なる速度で進むことを示唆しています。簡単に言うと、重力は物体が
引き寄せるだけでなく、空間自体を曲げるというアインシュタインの見解です。

total duration:       4.538771003s
load duration:        26.661521ms
prompt eval count:    76 token(s)
prompt eval duration: 83.641609ms
prompt eval rate:     908.64 tokens/s
eval count:           163 token(s)
eval duration:        4.394047303s
eval rate:            37.10 tokens/s
>>> /bye

# ollama ps
NAME             ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
granite3.3:8b    fd429f23b909    6.7 GB    100% GPU     4096       4 minutes from now   

Previous

OCuLink を使った PCIe カードユニットを作る

Related