gpt-oss のインストールとセットアップ完全ガイド

2025年8月30日

gpt-oss

OpenAI 初のオープンソース言語モデル「GPT-OSS」が、ついにリリースされました。これまでクローズドソースだった OpenAI の GPT モデルが、Apache 2.0 ライセンスで完全にフリー利用できるようになったのです。

しかし、いざ使ってみようと思っても「どの方法でインストールすれば良いのか分からない」「自分の環境で動作するのか不安」といった悩みを持つ方も多いでしょう。本記事では、GPT-OSS の基本情報から各インストール手法の詳細まで、初心者から上級者まで対応できるよう網羅的に解説いたします。

背景

OpenAI 初のオープンウェイト言語モデル

GPT-OSS は、OpenAI が提供する初のオープンウェイト言語モデルです。これまで OpenAI の GPT シリーズは、API 経由でのみ利用可能でしたが、GPT-OSS ではモデルの重みが完全に公開されており、ローカル環境での実行が可能になりました。

このオープン化により、以下のような利点が生まれています。

インターネット接続不要でのオフライン利用
API 利用料金の心配なし
カスタマイズやファインチューニングが自由
データプライバシーの完全な保護

mermaidflowchart TD
    openai[OpenAI] -->|リリース| gptoss[GPT-OSS]
    gptoss -->|Apache 2.0| free[完全フリー利用]
    gptoss -->|モデル公開| local[ローカル実行]
    gptoss -->|オープンソース| custom[カスタマイズ可能]

    free --> offline[オフライン利用]
    free --> nocost[料金不要]
    local --> privacy[プライバシー保護]
    custom --> finetune[ファインチューニング]

この図は、GPT-OSS のオープン化によって実現された主要なメリットを示しています。従来の API 型サービスとは根本的に異なる利用形態を提供しているのです。

Apache 2.0 ライセンスで完全フリー

GPT-OSS はApache 2.0 ライセンスを採用しており、商用・非商用を問わず完全に無料で利用できます。このライセンスの特徴は以下の通りです。

項目	内容
1	商用利用可能 - ビジネスでの利用に制限なし
2	改変・再配布自由 - モデルの修正や配布が可能
3	特許権の保護 - 特許に関する法的リスクを軽減
4	帰属表示のみ必要 - ライセンス文書の保持が条件

2 つのモデル（20B、120B）の特徴

GPT-OSS は、用途に応じて選択できる 2 つのモデルサイズを提供しています。

mermaidgraph LR
    gptoss[GPT-OSS] --> model20b[gpt-oss-20b<br/>21B parameters]
    gptoss --> model120b[gpt-oss-120b<br/>117B parameters]

    model20b --> low[低レイテンシ]
    model20b --> local[ローカル特化]
    model20b --> ram16[16GB RAM推奨]

    model120b --> prod[本格運用]
    model120b --> reason[高推論性能]
    model120b --> ram80[80GB RAM必要]

この図解が示すように、それぞれ異なる用途に最適化されており、適切な選択が重要になります。

gpt-oss-20bの特徴：

パラメータ数: 21B（アクティブパラメータ: 3.6B）
推奨メモリ: 16GB 以上の RAM
用途: ローカル開発、実験、軽量なタスク
レスポンス: 高速な応答性能

gpt-oss-120bの特徴：

パラメータ数: 117B（アクティブパラメータ: 5.1B）
必要メモリ: 80GB 以上の RAM
用途: 本格的な推論タスク、高品質な出力が必要な場面
性能: より高度な推論能力

課題

各インストール手法の選択基準が不明確

GPT-OSS を利用したいと思っても、どの手法を選べば良いのか分からないという問題があります。現在、主要なインストール方法だけでも 5 つ以上存在しており、それぞれに特徴や要件が異なります。

初心者の方にとっては「コマンドラインは苦手だから GUI が欲しい」といったニーズがあり、開発者の方には「Python スクリプトで統合したい」といった要求があるでしょう。しかし、これらのニーズに対してどの手法が最適なのか、明確な指針がないのが現状です。

ハードウェア要件の理解不足

GPT-OSS は高性能な言語モデルのため、相応のハードウェア性能が必要になります。特に以下の点で混乱が生じています。

メモリ（RAM）の必要容量
GPU 使用時の要件
CPU での動作可能性
ストレージ容量の見積もり

例えば、「16GB のメモリがあれば動作する」という情報を見て 20B モデルをインストールしたものの、実際にはスワップファイルが大量に使用されて実用的でない、といったケースが発生しています。

セットアップ後の動作確認方法が不明

インストールが完了したとしても、正常に動作しているかどうかの確認方法が分からないという課題があります。

基本的な動作テスト方法
パフォーマンスの測定方法
エラーが発生した場合の対処法
設定の最適化手順

これらの情報が整理されていないため、セットアップ後に「動いているようだが、これで正しいのか」という不安を抱える利用者が多いのです。

解決策

前述の課題を解決するため、GPT-OSS の主要なインストール手法を用途別・レベル別に整理してご紹介します。それぞれの手法について、特徴・要件・手順を詳しく解説いたします。

Ollama（初心者推奨）

Ollama は最もシンプルで初心者にオススメのインストール手法です。コマンド操作に慣れていない方でも、数分で GPT-OSS を動作させることができます。

Ollama の特徴

特徴	内容
1	簡単インストール - ワンクリックでセットアップ
2	自動管理 - 依存関係やモデル管理を自動化
3	軽量 - 最小限のリソースで動作
4	クロスプラットフォーム - Windows/Mac/Linux 対応

インストール手順

Step 1: Ollama 本体のインストール

bash# macOS（Homebrew使用）
brew install ollama

# Linux
curl -fsSL https://ollama.ai/install.sh | sh

# Windows
# 公式サイトからインストーラーをダウンロード

Step 2: GPT-OSS モデルのダウンロード

bash# 20Bモデル（16GB RAM推奨）
ollama pull gpt-oss:20b

# 120Bモデル（80GB RAM必要）
ollama pull gpt-oss:120b

Step 3: モデルの実行

bash# 対話形式でGPT-OSSを開始
ollama run gpt-oss:20b

動作確認方法

インストール後、以下のテストを実行して正常動作を確認しましょう。

bash# モデル一覧の確認
ollama list

出力例：

makefileNAME           ID       SIZE   MODIFIED
gpt-oss:20b    abc123   12GB   5 minutes ago

Hugging Face Transformers（開発者向け）

Transformers ライブラリを使用する手法は、Python での開発に最適です。既存の ML プロジェクトとの統合が容易で、カスタマイズ性も高くなります。

Transformers の特徴

mermaidflowchart LR
    transformers[Transformers] --> python[Python統合]
    transformers --> custom[カスタマイズ可能]
    transformers --> ecosystem[ML生態系連携]

    python --> jupyter[Jupyter対応]
    python --> script[スクリプト化]
    custom --> param[パラメータ調整]
    custom --> batch[バッチ処理]
    ecosystem --> torch[PyTorch]
    ecosystem --> datasets[Datasets]

この図が示すように、Transformers は既存の Python 開発環境との親和性が非常に高い選択肢です。

インストール手順

Step 1: 環境準備

bash# 仮想環境の作成（推奨）
python -m venv gpt-oss-env
source gpt-oss-env/bin/activate  # Linux/macOS
# または
gpt-oss-env\Scripts\activate  # Windows

Step 2: 必要ライブラリのインストール

bash# 基本ライブラリ
pip install transformers accelerate torch

# GPT-OSS専用の追加ライブラリ
pip install triton==3.4 kernels

Step 3: Python 実装

pythonfrom transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# モデル名の指定
model_name = "openai/gpt-oss-20b"  # または gpt-oss-120b

# トークナイザーとモデルの読み込み
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",  # 自動でGPU/CPU割り当て
    torch_dtype="auto", # 最適なデータ型を自動選択
)

基本的な使用方法

python# テキスト生成の実行
def generate_text(prompt, max_length=100):
    inputs = tokenizer.encode(prompt, return_tensors="pt")

    with torch.no_grad():
        outputs = model.generate(
            inputs,
            max_length=max_length,
            temperature=0.7,
            pad_token_id=tokenizer.eos_token_id
        )

    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# 使用例
result = generate_text("人工知能の将来について教えてください。")
print(result)

Jan AI（GUI 重視）

Jan AI は、グラフィカルユーザーインターフェースを重視する方に最適です。コマンドライン操作が苦手な方でも、直感的に GPT-OSS を利用できます。

Jan AI の特徴

項目	内容
1	直感的 GUI - ChatGPT 風のインターフェース
2	ゼロ設定 - 複雑な設定作業が不要
3	オフライン完結 - インターネット接続不要
4	無制限利用 - 使用回数や時間の制限なし

インストール手順

Step 1: Jan AI のダウンロード

bash# 公式サイトからOSに対応したバージョンをダウンロード
# https://jan.ai/

Step 2: アプリケーションの起動

ダウンロードしたファイルを実行
「New Chat」をクリック
モデル一覧から「gpt-oss-20b」または「gpt-oss-120b」を選択
初回選択時に自動でモデルがダウンロード開始

使用方法

Jan AI の使用は非常にシンプルです。

チャット画面でテキストを入力
送信ボタンをクリック
GPT-OSS からの応答を確認
推論設定（low/medium/high）で応答品質を調整可能

vLLM（本格運用）

vLLM は、本格的なサービス運用や高スループットが必要な場面に最適です。OpenAI 互換 API サーバーとして動作するため、既存の GPT アプリケーションとの互換性も保てます。

vLLM の特徴

mermaidsequenceDiagram
    participant Client as クライアント
    participant vLLM as vLLM Server
    participant Model as GPT-OSS Model

    Client->>vLLM: HTTP リクエスト
    vLLM->>Model: 推論実行
    Model->>vLLM: 結果返却
    vLLM->>Client: JSON レスポンス

    Note over Client, Model: OpenAI API互換
    Note over vLLM: 高速処理・並列実行

この図が示すように、vLLM は高性能な API 服기として動作し、複数のクライアントからの同時リクエストを効率的に処理できます。

インストール手順

Step 1: vLLM のインストール

bash# GPT-OSS専用バージョンのインストール
pip install --pre vllm==0.10.1+gptoss \
  --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
  --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
  --index-strategy unsafe-best-match

Step 2: サーバーの起動

bash# API服기として起動
vllm serve openai/gpt-oss-120b \
  --host 0.0.0.0 \
  --port 8000 \
  --api-key your-api-key-here

Step 3: API 呼び出しテスト

pythonimport requests

# APIエンドポイント
url = "http://localhost:8000/v1/chat/completions"

# リクエストデータ
data = {
    "model": "openai/gpt-oss-120b",
    "messages": [
        {"role": "user", "content": "Hello, GPT-OSS!"}
    ],
    "max_tokens": 100
}

# API呼び出し
response = requests.post(url, json=data,
                        headers={"Authorization": "Bearer your-api-key-here"})
print(response.json())

LM Studio（統合環境）

LM Studio は、GUI 操作と API 機能を兼ね備えた統合開発環境です。ローカルでの対話利用と、API 服기としての運用を一つのアプリケーションで実現できます。

LM Studio の特徴

項目	内容
1	統合 GUI - チャットと API 管理を一元化
2	モデル管理 - 複数モデルの切り替えが容易
3	パフォーマンス監視 - リソース使用量をリアルタイム表示
4	設定の可視化 - 推論パラメータを GUI で調整

インストール手順

Step 1: LM Studio のダウンロードとインストール

bash# コマンドラインツールのインストール（オプション）
npm install -g lm-studio

Step 2: モデルのダウンロード

bash# CLIを使用する場合
lms get openai/gpt-oss-20b

# または120Bモデル
lms get openai/gpt-oss-120b

Step 3: アプリケーションでの設定

LM Studio を起動
「Models」タブでダウンロード済みモデルを確認
「Chat」タブで対話形式での利用
「Server」タブで API 服기の起動設定

具体例

各インストール手法の実際の使用例と、よくあるエラーケースの対処法をご紹介します。

各手法の実際のコマンド実行例

Ollama 実行例

bash# モデルの状態確認
$ ollama list
NAME           ID       SIZE   MODIFIED
gpt-oss:20b    abc123   12GB   2024-01-15

# 対話モードの開始
$ ollama run gpt-oss:20b
>>> こんにちは、GPT-OSSです。今日はどのようなお手伝いができますか？

こんにちは！プログラミングの質問があるのですが...

>>> もちろんです！どのようなプログラミングの質問でしょうか？具体的な言語や...

Transformers 実行例

python# 完全なサンプルコード
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def setup_gpt_oss():
    """GPT-OSSのセットアップ"""
    model_name = "openai/gpt-oss-20b"

    print("トークナイザーを読み込み中...")
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    print("モデルを読み込み中...")
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        device_map="auto",
        torch_dtype=torch.float16,  # メモリ使用量を削減
        low_cpu_mem_usage=True
    )

    return model, tokenizer

# 使用例
model, tokenizer = setup_gpt_oss()
print("GPT-OSSの準備が完了しました！")

vLLM API 服기実行例

bash# 服기起動
$ vllm serve openai/gpt-oss-20b --host 0.0.0.0 --port 8000

INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

bash# クライアントからのテスト
$ curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-oss-20b",
    "messages": [{"role": "user", "content": "Hello!"}],
    "max_tokens": 50
  }'

エラーケースと対処法

エラーケース 1: メモリ不足

エラーメッセージ例:

sqlOutOfMemoryError: CUDA out of memory. Tried to allocate 2.00 GiB
(GPU 0; 8.00 GiB total capacity; 6.50 GiB already allocated)

対処方法:

bash# GPU使用量の確認
nvidia-smi

# モデルサイズを小さくする
ollama pull gpt-oss:20b  # 120bから20bへ変更

# CPU使用モードに切り替え（Transformers）
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="cpu",  # CPUを強制指定
    torch_dtype=torch.float16
)

エラーケース 2: ネットワーク接続エラー

エラーメッセージ例:

vbnetConnectionError: Failed to download model from https://huggingface.co/...

対処方法:

bash# プロキシ設定の確認
export https_proxy=http://proxy.company.com:8080
export http_proxy=http://proxy.company.com:8080

# または、事前にダウンロード済みのモデルを使用
# ローカルパスを指定
model_path = "/path/to/downloaded/model"
tokenizer = AutoTokenizer.from_pretrained(model_path)

エラーケース 3: 依存関係の競合

エラーメッセージ例:

javascriptImportError: cannot import name 'AutoModelForCausalLM' from 'transformers'

対処方法:

bash# 仮想環境を新規作成してクリーンインストール
python -m venv gpt-oss-clean
source gpt-oss-clean/bin/activate

# 最新版のインストール
pip install --upgrade transformers torch accelerate

# バージョン確認
pip list | grep transformers

エラーケース 4: Ollama 服기が応答しない

症状: ollama run コマンドが無応答になる

対処方法:

bash# Ollama服기の状態確認
ollama ps

# 服기の再起動
ollama stop gpt-oss:20b
ollama start

# ログの確認
journalctl -u ollama -f  # Linux
brew services restart ollama  # macOS