WebLLM とは？ブラウザだけで動くローカル推論の全体像【2025 年版】

2025年11月1日

WebLLM

AI の世界は急速に進化していますが、多くの場合、強力な GPU サーバーや API 接続が必要でした。しかし、WebLLM の登場により、その常識が大きく変わろうとしています。ブラウザだけで動作する完全なローカル推論が可能になり、プライバシーを守りながら高速な AI 体験を実現できるようになりました。

本記事では、WebLLM の基本的な仕組みから実装方法まで、初心者の方にもわかりやすく解説していきます。

背景

AI 推論の従来の課題

従来の AI アプリケーションでは、ユーザーのデータをクラウドサーバーに送信して処理を行うのが一般的でした。このアプローチには以下のような課題がありました。

#	課題項目	内容
1	プライバシーリスク	ユーザーデータがサーバーに送信される
2	ネットワーク依存	インターネット接続が必須
3	レイテンシー	サーバーとの通信による遅延
4	コスト	API 利用料金や GPU サーバー費用
5	スケーラビリティ	ユーザー数増加に伴うインフラコスト

図の意図: 従来型とローカル推論の処理フローの違いを示します。

mermaidflowchart TD
  user1["ユーザー"] -->|データ送信| cloud["クラウド<br/>サーバー"]
  cloud -->|API 呼び出し| gpu["GPU サーバー<br/>(推論処理)"]
  gpu -->|結果| cloud
  cloud -->|結果返信| user1

  user2["ユーザー"] -->|直接処理| browser["ブラウザ<br/>(WebLLM)"]
  browser -->|WebGPU| local["ローカル<br/>GPU"]
  local -->|結果| browser
  browser -->|即座に表示| user2

  style cloud fill:#ffcccc
  style gpu fill:#ffcccc
  style browser fill:#ccffcc
  style local fill:#ccffcc

この図からわかるように、従来型ではデータが外部に送信される一方、WebLLM ではすべてがブラウザ内で完結します。

WebAssembly と WebGPU の進化

近年、Web 技術の進化により、ブラウザでネイティブアプリケーション並みのパフォーマンスが実現できるようになりました。特に重要な技術が以下の 2 つです。

WebAssembly (Wasm)

WebAssembly は、C++ や Rust などの言語で書かれたコードをブラウザで高速実行できる技術です。JavaScript と比較して、数値計算やメモリ操作が圧倒的に高速になります。

WebGPU

WebGPU は、ブラウザから GPU に直接アクセスできる最新の API です。従来の WebGL よりも低レベルで効率的な GPU 操作が可能になりました。

これらの技術により、ブラウザ上で本格的な機械学習推論が現実のものとなったのです。

課題

ブラウザでの AI 推論における技術的ハードル

ブラウザで AI モデルを動かすには、いくつかの技術的な課題を克服する必要がありました。

図の意図: ブラウザでの AI 推論を実現するための技術的課題を示します。

mermaidflowchart LR
  challenge["ブラウザでの<br/>AI 推論"] --> model["モデルサイズ<br/>の最適化"]
  challenge --> memory["メモリ管理<br/>の効率化"]
  challenge --> compute["計算処理<br/>の高速化"]
  challenge --> load["モデル読み込み<br/>の最適化"]

  model --> solution1["量子化<br/>(4bit/8bit)"]
  memory --> solution2["段階的ロード<br/>ストリーミング"]
  compute --> solution3["WebGPU<br/>並列処理"]
  load --> solution4["キャッシング<br/>IndexedDB"]

  style challenge fill:#ffffcc
  style solution1 fill:#ccffcc
  style solution2 fill:#ccffcc
  style solution3 fill:#ccffcc
  style solution4 fill:#ccffcc

各課題について詳しく見ていきましょう。

モデルサイズの問題

大規模言語モデル（LLM）は通常、数 GB から数十 GB のサイズがあります。例えば、Llama 2 の 7B モデルは元々 13GB 以上ありますが、これをそのままブラウザにダウンロードするのは非現実的でした。

メモリ制限

ブラウザには厳格なメモリ制限があり、デスクトップアプリケーションのように自由にメモリを使用できません。特にモバイルデバイスでは、この制限がさらに厳しくなります。

計算パフォーマンス

AI モデルの推論には膨大な行列演算が必要です。CPU だけでは処理が遅すぎるため、GPU を効率的に活用する必要がありました。

解決策

WebLLM のアーキテクチャ

WebLLM は、Apache TVM という機械学習コンパイラをベースに構築されています。TVM を WebAssembly と WebGPU 向けにコンパイルすることで、ブラウザ上での高速な推論を実現しました。

図の意図: WebLLM の全体的なアーキテクチャと各コンポーネントの役割を示します。

mermaidflowchart TB
  subgraph app["アプリケーション層"]
    js["JavaScript/<br/>TypeScript"]
  end

  subgraph weblm["WebLLM ライブラリ"]
    api["WebLLM API"]
    cache["モデル<br/>キャッシュ"]
  end

  subgraph runtime["ランタイム層"]
    tvm["TVM Runtime<br/>(Wasm)"]
    kernels["GPU カーネル"]
  end

  subgraph hardware["ハードウェア層"]
    webgpu["WebGPU"]
    gpu["GPU"]
  end

  subgraph storage["ストレージ"]
    idb["IndexedDB"]
  end

  js --> api
  api --> cache
  cache --> idb
  api --> tvm
  tvm --> kernels
  kernels --> webgpu
  webgpu --> gpu

  style weblm fill:#e6f3ff
  style runtime fill:#fff0e6
  style hardware fill:#e6ffe6

この階層構造により、開発者は複雑な WebGPU や WebAssembly の実装を意識せずに、シンプルな API で AI モデルを利用できます。

モデルの最適化技術

WebLLM は、モデルを効率的にブラウザで動作させるため、いくつかの最適化技術を採用しています。

量子化 (Quantization)

量子化は、モデルの重みを低精度の数値表現に変換する技術です。通常の 32bit 浮動小数点数を 4bit や 8bit の整数に変換することで、モデルサイズを大幅に削減できます。

#	量子化レベル	モデルサイズ	精度	推奨用途
1	FP32 (元)	100%	★★★★★	研究・開発
2	FP16	50%	★★★★☆	GPU 推論
3	INT8	25%	★★★☆☆	エッジデバイス
4	INT4	12.5%	★★☆☆☆	ブラウザ推論

WebLLM では主に 4bit 量子化を採用し、7B パラメータのモデルを約 3-4GB まで圧縮しています。これにより、一般的なブラウザでも十分にダウンロード・実行可能なサイズになりました。

プログレッシブローディング

モデル全体をダウンロードする前に推論を開始できるよう、モデルを複数のチャンクに分割してストリーミング形式でロードします。

WebGPU による高速化

WebGPU は、モダンな GPU API である Vulkan、Metal、Direct3D 12 をベースにした Web 標準です。WebLLM はこの WebGPU を活用して、以下のような最適化を実現しています。

シェーダーの最適化

行列乗算などの計算集約的な処理を GPU シェーダーとして実装し、並列処理を最大限に活用します。

メモリ管理の効率化

GPU メモリと CPU メモリ間のデータ転送を最小化し、レイテンシーを削減しています。

具体例

基本的なセットアップ

WebLLM を使用した簡単な例を見ていきましょう。まずは必要なパッケージのインストールから始めます。

パッケージのインストール

プロジェクトに WebLLM を追加するには、Yarn を使用します。

bashyarn add @mlc-ai/web-llm

このコマンドで、WebLLM ライブラリとその依存関係がインストールされます。

プロジェクト構成

TypeScript と React を使用した基本的なプロジェクト構成は以下のようになります。

typescript// src/types/chat.ts
// チャットメッセージの型定義

export interface ChatMessage {
  role: 'user' | 'assistant' | 'system';
  content: string;
  timestamp: number;
}

このインターフェースで、チャットメッセージの構造を定義します。role はメッセージの送信者を示し、content には実際のテキストが入ります。

typescript// src/types/chat.ts (続き)
// WebLLM エンジンの状態を管理する型

export interface EngineState {
  isLoading: boolean;
  isReady: boolean;
  error: string | null;
  progress: number;
}

エンジンの状態を追跡することで、UI に適切なフィードバックを表示できます。

WebLLM エンジンの初期化

WebLLM を使用するには、まずエンジンを初期化する必要があります。この処理はモデルのダウンロードとロードを含むため、時間がかかる可能性があります。

typescript// src/hooks/useWebLLM.ts
// 必要なライブラリをインポート

import { useState, useEffect, useCallback } from 'react';
import * as webllm from '@mlc-ai/web-llm';
import type {
  ChatMessage,
  EngineState,
} from '../types/chat';

React の Hooks と WebLLM ライブラリ、型定義をインポートします。

typescript// src/hooks/useWebLLM.ts (続き)
// カスタムフックの定義と状態管理

export function useWebLLM() {
  const [engine, setEngine] =
    useState<webllm.MLCEngine | null>(null);
  const [state, setState] = useState<EngineState>({
    isLoading: false,
    isReady: false,
    error: null,
    progress: 0,
  });
  const [messages, setMessages] = useState<ChatMessage[]>(
    []
  );

  // エンジン初期化関数は次のコードブロックで定義
}

状態管理には useState を使用し、エンジン本体、エンジンの状態、チャットメッセージの履歴を管理します。

typescript// src/hooks/useWebLLM.ts (続き)
// エンジン初期化関数の実装

const initEngine = useCallback(async () => {
  // すでに初期化済みの場合はスキップ
  if (engine) return;

  setState((prev) => ({
    ...prev,
    isLoading: true,
    error: null,
  }));

  try {
    // 進捗コールバックを設定
    const initProgressCallback = (
      progress: webllm.InitProgressReport
    ) => {
      setState((prev) => ({
        ...prev,
        progress: progress.progress * 100,
      }));
      console.log('Loading progress:', progress.text);
    };

    // MLCEngine を作成（次のコードブロックで続く）
  } catch (error) {
    // エラー処理は次のコードブロックで実装
  }
}, [engine]);

initEngine 関数では、まず重複初期化を防ぎ、進捗状況を UI に反映するためのコールバックを設定します。

typescript// src/hooks/useWebLLM.ts (続き)
// エンジン作成とモデル選択

// MLCEngine のインスタンスを作成
const newEngine = await webllm.CreateMLCEngine(
  // 使用するモデルを指定
  'Llama-3.1-8B-Instruct-q4f32_1-MLC',
  {
    // 初期化の進捗を監視
    initProgressCallback,
  }
);

setEngine(newEngine);
setState({
  isLoading: false,
  isReady: true,
  error: null,
  progress: 100,
});

ここでは Llama 3.1 の 8B モデル（4bit 量子化版）を指定しています。モデル名を変更することで、異なるモデルを使用できます。

typescript// src/hooks/useWebLLM.ts (続き)
// エラーハンドリング

  } catch (error) {
    const errorMessage = error instanceof Error
      ? error.message
      : '不明なエラーが発生しました';

    setState({
      isLoading: false,
      isReady: false,
      error: errorMessage,
      progress: 0,
    });

    console.error('WebLLM 初期化エラー:', error);
  }
}, [engine]);

エラーが発生した場合は、適切なエラーメッセージを状態に保存し、コンソールにも出力します。

チャット機能の実装

エンジンが初期化されたら、実際にチャット機能を実装できます。

typescript// src/hooks/useWebLLM.ts (続き)
// メッセージ送信関数の実装

const sendMessage = useCallback(
  async (content: string) => {
    // エンジンが準備できていない場合はエラー
    if (!engine || !state.isReady) {
      throw new Error('エンジンが初期化されていません');
    }

    // ユーザーメッセージを履歴に追加
    const userMessage: ChatMessage = {
      role: 'user',
      content,
      timestamp: Date.now(),
    };

    setMessages((prev) => [...prev, userMessage]);

    // AI の返答を生成（次のコードブロックで実装）
  },
  [engine, state.isReady]
);

ユーザーのメッセージを受け取り、まず履歴に追加します。エンジンが準備できていない場合は、適切なエラーを投げます。

typescript// src/hooks/useWebLLM.ts (続き)
// AI 応答の生成

  try {
    // ストリーミング形式で応答を生成
    const completion = await engine.chat.completions.create({
      messages: [
        ...messages.map((msg) => ({
          role: msg.role,
          content: msg.content,
        })),
        { role: 'user', content },
      ],
      stream: true,
      // モデルのパラメータ設定
      temperature: 0.7,
      max_tokens: 1000,
    });

    // ストリーミング応答の処理は次のコードブロックで実装
  } catch (error) {
    console.error('メッセージ送信エラー:', error);
    throw error;
  }
}, [engine, state.isReady, messages]);

chat.completions.create メソッドで AI の応答を生成します。stream: true を指定することで、応答をリアルタイムに受け取れます。

typescript// src/hooks/useWebLLM.ts (続き)
// ストリーミング応答の処理

let assistantMessage = '';

// ストリーミングデータを逐次処理
for await (const chunk of completion) {
  const delta = chunk.choices[0]?.delta?.content || '';
  assistantMessage += delta;

  // リアルタイムで UI を更新
  setMessages((prev) => {
    const newMessages = [...prev];
    const lastMessage = newMessages[newMessages.length - 1];

    if (lastMessage?.role === 'assistant') {
      // 既存のアシスタントメッセージを更新
      newMessages[newMessages.length - 1] = {
        ...lastMessage,
        content: assistantMessage,
      };
    } else {
      // 新しいアシスタントメッセージを追加
      newMessages.push({
        role: 'assistant',
        content: assistantMessage,
        timestamp: Date.now(),
      });
    }

    return newMessages;
  });
}

for await...of ループでストリーミングデータを処理し、到着したテキストを逐次 UI に反映します。これにより、ChatGPT のようなタイピング効果が実現できます。

UI コンポーネントの実装

次に、作成したフックを使用する React コンポーネントを実装します。

typescript// src/components/ChatInterface.tsx
// 必要なライブラリとコンポーネントをインポート

import React, { useState, useRef, useEffect } from 'react';
import { useWebLLM } from '../hooks/useWebLLM';
import { ChatMessage } from './ChatMessage';
import { ProgressBar } from './ProgressBar';

Chat インターフェースに必要なコンポーネントと先ほど作成したカスタムフックをインポートします。

typescript// src/components/ChatInterface.tsx (続き)
// ChatInterface コンポーネントの定義

export const ChatInterface: React.FC = () => {
  const { initEngine, sendMessage, messages, state } =
    useWebLLM();

  const [input, setInput] = useState('');
  const messagesEndRef = useRef<HTMLDivElement>(null);

  // コンポーネントマウント時にエンジンを初期化
  useEffect(() => {
    initEngine();
  }, [initEngine]);

  // 新しいメッセージが追加されたら自動スクロール
  useEffect(() => {
    messagesEndRef.current?.scrollIntoView({
      behavior: 'smooth',
    });
  }, [messages]);

  // フォーム送信処理は次のコードブロックで実装
};

useEffect を使用して、コンポーネントのマウント時にエンジンを初期化し、メッセージが追加されたら自動的にスクロールします。

typescript// src/components/ChatInterface.tsx (続き)
// フォーム送信処理

const handleSubmit = async (e: React.FormEvent) => {
  e.preventDefault();

  // 空のメッセージは送信しない
  if (!input.trim() || !state.isReady) return;

  const message = input.trim();
  setInput(''); // 入力フィールドをクリア

  try {
    await sendMessage(message);
  } catch (error) {
    console.error('送信エラー:', error);
    // エラー通知を表示（実装は省略）
  }
};

// JSX のレンダリングは次のコードブロックで実装

フォーム送信時には、入力値をバリデーションし、エンジンが準備できている場合のみメッセージを送信します。

typescript// src/components/ChatInterface.tsx (続き)
// JSX のレンダリング - ローディング状態

// エンジンがロード中の場合
if (state.isLoading) {
  return (
    <div className='chat-container loading'>
      <h2>モデルを読み込んでいます...</h2>
      <ProgressBar progress={state.progress} />
      <p className='progress-text'>
        {state.progress.toFixed(1)}% 完了
      </p>
      <p className='info-text'>
        初回はモデルのダウンロードに数分かかる場合があります。
        次回以降はキャッシュから高速に読み込まれます。
      </p>
    </div>
  );
}

// エラーが発生した場合のレンダリングは次のコードブロックで実装

モデルのロード中は、プログレスバーと進捗情報を表示します。ユーザーに待ち時間の目安を示すことで、UX が向上します。

typescript// src/components/ChatInterface.tsx (続き)
// JSX のレンダリング - エラー状態

// エラーが発生した場合
if (state.error) {
  return (
    <div className='chat-container error'>
      <h2>エラーが発生しました</h2>
      <p className='error-message'>{state.error}</p>
      <button onClick={() => initEngine()}>再試行</button>
      <div className='error-info'>
        <h3>よくある原因:</h3>
        <ul>
          <li>ブラウザが WebGPU に対応していない</li>
          <li>メモリが不足している</li>
          <li>ネットワーク接続が不安定</li>
        </ul>
      </div>
    </div>
  );
}

// 通常のチャット画面のレンダリングは次のコードブロックで実装

エラー発生時には、エラーメッセージと再試行ボタン、トラブルシューティング情報を表示します。

typescript// src/components/ChatInterface.tsx (続き)
// JSX のレンダリング - チャット画面

  // 通常のチャット画面
  return (
    <div className="chat-container">
      <header className="chat-header">
        <h1>WebLLM チャット</h1>
        <span className="status-indicator ready">準備完了</span>
      </header>

      <div className="messages-container">
        {messages.length === 0 ? (
          <div className="welcome-message">
            <h2>WebLLM へようこそ！</h2>
            <p>
              完全にブラウザ上で動作する AI チャットです。
              メッセージを入力して会話を始めましょう。
            </p>
          </div>
        ) : (
          messages.map((message, index) => (
            <ChatMessage key={index} message={message} />
          ))
        )}
        <div ref={messagesEndRef} />
      </div>

      {/* フォーム部分は次のコードブロックで実装 */}
    </div>
  );
};

メッセージが存在しない場合はウェルカムメッセージを表示し、存在する場合は各メッセージをレンダリングします。

typescript// src/components/ChatInterface.tsx (続き)
// JSX のレンダリング - 入力フォーム

      <form className="input-form" onSubmit={handleSubmit}>
        <input
          type="text"
          value={input}
          onChange={(e) => setInput(e.target.value)}
          placeholder="メッセージを入力..."
          disabled={!state.isReady}
          className="message-input"
        />
        <button
          type="submit"
          disabled={!state.isReady || !input.trim()}
          className="send-button"
        >
          送信
        </button>
      </form>
    </div>
  );
};

入力フォームでは、エンジンが準備できていない場合や入力が空の場合は送信ボタンを無効化します。

パフォーマンス最適化のヒント

WebLLM を実用的なアプリケーションで使用する際のパフォーマンス最適化のポイントをご紹介します。

メモリ管理

typescript// src/hooks/useWebLLM.ts (追加)
// エンジンのクリーンアップ

useEffect(() => {
  // コンポーネントのアンマウント時にエンジンを破棄
  return () => {
    if (engine) {
      // メモリリークを防ぐためにエンジンをリセット
      engine.resetChat();
    }
  };
}, [engine]);

コンポーネントがアンマウントされるときは、必ずエンジンをクリーンアップしてメモリリークを防ぎます。

会話履歴の管理

typescript// src/utils/messageManager.ts
// 会話履歴を最適化する関数

export function optimizeMessages(
  messages: ChatMessage[],
  maxTokens: number = 2000
): ChatMessage[] {
  // システムメッセージは常に保持
  const systemMessages = messages.filter(
    (msg) => msg.role === 'system'
  );

  // 最新のメッセージから逆順に追加
  const otherMessages = messages
    .filter((msg) => msg.role !== 'system')
    .reverse();

  let tokenCount = 0;
  const optimized: ChatMessage[] = [...systemMessages];

  for (const message of otherMessages) {
    // 簡易的なトークン数推定（実際は約 4 文字 = 1 トークン）
    const estimatedTokens = Math.ceil(
      message.content.length / 4
    );

    if (tokenCount + estimatedTokens > maxTokens) {
      break;
    }

    optimized.push(message);
    tokenCount += estimatedTokens;
  }

  // 元の順序に戻す
  return optimized.reverse();
}

長い会話履歴は推論速度に影響します。この関数で、コンテキストウィンドウに収まるようメッセージを最適化できます。

キャッシュの活用

typescript// src/utils/cacheManager.ts
// モデルキャッシュの確認と管理

export async function checkModelCache(
  modelId: string
): Promise<boolean> {
  try {
    // IndexedDB からキャッシュ情報を取得
    const db = await openDB('webllm-cache', 1);
    const cache = await db.get('models', modelId);
    return !!cache;
  } catch (error) {
    console.error('キャッシュ確認エラー:', error);
    return false;
  }
}

export async function clearModelCache(): Promise<void> {
  try {
    const db = await openDB('webllm-cache', 1);
    await db.clear('models');
    console.log('モデルキャッシュをクリアしました');
  } catch (error) {
    console.error('キャッシュクリアエラー:', error);
  }
}

モデルは初回ダウンロード後、IndexedDB にキャッシュされます。これらの関数で、キャッシュの状態を管理できます。

エラーハンドリングとデバッグ

実際のアプリケーションでは、様々なエラーが発生する可能性があります。適切なエラーハンドリングを実装しましょう。

WebGPU 対応チェック

typescript// src/utils/browserCheck.ts
// ブラウザの WebGPU 対応状況を確認

export async function checkWebGPUSupport(): Promise<{
  supported: boolean;
  error?: string;
}> {
  // navigator.gpu が存在するか確認
  if (!navigator.gpu) {
    return {
      supported: false,
      error:
        'このブラウザは WebGPU に対応していません。Chrome 113+ または Edge 113+ をご使用ください。',
    };
  }

  try {
    // GPU アダプタの取得を試行
    const adapter = await navigator.gpu.requestAdapter();

    if (!adapter) {
      return {
        supported: false,
        error:
          'GPU アダプタが見つかりません。グラフィックドライバを更新してください。',
      };
    }

    return { supported: true };
  } catch (error) {
    return {
      supported: false,
      error: `WebGPU 初期化エラー: ${error}`,
    };
  }
}

この関数をアプリケーションの起動時に実行することで、ユーザーの環境が WebLLM に対応しているか事前に確認できます。

メモリ不足エラーの処理

typescript// src/utils/errorHandler.ts
// エラーメッセージから原因を特定

export function analyzeError(error: Error): {
  type: string;
  message: string;
  suggestion: string;
} {
  const errorMessage = error.message.toLowerCase();

  // メモリ不足エラー
  if (
    errorMessage.includes('out of memory') ||
    errorMessage.includes('oom')
  ) {
    return {
      type: 'memory',
      message: 'メモリが不足しています',
      suggestion:
        '他のタブを閉じるか、より小さいモデルを使用してください。',
    };
  }

  // WebGPU エラー
  if (
    errorMessage.includes('webgpu') ||
    errorMessage.includes('gpu')
  ) {
    return {
      type: 'webgpu',
      message: 'GPU の初期化に失敗しました',
      suggestion:
        'ブラウザを再起動するか、グラフィックドライバを更新してください。',
    };
  }

  // ネットワークエラー
  if (
    errorMessage.includes('network') ||
    errorMessage.includes('fetch')
  ) {
    return {
      type: 'network',
      message: 'ネットワークエラーが発生しました',
      suggestion:
        'インターネット接続を確認して、再試行してください。',
    };
  }

  // 不明なエラー
  return {
    type: 'unknown',
    message: '不明なエラーが発生しました',
    suggestion:
      'ページを再読み込みして、再試行してください。',
  };
}

エラーメッセージを解析して、ユーザーに適切なフィードバックと解決策を提示できます。

図の意図: エラー発生時の処理フローと対応方法を示します。

mermaidflowchart TD
  start["エラー発生"] --> check["エラー種別<br/>チェック"]

  check --> memory["メモリ不足?"]
  check --> gpu["WebGPU?"]
  check --> network["ネットワーク?"]
  check --> unknown["その他"]

  memory --> mem_action["タブを閉じる<br/>小さいモデルを使用"]
  gpu --> gpu_action["ブラウザ再起動<br/>ドライバ更新"]
  network --> net_action["接続確認<br/>再試行"]
  unknown --> unknown_action["ページ再読み込み"]

  mem_action --> retry["再試行"]
  gpu_action --> retry
  net_action --> retry
  unknown_action --> retry

  style start fill:#ffcccc
  style retry fill:#ccffcc

この図のように、エラーの種類に応じて適切な対処法をユーザーに提示することが重要です。

まとめ

WebLLM は、ブラウザ上で完全にローカルに動作する大規模言語モデルの推論を実現する画期的な技術です。本記事では、WebLLM の基本的な概念から実装方法まで、段階的に解説してきました。

WebLLM の主な利点

#	利点	詳細
1	プライバシー保護	データがローカルで処理され、外部送信されない
2	オフライン動作	初回ロード後はインターネット不要
3	低レイテンシー	サーバー通信がないため応答が高速
4	コスト削減	API 料金やサーバー費用が不要
5	スケーラビリティ	ユーザーごとにクライアント側で処理