Dify で AI 文書検索・社内ナレッジベースを構築する

2025年7月24日

Dify

情報の海に溺れていませんか？社内の重要な文書が散らばり、必要な情報にたどり着くまでに時間を浪費していませんか？そんな悩みを解決するのが、Dify を使った AI 文書検索・社内ナレッジベースです。

従来のキーワード検索では見つからなかった情報も、自然言語で質問するだけで瞬時に見つかる時代が来ています。この記事では、Dify を使って実際に社内ナレッジベースを構築する手順を、初心者の方でも理解できるように詳しく解説していきます。

Dify の基本概念と特徴

Dify とは

Dify は、AI アプリケーションを簡単に構築できるオープンソースのプラットフォームです。特に文書検索とナレッジベースの構築において、その真価を発揮します。

Dify の最大の特徴は、複雑な AI 技術を理解していなくても、直感的な操作で高度な AI 検索システムを構築できることです。まるで、AI エンジニアを雇わずに、自社専用の AI アシスタントを手に入れるような感覚です。

AI 文書検索の仕組み

従来の検索システムとの違いを理解するために、まずは基本的な仕組みを見てみましょう。

javascript// 従来のキーワード検索の例
const traditionalSearch = (query, documents) => {
  const keywords = query.split(' ');
  return documents.filter((doc) =>
    keywords.some((keyword) =>
      doc.content
        .toLowerCase()
        .includes(keyword.toLowerCase())
    )
  );
};

この従来の検索では、「売上向上」で検索しても「売上を上げる方法」という文書は見つからない可能性があります。

一方、Dify の AI 検索は以下のような仕組みで動作します：

javascript// AI検索の概念的な仕組み
const aiSearch = async (query, documents) => {
  // 1. クエリの意図を理解
  const intent = await analyzeIntent(query);

  // 2. 文書の意味をベクトル化
  const documentVectors = await vectorizeDocuments(
    documents
  );

  // 3. 意味的な類似度で検索
  return findSemanticMatches(intent, documentVectors);
};

この仕組みにより、「売上向上」で検索しても「売上を上げる方法」「収益改善策」「マーケティング戦略」など、関連する文書を自動的に見つけることができます。

社内ナレッジベースのメリット

社内ナレッジベースを構築することで得られる具体的なメリットをご紹介します。

業務効率の劇的向上

情報検索時間の 90%削減
重複作業の防止
ナレッジの蓄積と活用

コスト削減効果

新入社員の教育コスト削減
サポート業務の効率化
意思決定の迅速化

組織の成長促進

暗黙知の形式知化
ベストプラクティスの共有
イノベーションの加速

構築前の準備

必要な環境とツール

Dify でナレッジベースを構築する前に、必要な環境を整えましょう。

基本的な要件

インターネット接続環境
モダンブラウザ（Chrome、Firefox、Safari、Edge）
メールアドレス（アカウント作成用）

推奨環境

Node.js 18.0 以上（ローカル開発の場合）
Docker（セルフホスティングの場合）
最低 4GB RAM（大量データ処理時）

データの整理と準備

ナレッジベースの成功は、データの準備にかかっています。以下の手順で整理を進めましょう。

ステップ 1：現状の把握

bash# 社内文書の現状を調査するスクリプト例
find /path/to/documents -name "*.pdf" -o -name "*.docx" -o -name "*.txt" | wc -l

ステップ 2：データの分類 以下のような構造でデータを整理することをお勧めします：

arduinodocuments/
├── technical/
│   ├── manuals/
│   ├── procedures/
│   └── troubleshooting/
├── business/
│   ├── policies/
│   ├── reports/
│   └── presentations/
└── knowledge/
    ├── best-practices/
    ├── case-studies/
    └── faq/

ステップ 3：メタデータの準備 各文書に以下の情報を付与することをお勧めします：

yaml# メタデータの例
title: '営業プロセス改善ガイド'
category: 'business'
tags: ['営業', 'プロセス', '改善']
author: '営業部 田中'
created_date: '2024-01-15'
last_updated: '2024-03-20'
priority: 'high'

セキュリティ要件の確認

社内文書を扱う以上、セキュリティは最重要事項です。以下の点を確認してください。

アクセス制御

ユーザー認証の仕組み
権限レベルの設定
データの暗号化

コンプライアンス

個人情報の取り扱い
機密情報の保護
監査ログの保持

バックアップ戦略

データの定期バックアップ
復旧手順の確立
災害対策

Dify のセットアップ

アカウント作成と初期設定

それでは、実際に Dify のセットアップを始めましょう。

ステップ 1：アカウント作成

Dify 公式サイトにアクセス
「Sign Up」または「無料で始める」をクリック
メールアドレスとパスワードを入力

ステップ 2：メール認証 登録後、確認メールが送信されます。メール内のリンクをクリックして認証を完了してください。

よくあるエラーと解決策

bash# エラー: "Email already exists"
# 解決策: パスワードリセット機能を使用

# エラー: "Invalid email format"
# 解決策: 正しいメールアドレス形式を確認

# エラー: "Password too weak"
# 解決策: 8文字以上、大文字・小文字・数字を含むパスワードを使用

ワークスペースの作成

アカウント作成後、最初のワークスペースを作成しましょう。

ステップ 1：ワークスペース名の設定

会社名やプロジェクト名を使用
分かりやすい名前を付ける
後から変更可能

ステップ 2：初期設定

yaml# 推奨設定例
workspace_name: '株式会社サンプル ナレッジベース'
description: '社内文書検索・ナレッジ管理システム'
visibility: 'private'
default_language: 'ja'
timezone: 'Asia/Tokyo'

ステップ 3：メンバー招待 初期メンバーを招待して、チームでの作業を開始できます。

基本的な設定項目

ワークスペース作成後、以下の基本設定を行います。

API 設定

javascript// APIキーの取得例
const apiKey = 'df-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx';
const baseUrl = 'https://api.dify.ai/v1';

// API接続テスト
const testConnection = async () => {
  try {
    const response = await fetch(`${baseUrl}/workspaces`, {
      headers: {
        Authorization: `Bearer ${apiKey}`,
        'Content-Type': 'application/json',
      },
    });

    if (response.ok) {
      console.log('接続成功');
    } else {
      console.error('接続エラー:', response.status);
    }
  } catch (error) {
    console.error('ネットワークエラー:', error);
  }
};

言語設定

日本語対応の確認
検索結果の言語設定
エラーメッセージの言語設定

ナレッジベースの構築

データソースの追加

Dify では、様々なデータソースから情報を取得できます。まずは基本的なファイルアップロードから始めましょう。

サポートされているファイル形式

PDF（.pdf）
Word 文書（.docx, .doc）
テキストファイル（.txt）
Markdown（.md）
CSV（.csv）
Excel（.xlsx, .xls）

ファイルアップロードの手順

javascript// ファイルアップロードの例
const uploadFile = async (file) => {
  const formData = new FormData();
  formData.append('file', file);

  try {
    const response = await fetch('/api/upload', {
      method: 'POST',
      body: formData,
      headers: {
        Authorization: `Bearer ${apiKey}`,
      },
    });

    if (response.ok) {
      const result = await response.json();
      console.log('アップロード成功:', result.fileId);
    }
  } catch (error) {
    console.error('アップロードエラー:', error);
  }
};

よくあるエラーと解決策

bash# エラー: "File too large"
# 解決策: ファイルサイズを50MB以下に圧縮

# エラー: "Unsupported file format"
# 解決策: サポートされている形式に変換

# エラー: "Upload failed"
# 解決策: ネットワーク接続を確認し、再試行

文書のアップロードと設定

大量の文書を効率的にアップロードする方法をご紹介します。

バッチアップロードの設定

python# Pythonスクリプトでの一括アップロード例
import os
import requests
from pathlib import Path

def batch_upload(directory_path, api_key):
    """指定ディレクトリ内のファイルを一括アップロード"""

    supported_extensions = ['.pdf', '.docx', '.txt', '.md']
    files = []

    # サポートされているファイルを収集
    for ext in supported_extensions:
        files.extend(Path(directory_path).glob(f"**/*{ext}"))

    for file_path in files:
        try:
            with open(file_path, 'rb') as f:
                files_data = {'file': f}
                response = requests.post(
                    'https://api.dify.ai/v1/files/upload',
                    files=files_data,
                    headers={'Authorization': f'Bearer {api_key}'}
                )

                if response.status_code == 200:
                    print(f"成功: {file_path}")
                else:
                    print(f"エラー: {file_path} - {response.status_code}")

        except Exception as e:
            print(f"例外: {file_path} - {str(e)}")

# 使用例
batch_upload('./documents', 'your-api-key-here')

メタデータの設定 アップロードした文書にメタデータを追加して、検索精度を向上させます。

yaml# メタデータ設定例
document_metadata:
  title: '営業マニュアル2024年版'
  category: 'sales'
  department: '営業部'
  tags: ['マニュアル', '営業', '2024']
  priority: 'high'
  author: '営業部長 佐藤'
  created_date: '2024-01-15'
  last_updated: '2024-03-20'
  version: '1.2'

検索設定の最適化

検索精度を向上させるための設定を行います。

インデックス設定

javascript// 検索インデックスの最適化設定
const searchConfig = {
  // 検索対象フィールド
  searchableFields: [
    'title',
    'content',
    'tags',
    'category',
    'author',
  ],

  // 重み付け設定
  fieldWeights: {
    title: 3.0,
    content: 1.0,
    tags: 2.0,
    category: 1.5,
    author: 0.5,
  },

  // 検索オプション
  searchOptions: {
    fuzzy: true, // あいまい検索
    prefix: true, // 前方一致
    maxResults: 20, // 最大結果数
    minScore: 0.3, // 最小スコア
  },
};

フィルタリング設定

javascript// 検索フィルターの設定例
const searchFilters = {
  // 部門別フィルター
  department: {
    sales: '営業部',
    engineering: '技術部',
    marketing: 'マーケティング部',
  },

  // カテゴリ別フィルター
  category: {
    manual: 'マニュアル',
    policy: 'ポリシー',
    report: 'レポート',
    faq: 'よくある質問',
  },

  // 日付範囲フィルター
  dateRange: {
    lastWeek: '過去1週間',
    lastMonth: '過去1ヶ月',
    lastYear: '過去1年',
    custom: 'カスタム',
  },
};

AI 検索機能の実装

プロンプトの設計

AI 検索の精度は、プロンプトの設計にかかっています。効果的なプロンプトを作成しましょう。

基本プロンプトテンプレート

javascript// 基本検索プロンプト
const basePrompt = `
あなたは社内ナレッジベースの専門アシスタントです。
以下の文書から、ユーザーの質問に対する最も適切な回答を提供してください。

文書情報:
{context}

ユーザーの質問: {question}

回答の際は以下の点に注意してください:
1. 文書の内容に基づいて回答する
2. 具体的で実用的な情報を提供する
3. 必要に応じて関連文書も参照する
4. 分かりやすい日本語で回答する

回答:
`;

// 専門分野別プロンプト
const specializedPrompts = {
  technical: `
技術的な質問に対する回答では、以下の点を重視してください:
- 具体的な手順やコード例を提供
- エラーの原因と解決策を明確に説明
- 関連する技術文書への参照を含める
`,

  business: `
ビジネス関連の質問では、以下の点を重視してください:
- データに基づく分析結果を提供
- 実践的な改善提案を含める
- リスクと機会の両面を考慮
`,

  support: `
サポート関連の質問では、以下の点を重視してください:
- 段階的な解決手順を提供
- よくある問題とその対処法を説明
- 必要に応じて担当部署への連絡方法も案内
`,
};

動的プロンプト生成

javascript// 質問内容に応じてプロンプトを動的に生成
const generateDynamicPrompt = (
  question,
  context,
  userRole
) => {
  let prompt = basePrompt;

  // 質問の種類を判定
  if (
    question.includes('エラー') ||
    question.includes('トラブル')
  ) {
    prompt += specializedPrompts.technical;
  } else if (
    question.includes('売上') ||
    question.includes('改善')
  ) {
    prompt += specializedPrompts.business;
  } else if (
    question.includes('やり方') ||
    question.includes('方法')
  ) {
    prompt += specializedPrompts.support;
  }

  // ユーザーロールに応じた調整
  if (userRole === 'manager') {
    prompt +=
      '\n\n管理職向けの視点で、戦略的な観点も含めて回答してください。';
  } else if (userRole === 'newcomer') {
    prompt +=
      '\n\n初心者にも分かりやすく、基礎から説明してください。';
  }

  return prompt;
};

検索精度の向上

検索精度を向上させるためのテクニックをご紹介します。

クエリ前処理

javascript// 検索クエリの前処理
const preprocessQuery = (query) => {
  // 1. 正規化
  let processedQuery = query.toLowerCase().trim();

  // 2. 同義語の展開
  const synonyms = {
    売上: ['売上', '収益', '売り上げ', '売上高'],
    エラー: ['エラー', 'エラ', 'エラ', 'トラブル', '問題'],
    マニュアル: [
      'マニュアル',
      '手順書',
      'ガイド',
      '説明書',
    ],
  };

  // 3. 同義語を展開
  for (const [key, values] of Object.entries(synonyms)) {
    if (processedQuery.includes(key)) {
      processedQuery += ' ' + values.join(' ');
    }
  }

  // 4. 不要な文字の除去
  processedQuery = processedQuery.replace(/[^\w\s]/g, ' ');

  // 5. 重複スペースの除去
  processedQuery = processedQuery.replace(/\s+/g, ' ');

  return processedQuery;
};

検索結果の後処理

javascript// 検索結果の後処理とランキング
const postprocessResults = (results, query) => {
  return results
    .map((result) => {
      let score = result.score;

      // タイトルマッチの重み付け
      if (
        result.title
          .toLowerCase()
          .includes(query.toLowerCase())
      ) {
        score *= 1.5;
      }

      // タグマッチの重み付け
      if (
        result.tags &&
        result.tags.some((tag) =>
          query.toLowerCase().includes(tag.toLowerCase())
        )
      ) {
        score *= 1.3;
      }

      // 更新日の重み付け（新しい文書を優先）
      const daysSinceUpdate =
        (Date.now() - new Date(result.lastUpdated)) /
        (1000 * 60 * 60 * 24);
      if (daysSinceUpdate < 30) {
        score *= 1.2;
      }

      return {
        ...result,
        adjustedScore: score,
      };
    })
    .sort((a, b) => b.adjustedScore - a.adjustedScore);
};

カスタマイズ設定

組織のニーズに合わせたカスタマイズを行います。

UI カスタマイズ

javascript// 検索インターフェースのカスタマイズ
const customSearchUI = {
  // 検索ボックスの設定
  searchBox: {
    placeholder: '社内文書を検索...',
    suggestions: true,
    autoComplete: true,
    maxSuggestions: 5,
  },

  // 検索結果の表示設定
  resultsDisplay: {
    showThumbnail: true,
    showSnippet: true,
    snippetLength: 200,
    showMetadata: true,
    showTags: true,
  },

  // フィルター設定
  filters: {
    showDepartmentFilter: true,
    showCategoryFilter: true,
    showDateFilter: true,
    showAuthorFilter: true,
  },
};

レスポンス形式のカスタマイズ

javascript// 回答形式のカスタマイズ
const responseFormats = {
  // 簡潔な回答
  concise: {
    maxLength: 200,
    includeSource: true,
    includeRelated: false,
  },

  // 詳細な回答
  detailed: {
    maxLength: 1000,
    includeSource: true,
    includeRelated: true,
    includeSteps: true,
  },

  // ステップバイステップ
  stepByStep: {
    format: 'numbered',
    includePrerequisites: true,
    includeWarnings: true,
    includeTips: true,
  },
};

運用と管理

ユーザー管理と権限設定

セキュリティを保ちながら、適切なアクセス制御を設定します。

ユーザーロールの定義

javascript// ユーザーロールと権限の定義
const userRoles = {
  admin: {
    permissions: [
      'read_all',
      'write_all',
      'delete_all',
      'manage_users',
      'manage_settings',
      'view_analytics',
    ],
    description: 'システム管理者',
  },

  manager: {
    permissions: [
      'read_all',
      'write_department',
      'delete_department',
      'manage_department_users',
      'view_department_analytics',
    ],
    description: '部門管理者',
  },

  editor: {
    permissions: [
      'read_all',
      'write_assigned',
      'edit_assigned',
    ],
    description: '編集者',
  },

  viewer: {
    permissions: ['read_assigned'],
    description: '閲覧者',
  },
};

権限チェック機能

javascript// 権限チェック機能
const checkPermission = (user, action, resource) => {
  const userRole = userRoles[user.role];

  if (!userRole) {
    return false;
  }

  // 基本的な権限チェック
  if (userRole.permissions.includes(action)) {
    return true;
  }

  // 部門別権限チェック
  if (
    action.includes('department') &&
    user.department === resource.department
  ) {
    return true;
  }

  // 担当者権限チェック
  if (
    action.includes('assigned') &&
    user.id === resource.assignedTo
  ) {
    return true;
  }

  return false;
};

// 使用例
const canEditDocument = (user, document) => {
  return checkPermission(user, 'write_assigned', document);
};

データの更新とメンテナンス

ナレッジベースを最新の状態に保つための運用方法をご紹介します。

自動更新スクリプト

python# 定期的なデータ更新スクリプト
import schedule
import time
import os
from datetime import datetime
import requests

def update_knowledge_base():
    """ナレッジベースの定期更新"""

    print(f"更新開始: {datetime.now()}")

    # 1. 新しいファイルの検出
    new_files = detect_new_files('./documents')

    # 2. 変更されたファイルの検出
    modified_files = detect_modified_files('./documents')

    # 3. 削除されたファイルの検出
    deleted_files = detect_deleted_files('./documents')

    # 4. 更新の実行
    for file_path in new_files:
        upload_file(file_path)
        print(f"新規アップロード: {file_path}")

    for file_path in modified_files:
        update_file(file_path)
        print(f"更新: {file_path}")

    for file_id in deleted_files:
        delete_file(file_id)
        print(f"削除: {file_id}")

    print(f"更新完了: {datetime.now()}")

# 毎日午前2時に実行
schedule.every().day.at("02:00").do(update_knowledge_base)

# スケジューラーの実行
while True:
    schedule.run_pending()
    time.sleep(60)

データ品質チェック

javascript// データ品質チェック機能
const dataQualityCheck = async () => {
  const issues = [];

  // 1. 重複ファイルのチェック
  const duplicates = await checkDuplicateFiles();
  if (duplicates.length > 0) {
    issues.push({
      type: 'duplicate',
      count: duplicates.length,
      files: duplicates,
    });
  }

  // 2. メタデータの不完全性チェック
  const incompleteMetadata =
    await checkIncompleteMetadata();
  if (incompleteMetadata.length > 0) {
    issues.push({
      type: 'incomplete_metadata',
      count: incompleteMetadata.length,
      files: incompleteMetadata,
    });
  }

  // 3. 古いファイルのチェック
  const oldFiles = await checkOldFiles();
  if (oldFiles.length > 0) {
    issues.push({
      type: 'old_files',
      count: oldFiles.length,
      files: oldFiles,
    });
  }

  return issues;
};

パフォーマンス監視

システムの健全性を監視し、最適化を行います。

パフォーマンスメトリクス

javascript// パフォーマンス監視の設定
const performanceMetrics = {
  // 検索パフォーマンス
  searchPerformance: {
    averageResponseTime: 0,
    maxResponseTime: 0,
    searchVolume: 0,
    successRate: 0,
  },

  // システムパフォーマンス
  systemPerformance: {
    cpuUsage: 0,
    memoryUsage: 0,
    diskUsage: 0,
    networkLatency: 0,
  },

  // ユーザー行動
  userBehavior: {
    popularSearches: [],
    searchPatterns: [],
    userSatisfaction: 0,
    bounceRate: 0,
  },
};

// メトリクス収集
const collectMetrics = async () => {
  const startTime = Date.now();

  try {
    // 検索テスト
    const searchResult = await performTestSearch();
    const responseTime = Date.now() - startTime;

    // メトリクス更新
    performanceMetrics.searchPerformance.averageResponseTime =
      (performanceMetrics.searchPerformance
        .averageResponseTime +
        responseTime) /
      2;

    performanceMetrics.searchPerformance.maxResponseTime =
      Math.max(
        performanceMetrics.searchPerformance
          .maxResponseTime,
        responseTime
      );

    performanceMetrics.searchPerformance.successRate =
      searchResult.success ? 1 : 0;
  } catch (error) {
    console.error('メトリクス収集エラー:', error);
  }
};

アラート設定

javascript// アラート設定
const alertSettings = {
  // レスポンス時間アラート
  responseTimeAlert: {
    threshold: 5000, // 5秒
    action: 'notify_admin',
  },

  // エラー率アラート
  errorRateAlert: {
    threshold: 0.05, // 5%
    action: 'notify_admin',
  },

  // ディスク使用量アラート
  diskUsageAlert: {
    threshold: 0.9, // 90%
    action: 'notify_admin',
  },
};

// アラートチェック
const checkAlerts = () => {
  const currentMetrics = performanceMetrics;

  // レスポンス時間チェック
  if (
    currentMetrics.searchPerformance.averageResponseTime >
    alertSettings.responseTimeAlert.threshold
  ) {
    sendAlert(
      'response_time',
      currentMetrics.searchPerformance.averageResponseTime
    );
  }

  // エラー率チェック
  if (
    currentMetrics.searchPerformance.successRate <
    1 - alertSettings.errorRateAlert.threshold
  ) {
    sendAlert(
      'error_rate',
      currentMetrics.searchPerformance.successRate
    );
  }
};