Haystack がインデックス化しない時の対処：文字コード・パーサ・チャンク失敗の切り分け

2025年12月22日

Haystack

Haystack がインデックス化しない時の対処：文字コード・パーサ・チャンク失敗の切り分け

Haystack を使って RAG システムを構築する際、ドキュメントがうまくインデックス化されず、頭を悩ませた経験はありませんか？エラーメッセージが出ないのに検索結果が返ってこない、あるいは一部のファイルだけが読み込めないといった問題は、開発者を最も困惑させるトラブルの一つです。

本記事では、Haystack のインデックス化が失敗する主な原因である「文字コード」「パーサ」「チャンク」の 3 つに焦点を当て、問題を効率的に切り分ける方法を解説します。デバッグ手順と具体的なコード例を通じて、トラブルシューティングのスキルを身につけていきましょう。

背景

Haystack とインデックス化の仕組み

Haystack は、Haystack AI が開発したオープンソースの NLP フレームワークです。大量のドキュメントから必要な情報を検索し、LLM と組み合わせることで質問応答システムを構築できます。その中核となるのが「インデックス化」のプロセスになります。

インデックス化とは、ドキュメントを読み込み、検索可能な形式に変換してデータベースに保存する一連の処理を指します。このプロセスは複数のステップで構成されており、各ステップで適切な処理が行われなければなりません。

以下の図は、Haystack におけるドキュメントのインデックス化フローを示しています。

mermaidflowchart TD
    doc["ドキュメントファイル"] -->|読み込み| converter["Converter<br/>文字コード検出"]
    converter -->|変換| parser["Parser<br/>テキスト抽出"]
    parser -->|パース| preprocessor["Preprocessor<br/>前処理"]
    preprocessor -->|整形| chunker["Chunker<br/>分割"]
    chunker -->|チャンク化| embedder["Embedder<br/>ベクトル化"]
    embedder -->|埋め込み| store[("Document Store<br/>保存")]

    converter -.->|失敗| error1["文字コードエラー"]
    parser -.->|失敗| error2["パーサエラー"]
    chunker -.->|失敗| error3["チャンクエラー"]

この図から分かるように、インデックス化は段階的な処理の連鎖です。どの段階で問題が発生しても、最終的なインデックス化は失敗してしまいます。

インデックス化の各ステップの役割

それぞれのステップには明確な役割があります。

Converter（コンバータ） は、ファイルを読み込み、適切な文字コードでテキストデータに変換します。PDF、DOCX、HTML など、様々なファイル形式に対応する必要があるでしょう。

Parser（パーサ） は、変換されたデータから実際のテキストコンテンツを抽出します。ファイル形式ごとに専用のパーサが使用されます。

Preprocessor（プリプロセッサ） は、抽出されたテキストをクリーニングし、不要な空白や特殊文字を除去します。この段階で、テキストの品質が大きく向上するのです。

Chunker（チャンカー） は、長いドキュメントを適切なサイズの断片（チャンク）に分割します。チャンクサイズは検索精度に直接影響を与えます。

Embedder（エンベッダー） は、各チャンクをベクトル表現に変換し、意味的な検索を可能にします。最後に Document Store がこれらの情報を永続化するのです。

課題

インデックス化が失敗する 3 つの主要原因

Haystack でインデックス化が失敗する原因は多岐にわたりますが、実務では以下の 3 つの問題が大部分を占めています。

文字コードの問題

日本語環境では特に深刻な問題となるのが文字コードです。ファイルが UTF-8 で保存されていると想定しているのに、実際は Shift-JIS や EUC-JP だった場合、文字化けや読み込みエラーが発生します。

エラーメッセージとしては以下のようなものが表示されることがあります。

pythonUnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 15: invalid start byte

このエラーコード UnicodeDecodeError は、文字コードの不一致を示す典型的なサインです。特に、レガシーシステムから移行したドキュメントや、Windows で作成されたファイルで頻発します。

パーサの問題

ファイル形式とパーサの不一致も、よくある問題です。例えば、PDF ファイルに対してテキストファイル用のパーサを使用すると、正しくコンテンツを抽出できません。

pythonTypeError: expected str, bytes or os.PathLike object, not NoneType

このエラーは、パーサがファイル形式を認識できなかったときに発生しがちです。また、パーサ自体のバグや依存ライブラリの問題により、特定のファイルだけが処理できないケースもあります。

チャンク失敗の問題

チャンクサイズが不適切だと、メモリエラーや検索精度の低下を招きます。大きすぎるチャンクはメモリを圧迫し、小さすぎるチャンクは文脈を失わせてしまうでしょう。

pythonValueError: Chunk size 5000 exceeds maximum allowed size of 2048

このエラーコード ValueError は、設定されたチャンクサイズが制限を超えていることを示しています。

以下の図は、これら 3 つの問題がどのように分類されるかを示しています。

mermaidflowchart LR
    index["インデックス化失敗"] --> cat1["入力段階"]
    index --> cat2["処理段階"]
    index --> cat3["分割段階"]

    cat1 --> prob1["文字コード問題<br/>UnicodeDecodeError"]
    cat2 --> prob2["パーサ問題<br/>TypeError, ParseError"]
    cat3 --> prob3["チャンク問題<br/>ValueError, MemoryError"]

    prob1 --> sol1["エンコード検出<br/>明示的指定"]
    prob2 --> sol2["パーサ選択<br/>ライブラリ更新"]
    prob3 --> sol3["サイズ調整<br/>戦略変更"]

問題を正しく分類することで、効率的なトラブルシューティングが可能になります。次のセクションでは、これらの問題を切り分ける具体的な方法を見ていきましょう。

解決策

切り分けの基本戦略

インデックス化の問題を解決するには、段階的な切り分けが最も効果的です。まず、問題がどの段階で発生しているかを特定し、その後で詳細な原因を調査します。

切り分けの基本的な流れは以下の通りです。

ログレベルを上げて詳細な情報を取得する
小規模なテストデータで再現を試みる
各ステップの出力を個別に確認する
問題を特定したら、そのステップに集中する

デバッグログを有効にすることで、多くの問題が可視化されます。以下のコードで Haystack のロギングを設定しましょう。

ロギング設定の基本

pythonimport logging

# Haystackのログレベルを設定
logging.basicConfig(
    format="%(levelname)s - %(name)s - %(message)s",
    level=logging.DEBUG
)

# Haystackコンポーネントのロガーを取得
logger = logging.getLogger("haystack")
logger.setLevel(logging.DEBUG)

このコードは、Haystack の全コンポーネントから詳細なログを出力するよう設定します。level=logging.DEBUG により、通常は表示されない内部処理の情報も確認できるようになるのです。

文字コード問題の切り分けと対処

文字コード問題を診断する最初のステップは、ファイルの実際のエンコーディングを確認することです。Python の chardet ライブラリを使用すると、ファイルのエンコーディングを自動検出できます。

文字コードの検出

pythonimport chardet

def detect_encoding(file_path):
    """ファイルの文字コードを検出する"""
    with open(file_path, 'rb') as f:
        # 最初の10000バイトを読み込んで判定
        raw_data = f.read(10000)
        result = chardet.detect(raw_data)

    return result

この関数は、ファイルの先頭部分を読み込み、文字コードを推測します。rb モードでファイルを開くことで、バイナリデータとして読み込み、エンコーディングに依存しない処理が可能になります。

検出結果の活用

python# ファイルのエンコーディングを検出
file_path = "document.txt"
encoding_info = detect_encoding(file_path)

print(f"Encoding: {encoding_info['encoding']}")
print(f"Confidence: {encoding_info['confidence']}")

# 検出された文字コードでファイルを読み込む
with open(file_path, 'r', encoding=encoding_info['encoding']) as f:
    content = f.read()

chardet は検出結果と信頼度を返します。信頼度が 0.8 以上であれば、その結果を信頼して良いでしょう。

Haystack での文字コード明示

Haystack のコンバータに対して、明示的にエンコーディングを指定することもできます。

pythonfrom haystack.components.converters import TextFileToDocument

# 文字コードを明示的に指定
converter = TextFileToDocument(
    encoding="shift-jis",  # Shift-JISを指定
    encoding_errors="replace"  # エラー時は置換文字を使用
)

# ドキュメントを変換
documents = converter.run(
    sources=["document.txt"]
)

encoding_errors="replace" を設定することで、デコードできない文字があっても処理を継続できます。"ignore" を使用すると、問題のある文字をスキップすることも可能です。

パーサ問題の切り分けと対処

パーサの問題を切り分けるには、まずファイル形式が正しく認識されているかを確認します。Haystack は拡張子でファイル形式を判断するため、拡張子とファイルの実際の内容が一致している必要があるでしょう。

ファイル形式の確認

pythonimport magic

def check_file_type(file_path):
    """ファイルの実際の形式を確認する"""
    # python-magicライブラリを使用
    mime = magic.Magic(mime=True)
    file_type = mime.from_file(file_path)

    return file_type

このコードは、ファイルの拡張子ではなく、実際の内容からファイル形式を判定します。拡張子が .txt でも、実際は PDF ファイルということがあるのです。

適切なパーサの選択

Haystack では、ファイル形式に応じて適切なコンバータを選択する必要があります。

pythonfrom haystack.components.converters import (
    TextFileToDocument,
    PDFToDocument,
    DOCXToDocument
)

def get_converter(file_path):
    """ファイル形式に応じたコンバータを返す"""
    file_type = check_file_type(file_path)

    # MIMEタイプに基づいてコンバータを選択
    if "pdf" in file_type:
        return PDFToDocument()
    elif "word" in file_type or "officedocument" in file_type:
        return DOCXToDocument()
    else:
        return TextFileToDocument()

ファイルの実際の形式に基づいてコンバータを動的に選択することで、パーサミスマッチを防げます。

PDF パーサの詳細設定

PDF ファイルは特に問題が起きやすいため、パーサの設定を調整することが重要です。

pythonfrom haystack.components.converters import PDFToDocument

# PDFコンバータの詳細設定
pdf_converter = PDFToDocument(
    converter_name="pypdf",  # パーサライブラリを指定
    # valid_languages=["ja"],  # 日本語を優先
)

# 変換を実行
try:
    documents = pdf_converter.run(
        sources=["document.pdf"]
    )
    print(f"成功: {len(documents['documents'])} ページを抽出")
except Exception as e:
    print(f"エラー: {type(e).__name__}: {str(e)}")

Haystack は複数の PDF パーサライブラリをサポートしており、pypdf、pdfminer、pdfplumber などから選択できます。ライブラリによって抽出精度が異なるため、ドキュメントに応じて最適なものを選びましょう。

チャンク問題の切り分けと対処

チャンクの問題は、主にサイズ設定と分割戦略に起因します。適切なチャンクサイズは、ドキュメントの特性と検索要件によって異なるのです。

チャンクサイズの基本設定

pythonfrom haystack.components.preprocessors import DocumentSplitter

# ドキュメント分割の基本設定
splitter = DocumentSplitter(
    split_by="word",  # 単語単位で分割
    split_length=200,  # 200語ごと
    split_overlap=20,  # 20語のオーバーラップ
)

この設定では、200 語ごとにドキュメントを分割し、隣接するチャンク間で 20 語を重複させます。オーバーラップを設けることで、チャンクの境界で文脈が失われるのを防げます。

動的なチャンクサイズ調整

ドキュメントの長さに応じて、チャンクサイズを動的に調整することも可能です。

pythondef create_adaptive_splitter(document_length):
    """ドキュメント長に応じた分割器を作成"""

    # 短いドキュメント（1000語未満）
    if document_length < 1000:
        return DocumentSplitter(
            split_by="word",
            split_length=100,
            split_overlap=10
        )
    # 中程度のドキュメント（1000-5000語）
    elif document_length < 5000:
        return DocumentSplitter(
            split_by="word",
            split_length=200,
            split_overlap=20
        )
    # 長いドキュメント（5000語以上）
    else:
        return DocumentSplitter(
            split_by="word",
            split_length=300,
            split_overlap=30
        )

ドキュメントの長さに応じて最適なチャンクサイズを選択することで、メモリ効率と検索精度のバランスを取れます。

チャンク失敗時のエラーハンドリング

pythonfrom haystack.components.preprocessors import DocumentSplitter

def safe_split_documents(documents, max_chunk_size=2048):
    """安全にドキュメントを分割する"""

    splitter = DocumentSplitter(
        split_by="word",
        split_length=200,
        split_overlap=20
    )

    split_docs = []

    for doc in documents:
        try:
            # 分割を試みる
            result = splitter.run(documents=[doc])
            split_docs.extend(result['documents'])

        except ValueError as e:
            # チャンクサイズエラーの場合
            print(f"ValueError発生: {str(e)}")
            print(f"ドキュメント長: {len(doc.content)} 文字")

            # より小さいサイズで再試行
            smaller_splitter = DocumentSplitter(
                split_by="word",
                split_length=100,
                split_overlap=10
            )
            result = smaller_splitter.run(documents=[doc])
            split_docs.extend(result['documents'])

    return split_docs

このコードは、チャンク化に失敗した場合、自動的により小さいチャンクサイズで再試行します。エラーを適切にハンドリングすることで、一部のドキュメントの問題が全体の処理を止めることを防げるのです。

具体例

ケース 1: 文字コード問題の診断と解決

実際のプロジェクトで発生した文字コード問題を見てみましょう。あるお客様から提供された日本語のテキストファイルが、インデックス化時にエラーを起こしていました。

発生したエラー

textUnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 15: invalid start byte
Traceback (most recent call last):
  File "indexing.py", line 23, in <module>
    documents = converter.run(sources=["customer_data.txt"])

エラーコード UnicodeDecodeError から、文字コードの問題であることが分かります。バイト 0x82 は Shift-JIS でよく見られる文字コードです。

問題の切り分け手順

まず、ファイルの実際のエンコーディングを確認します。

pythonimport chardet

# ステップ1: ファイルのエンコーディングを検出
with open("customer_data.txt", 'rb') as f:
    raw_data = f.read()
    result = chardet.detect(raw_data)

print(f"検出されたエンコーディング: {result['encoding']}")
print(f"信頼度: {result['confidence']}")

実行結果は以下の通りでした。

text検出されたエンコーディング: SHIFT_JIS
信頼度: 0.99

予想通り、ファイルは Shift-JIS でエンコードされていました。

解決方法の実装

検出されたエンコーディングを使用して、正しく読み込むように修正します。

pythonfrom haystack.components.converters import TextFileToDocument

# ステップ2: 正しいエンコーディングを指定
converter = TextFileToDocument(
    encoding="shift-jis",
    encoding_errors="replace"
)

# ステップ3: 変換を実行
documents = converter.run(
    sources=["customer_data.txt"]
)

print(f"成功: {len(documents['documents'])} ドキュメントを読み込み")

この修正により、エラーなくドキュメントを読み込めるようになりました。

予防策の実装

今後同様の問題を防ぐため、自動検出機能を実装します。

pythonimport chardet
from haystack.components.converters import TextFileToDocument

def auto_detect_converter(file_path):
    """エンコーディングを自動検出してコンバータを作成"""

    # エンコーディング検出
    with open(file_path, 'rb') as f:
        raw_data = f.read(10000)
        result = chardet.detect(raw_data)

    detected_encoding = result['encoding']
    confidence = result['confidence']

    print(f"検出: {detected_encoding} (信頼度: {confidence:.2f})")

    # 信頼度が低い場合はUTF-8をデフォルトに
    if confidence < 0.7:
        detected_encoding = 'utf-8'
        print("信頼度が低いため、UTF-8を使用します")

    return TextFileToDocument(
        encoding=detected_encoding,
        encoding_errors="replace"
    )

この関数を使用することで、様々なエンコーディングのファイルに自動的に対応できます。

ケース 2: PDF パーサの選択ミス

次は、PDF ファイルのパース問題です。技術文書の PDF をインデックス化しようとしたところ、一部のページだけがテキスト抽出できない問題が発生しました。

発生したエラー

textTypeError: expected str, bytes or os.PathLike object, not NoneType
File "indexing.py", line 45, in process_pdf
    content = parser.extract_text()

エラーコード TypeError が示すように、パーサが None を返しており、テキスト抽出に失敗しています。

問題の切り分け手順

異なる PDF パーサライブラリを試してみます。

pythonfrom haystack.components.converters import PDFToDocument

# ステップ1: pypdfライブラリで試行
print("pypdfで試行中...")
converter_pypdf = PDFToDocument(converter_name="pypdf")

try:
    result = converter_pypdf.run(sources=["technical_doc.pdf"])
    print(f"pypdf: 成功 - {len(result['documents'])} ページ")
except Exception as e:
    print(f"pypdf: 失敗 - {type(e).__name__}: {str(e)}")

pypdf では一部のページが抽出できませんでした。次に pdfminer を試します。

python# ステップ2: pdfminerライブラリで試行
print("\npdfminerで試行中...")
converter_pdfminer = PDFToDocument(converter_name="pdfminer")

try:
    result = converter_pdfminer.run(sources=["technical_doc.pdf"])
    print(f"pdfminer: 成功 - {len(result['documents'])} ページ")

    # 各ページの文字数を確認
    for i, doc in enumerate(result['documents']):
        char_count = len(doc.content)
        print(f"  ページ {i+1}: {char_count} 文字")

except Exception as e:
    print(f"pdfminer: 失敗 - {type(e).__name__}: {str(e)}")

pdfminer を使用することで、すべてのページからテキストを抽出できました。

解決方法：複数パーサのフォールバック

より堅牢な解決策として、複数のパーサを順番に試すフォールバック機能を実装します。

pythonfrom haystack.components.converters import PDFToDocument

def robust_pdf_conversion(file_path):
    """複数のパーサを試してPDFを変換"""

    # 試行するパーサのリスト
    parsers = ["pdfminer", "pypdf", "pdfplumber"]

    for parser_name in parsers:
        try:
            print(f"{parser_name}で変換を試行中...")

            converter = PDFToDocument(
                converter_name=parser_name
            )

            result = converter.run(sources=[file_path])
            documents = result['documents']

            # 成功した場合、最小限のテキストが抽出されているか確認
            total_chars = sum(len(doc.content) for doc in documents)

            if total_chars > 100:  # 最低100文字以上
                print(f"成功: {parser_name}で{total_chars}文字を抽出")
                return documents
            else:
                print(f"{parser_name}: 抽出量が少ないため次を試行")

        except Exception as e:
            print(f"{parser_name}でエラー: {type(e).__name__}")
            continue

    # すべて失敗した場合
    raise ValueError(f"すべてのパーサで変換に失敗: {file_path}")

このコードは、複数のパーサを順番に試し、最初に成功したものを使用します。

検証とログ出力

python# 実際の使用例
pdf_path = "technical_doc.pdf"

try:
    documents = robust_pdf_conversion(pdf_path)

    # 結果の詳細を出力
    print(f"\n=== 変換結果 ===")
    print(f"総ページ数: {len(documents)}")
    print(f"総文字数: {sum(len(d.content) for d in documents)}")

    # 各ページのプレビュー
    for i, doc in enumerate(documents[:3]):  # 最初の3ページのみ
        preview = doc.content[:100].replace('\n', ' ')
        print(f"ページ{i+1}プレビュー: {preview}...")

except ValueError as e:
    print(f"変換失敗: {str(e)}")

この方法により、様々な PDF 形式に対して高い成功率を実現できます。

ケース 3: チャンクサイズの最適化

最後は、チャンクサイズの問題です。大量の学術論文をインデックス化する際、メモリエラーと検索精度の低下に悩まされました。

発生したエラー

textValueError: Chunk size 5000 exceeds maximum allowed size of 2048
MemoryError: Unable to allocate array with shape (10000, 768)

File "indexing.py", line 67, in embed_documents
    embeddings = embedder.run(documents=chunks)

エラーコード ValueError と MemoryError が示すように、チャンクサイズが大きすぎることと、それに伴うメモリ不足が発生しています。

問題の切り分け手順

まず、現在のチャンクサイズの分布を確認します。

pythonfrom haystack.components.preprocessors import DocumentSplitter

# ステップ1: 現状のチャンクサイズを確認
def analyze_chunk_sizes(documents):
    """チャンクサイズの分布を分析"""

    splitter = DocumentSplitter(
        split_by="word",
        split_length=500,  # 現在の設定
        split_overlap=50
    )

    result = splitter.run(documents=documents)
    chunks = result['documents']

    # サイズ分布を計算
    sizes = [len(chunk.content) for chunk in chunks]

    print(f"チャンク数: {len(chunks)}")
    print(f"平均文字数: {sum(sizes) / len(sizes):.0f}")
    print(f"最小文字数: {min(sizes)}")
    print(f"最大文字数: {max(sizes)}")

    return chunks, sizes

実行した結果、一部のチャンクが 4000 文字を超えていることが判明しました。

解決方法：適応的チャンク戦略

ドキュメントの特性に応じて、チャンクサイズを動的に調整します。

pythonfrom haystack.components.preprocessors import DocumentSplitter

def adaptive_chunking(documents, max_chunk_chars=2000):
    """適応的なチャンク分割"""

    all_chunks = []

    for doc in documents:
        doc_length = len(doc.content)

        # ドキュメント長に応じてチャンクサイズを決定
        if doc_length < 1000:
            # 短いドキュメント: 分割しない
            all_chunks.append(doc)
            print(f"短文書: 分割なし ({doc_length}文字)")

        elif doc_length < 5000:
            # 中程度: 小さめのチャンク
            splitter = DocumentSplitter(
                split_by="word",
                split_length=150,
                split_overlap=15
            )
            result = splitter.run(documents=[doc])
            all_chunks.extend(result['documents'])
            print(f"中文書: 150語チャンク ({len(result['documents'])}個)")

        else:
            # 長いドキュメント: 段落単位で分割
            splitter = DocumentSplitter(
                split_by="passage",
                split_length=200,
                split_overlap=20
            )
            result = splitter.run(documents=[doc])
            all_chunks.extend(result['documents'])
            print(f"長文書: 段落チャンク ({len(result['documents'])}個)")

    return all_chunks

この戦略により、ドキュメントごとに最適なチャンクサイズが適用されます。

メモリ効率的な処理

大量のドキュメントを処理する際は、バッチ処理を導入します。

pythondef batch_process_documents(documents, batch_size=100):
    """バッチ処理でメモリ効率を改善"""

    all_chunks = []
    total_docs = len(documents)

    # バッチごとに処理
    for i in range(0, total_docs, batch_size):
        batch = documents[i:i + batch_size]

        print(f"\nバッチ {i//batch_size + 1}/{(total_docs-1)//batch_size + 1}")
        print(f"処理中: {len(batch)} ドキュメント")

        # このバッチをチャンク化
        batch_chunks = adaptive_chunking(batch)
        all_chunks.extend(batch_chunks)

        # メモリ使用量を表示
        import psutil
        process = psutil.Process()
        memory_mb = process.memory_info().rss / 1024 / 1024
        print(f"メモリ使用量: {memory_mb:.1f} MB")

    return all_chunks

バッチサイズを調整することで、利用可能なメモリに応じた処理が可能になります。

最終検証

python# 最適化されたチャンク処理の実行
from haystack import Document

# サンプルドキュメントを作成
sample_docs = [
    Document(content="短い文書" * 50),  # 短い
    Document(content="中程度の文書。" * 200),  # 中程度
    Document(content="長い学術論文。" * 1000),  # 長い
]

# 処理を実行
optimized_chunks = batch_process_documents(
    sample_docs,
    batch_size=100
)

# 結果の検証
print(f"\n=== 最終結果 ===")
print(f"総チャンク数: {len(optimized_chunks)}")

chunk_sizes = [len(c.content) for c in optimized_chunks]
print(f"平均サイズ: {sum(chunk_sizes)/len(chunk_sizes):.0f} 文字")
print(f"最大サイズ: {max(chunk_sizes)} 文字")
print(f"最小サイズ: {min(chunk_sizes)} 文字")

# すべてのチャンクが制限内か確認
max_allowed = 2048
oversized = [s for s in chunk_sizes if s > max_allowed]
if oversized:
    print(f"警告: {len(oversized)}個のチャンクが制限超過")
else:
    print("すべてのチャンクが制限内です")