Dify + MinerU：ドキュメント解析とフォーマット変換の実装

大規模言語モデル（LLM）に基づくアプリケーションを構築する際、ドキュメント解析は多くの場合、最初のハードルとなり、最終的な成果を左右する重要な要素となります。RAG（検索拡張生成）システムであれ、自動化されたワークフローであれ、高品質なテキスト抽出は不可欠です。

今回は、強力なドキュメント解析ツールである MinerU を紹介し、Dify 内で統合して使用する方法をステップバイステップで解説します。

MinerU とは？

MinerU は、OpenDataLab によって立ち上げられた、インテリジェントでオープンソースのドキュメントデータ抽出ツールです。画像、数式、表などの混合コンテンツを含む PDF ファイルや Web ページを、Markdown などの機械に適した形式に正確に変換することに特化しており、複雑なドキュメント解析の課題を解決します。

その主な利点は以下の通りです：

高精度な解析：テキストを抽出するだけでなく、ドキュメントの構造情報も保持します。
多形式サポート：PDF、電子書籍、画像の処理において優れた能力を発揮します。
オープンソース・フレンドリー：オープンソースモデルを提供し、セルフホスト型のデプロイメントをサポートすることで、データセキュリティを確保します。

Dify での MinerU プラグインの使用

Dify のプラグインエコシステムは現在非常に充実しており、公式の MinerU プラグインも利用可能です。開発者はワークフロー内でその強力な解析機能を簡単に活用できます。

1. プラグインマーケットからのインストール

まず、Dify のプラグインマーケットで「MinerU」を検索すると、このプラグインが見つかります。

MinerU Dify Plugin

2. ツールの統合

インストールが完了すると、Dify のツール（Tools）タブで確認できます。

MinerU Dify Tools

3. プラグインの設定

MinerU プラグインを使用する前に、簡単な設定が必要です。

MinerU Config

設定ガイド：2つの統合方法

Dify で MinerU を実行するには、主に2つの設定方法があり、SaaS ユーザーおよびデータを完全に管理したいエンタープライズユーザーに適しています。

方法1：公式 API Key を使用する（迅速な体験に推奨）

これは最もシンプルで手早い方法であり、ほとんどのユーザーに適しています。

MinerU 公式サイトの Token 管理ページにアクセスします：https://mineru.net/apiManage/token
登録/ログイン後、新しい API Key を作成します。
Dify の MinerU プラグイン設定ページに戻り、申請した Key を入力します。

方法2：セルフホスト・デプロイメント（オープンソースソリューション）

データのプライバシー要件がある企業ユーザーや、大規模な処理が必要な場合は、Docker またはソースコードを使用して MinerU サービスを自分でデプロイすることを選択できます。

プロジェクト URL：https://github.com/opendatalab/MinerU

GitHub リポジトリのデプロイメントドキュメントを参照して、サービスを開始できます。デプロイ後、Dify プラグイン設定で自構築サービスの Base URL を入力すれば、呼び出すことができます。

ローカルデプロイメントガイド

MinerU の強力な機能をローカルで体験したい場合は、以下の手順に従ってください。

注意：MinerU には特定のハードウェアおよびソフトウェア要件があります。Linux / Windows / macOS システムで Python 3.10-3.13 を推奨します。GPU アクセラレーションには Volta アーキテクチャ以降の GPU、または Apple Silicon が必要で、最低 6GB の VRAM が必要です。

方法1：pip または uv を使用してインストール

pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

方法2：ソースコードからインストール

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

ヒント：mineru[all] にはすべてのコア機能が含まれており、Windows / Linux / macOS システムと互換性があり、ほとんどのユーザーに適しています。VLM モデル用の推論フレームワークを指定する必要がある場合、またはエッジデバイスに軽量クライアントのみをインストールする場合は、拡張モジュールインストールガイドを参照してください。

方法3：Docker を使用してデプロイ

MinerU は便利な Docker デプロイメント方法を提供しており、環境を素早くセットアップし、厄介な互換性の問題を解決するのに役立ちます。詳細は Docker デプロイメント手順を参照してください。

基本的な使用方法

インストール完了後、デバイスが GPU アクセラレーション要件を満たしている場合、簡単なコマンドラインでドキュメント解析を行えます：

mineru -p <input_path> -o <output_path>

GPU をサポートしていない場合、バックエンドとして pipeline を指定することで、純粋な CPU 環境で実行できます：

mineru -p <input_path> -o <output_path> -b pipeline

より高度な使用方法、WebUI オプション、詳細な設定については、MinerU 公式 GitHub リポジトリを参照してください。

実践的なユースケース：複雑なフォームの解析

MinerU を統合した後、Dify ワークフローで何ができるでしょうか？非常に典型的なシナリオは、複雑なフォームの構造化抽出です。

発注書、医療領収書、財務諸表などのスキャンコピーや PDF が山積みになっていると想像してください。これらを直接 LLM に投げても、フォーマットが乱れているために認識エラーが発生することがよくあります。

Dify ワークフロー（Workflow）では、次のように編成できます：

ファイルアップロード：ユーザーは処理が必要な PDF ファイルをアップロードします。
MinerU 解析：MinerU ツールを呼び出して、PDF を明確な Markdown 構造を持つテキストに変換します。このステップにより、表や階層関係が見事に復元されます。
LLM 抽出：解析された Markdown コンテンツを LLM に渡し、スキーマに基づいて主要なフィールド（注文番号、金額、日付など）を抽出させます。

「Dify + MinerU」の組み合わせにより、これまで頭痛の種だった非構造化ドキュメントの処理が、瞬時にスムーズで効率的なものになります。ぜひ Dify プラグインマーケットで体験してみてください！

Dify + MinerU：ドキュメント解析とフォーマット変換の実装

Table of Contents