チュートリアル

簡単にライブラリーを使用するためのチュートリアルコレクション

2026-04-02

Python を使用して PDF を HTML に変換する

Convert PDF to HTML

PDF コンテンツを Web 上で利用可能にすることで、使いやすさ、検索性、およびデバイス間の互換性が向上します。PDF ビューアの開発、ドキュメントワークフローの自動化、またはオンラインでのコンテンツ再公開など、どのような用途であっても、Python を使用してPDFを HTML に変換することで、ユーザー体験を大幅に改善できます。

この包括的なガイドでは、Python を使用して PDF を HTML に変換する方法を解説します。基本的な変換から高度なカスタマイズ、ストリームベースの出力までを網羅しており、各セクションにはすぐに使える実用的で分かりやすいコードスニペットが含まれています。

なぜ PDF を HTML としてエクスポートするのか？
Python 用 PDF→HTML 変換ライブラリのインストール
Python での基本的な PDF→HTML 変換
HTML 出力のカスタマイズ
PDF を HTML ストリームとして保存
まとめ
よくある質問

なぜ PDF を HTML としてエクスポートするのか？

HTML（HyperText Markup Language）は、Webコンテンツの基盤です。PDF を HTML に変換することで、オンライン上でドキュメント内容の閲覧、編集、インデックス化がシームレスに行えるようになります。主な利点は以下の通りです：

Webアクセシビリティの向上 ：HTML はすべてのブラウザでネイティブに表示されます。
検索エンジン最適化（SEO） ：検索エンジンは PDF よりも HTML コンテンツをより効率的にインデックス化できます。
レスポンシブレイアウト ：HTML はさまざまな画面サイズに適応します。
インタラクティブ性の向上 ：HTML ではスタイルやスクリプトの適用が可能で、ユーザーとのインタラクションが向上します。
プラグイン不要の閲覧 ：サードパーティ製の PDF ビューアは不要です。

Python 用 PDF→HTML 変換ライブラリのインストール

Python を使用して PDF を HTML に変換するには、PDF 処理と HTML 出力をサポートする信頼性の高いライブラリが必要です。本チュートリアルでは、Spire.PDF for Python を使用します。これは高性能な PDF ライブラリで、PDF ファイルの読み取り、編集、および HTML を含むさまざまな形式への変換を簡単に行えます。

インストール方法

このライブラリは pip を使用して簡単にインストールできます。ターミナルを開き、次のコマンドを実行してください：

pip install Spire.PDF

これにより、パッケージの最新バージョンとその依存関係がダウンロードおよびインストールされます。

インストールに関する詳細はこちらをご参照ください：Windows で Spire.PDF for Python をインストールする方法

Python での基本的な PDF→HTML 変換

Spire.PDF を使用すると、SaveToFile() メソッドを使って PDF ドキュメント全体を簡単に HTML としてエクスポートできます。

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument オブジェクトを初期化
doc = PdfDocument()

# PDF ファイルを読み込む
doc.LoadFromFile("Sample.pdf")

# HTML として変換・保存
doc.SaveToFile("PdfToHtml.html", FileFormat.HTML)

# ドキュメントを閉じる
doc.Close()

この方法では、元の PDF のレイアウトと構造を保持した単一の HTML ファイルが生成されます。

以下のスクリーンショットは、入力 PDF と出力 HTML ファイルを示しています：

Convert PDF to HTML in Python

HTML 出力のカスタマイズ

変換プロセスをより細かく制御したい場合は、SetPdfToHtmlOptions() メソッドを使用して HTML 出力を調整できます。

以下のパラメータを使用して、画像の埋め込み、ページ分割、SVG 品質など、さまざまな変換設定をカスタマイズできます：

パラメータ	型	説明
useEmbeddedSvg	bool	True の場合、ベクターコンテンツに SVG を埋め込みます。
useEmbeddedImg	bool	True の場合、画像を埋め込みます（useEmbeddedSvg が False の場合のみ有効）。
maxPageOneFile	bool	HTML 出力を1ファイル1ページに制限します（SVG 未使用時）。
useHighQualityEmbeddedSvg	bool	高解像度 SVG を有効にします（useEmbeddedSvg が True の場合のみ）。

サンプルコード

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument オブジェクトを初期化
doc = PdfDocument()
# PDF ファイルを読み込む
doc.LoadFromFile("Sample.pdf")

# 変換設定にアクセス
options = doc.ConvertOptions

# カスタマイズ：画像を埋め込み、1ページごとに出力
options.SetPdfToHtmlOptions(False, True, 1, False)

# カスタム設定で HTML として保存
doc.SaveToFile("PdfToHtmlWithOptions.html", FileFormat.HTML)
# ドキュメントを閉じる
doc.Close()

この設定では SVG を無効化し、代わりに画像を埋め込み、各ページを個別の HTML ファイルとして出力します。

PDF を HTML ストリームとして保存

Web アプリケーションやクラウドベースのアプリでは、HTML 出力をファイルシステムに直接保存する代わりに、ストリーム（例：HTTP 経由で配信）へ書き込む方が適している場合があります。これは SaveToStream() メソッドで実現できます。

サンプルコード

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument オブジェクトを初期化
doc = PdfDocument()
# PDF ファイルを読み込む
doc.LoadFromFile("Sample.pdf")

# HTML 出力用のストリームを作成
fileStream = Stream("PdfToHtmlStream.html")

# ストリームとして HTML に保存
doc.SaveToStream(fileStream, FileFormat.HTML)

# ストリームとドキュメントを閉じる
fileStream.Close()
doc.Close()

この方法は、Web サーバー、API、またはメモリ上やネットワーク経由でファイルを動的に扱うアプリケーションに最適です。

まとめ

Python を使用して PDF を HTML に変換することは、ドキュメントを Web 対応にし、よりインタラクティブにするための効果的な方法です。Spire.PDF for Python を使用すれば、シンプルな変換から、画像や SVG の埋め込み、ストリーム出力といった高度な設定まで、変換プロセスを完全に制御できます。

PDF をインタラクティブな Web コンテンツに変換する準備はできましたか？ぜひ Spire.PDF for Python を試して、ドキュメントから HTML へのワークフローを効率化しましょう。

よくある質問

Q1：パスワード保護された PDF を HTML に変換できますか？

はい、Spire.PDFでは doc.LoadFromFile("file.pdf", "password") を使用して暗号化されたPDFを開くことができます。

Q2：この方法は複数ページの PDF に対応していますか？

はい。デフォルトではすべてのページが変換されます。maxPageOneFile パラメータを使用して、1つの HTML ファイルに含めるページ数を制御できます。

Q3：HTML 出力で画像やフォントは保持されますか？

はい。変換設定（画像や SVG の埋め込みなど）に応じて、できる限り元の見た目が保持されます。

一時ライセンスを申請する

評価メッセージの削除や機能制限の解除をご希望の場合は、営業担当者までお問い合わせのうえ、30日間有効な一時ライセンスを取得してください。

.NET ライブラリー

無料製品

Java ライブラリー

無料製品

Python ライブラリー

無料製品

Android ライブラリー

無料製品

Python を使用して PDF を HTML に変換する

なぜ PDF を HTML としてエクスポートするのか？

Python 用 PDF→HTML 変換ライブラリのインストール

Python での基本的な PDF→HTML 変換

HTML 出力のカスタマイズ

PDF を HTML ストリームとして保存

まとめ

よくある質問

一時ライセンスを申請する

関連する記事