チュートリアル

簡単にライブラリーを使用するためのチュートリアルコレクション

チュートリアル»Python»Spire.PDF for Python»変換»Python を使用して PDF を HTML に変換する
2026-04-02

Python を使用して PDF を HTML に変換する

Convert PDF to HTML

PDF コンテンツを Web 上で利用可能にすることで、使いやすさ、検索性、およびデバイス間の互換性が向上します。PDF ビューアの開発、ドキュメントワークフローの自動化、またはオンラインでのコンテンツ再公開など、どのような用途であっても、Python を使用してPDFを HTML に変換することで、ユーザー体験を大幅に改善できます。

この包括的なガイドでは、Python を使用して PDF を HTML に変換する方法を解説します。基本的な変換から高度なカスタマイズ、ストリームベースの出力までを網羅しており、各セクションにはすぐに使える実用的で分かりやすいコードスニペットが含まれています。

目次

なぜ PDF を HTML としてエクスポートするのか?

HTML(HyperText Markup Language)は、Webコンテンツの基盤です。PDF を HTML に変換することで、オンライン上でドキュメント内容の閲覧、編集、インデックス化がシームレスに行えるようになります。主な利点は以下の通りです:

  • Webアクセシビリティの向上 :HTML はすべてのブラウザでネイティブに表示されます。
  • 検索エンジン最適化(SEO) :検索エンジンは PDF よりも HTML コンテンツをより効率的にインデックス化できます。
  • レスポンシブレイアウト :HTML はさまざまな画面サイズに適応します。
  • インタラクティブ性の向上 :HTML ではスタイルやスクリプトの適用が可能で、ユーザーとのインタラクションが向上します。
  • プラグイン不要の閲覧 :サードパーティ製の PDF ビューアは不要です。

Python 用 PDF→HTML 変換ライブラリのインストール

Python を使用して PDF を HTML に変換するには、PDF 処理と HTML 出力をサポートする信頼性の高いライブラリが必要です。本チュートリアルでは、Spire.PDF for Python を使用します。これは高性能な PDF ライブラリで、PDF ファイルの読み取り、編集、および HTML を含むさまざまな形式への変換を簡単に行えます。

インストール方法

このライブラリは pip を使用して簡単にインストールできます。ターミナルを開き、次のコマンドを実行してください:

pip install Spire.PDF

これにより、パッケージの最新バージョンとその依存関係がダウンロードおよびインストールされます。

インストールに関する詳細はこちらをご参照ください:Windows で Spire.PDF for Python をインストールする方法

Python での基本的な PDF→HTML 変換

Spire.PDF を使用すると、SaveToFile() メソッドを使って PDF ドキュメント全体を簡単に HTML としてエクスポートできます。

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument オブジェクトを初期化
doc = PdfDocument()

# PDF ファイルを読み込む
doc.LoadFromFile("Sample.pdf")

# HTML として変換・保存
doc.SaveToFile("PdfToHtml.html", FileFormat.HTML)

# ドキュメントを閉じる
doc.Close()

この方法では、元の PDF のレイアウトと構造を保持した単一の HTML ファイルが生成されます。

以下のスクリーンショットは、入力 PDF と出力 HTML ファイルを示しています:

Convert PDF to HTML in Python

HTML 出力のカスタマイズ

変換プロセスをより細かく制御したい場合は、SetPdfToHtmlOptions() メソッドを使用して HTML 出力を調整できます。

以下のパラメータを使用して、画像の埋め込み、ページ分割、SVG 品質など、さまざまな変換設定をカスタマイズできます:

パラメータ 説明
useEmbeddedSvg bool True の場合、ベクターコンテンツに SVG を埋め込みます。
useEmbeddedImg bool True の場合、画像を埋め込みます(useEmbeddedSvg が False の場合のみ有効)。
maxPageOneFile bool HTML 出力を1ファイル1ページに制限します(SVG 未使用時)。
useHighQualityEmbeddedSvg bool 高解像度 SVG を有効にします(useEmbeddedSvg が True の場合のみ)。

サンプルコード

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument オブジェクトを初期化
doc = PdfDocument()
# PDF ファイルを読み込む
doc.LoadFromFile("Sample.pdf")

# 変換設定にアクセス
options = doc.ConvertOptions

# カスタマイズ:画像を埋め込み、1ページごとに出力
options.SetPdfToHtmlOptions(False, True, 1, False)

# カスタム設定で HTML として保存
doc.SaveToFile("PdfToHtmlWithOptions.html", FileFormat.HTML)
# ドキュメントを閉じる
doc.Close()

この設定では SVG を無効化し、代わりに画像を埋め込み、各ページを個別の HTML ファイルとして出力します。

PDF を HTML ストリームとして保存

Web アプリケーションやクラウドベースのアプリでは、HTML 出力をファイルシステムに直接保存する代わりに、ストリーム(例:HTTP 経由で配信)へ書き込む方が適している場合があります。これは SaveToStream() メソッドで実現できます。

サンプルコード

from spire.pdf.common import *
from spire.pdf import *

# PdfDocument オブジェクトを初期化
doc = PdfDocument()
# PDF ファイルを読み込む
doc.LoadFromFile("Sample.pdf")

# HTML 出力用のストリームを作成
fileStream = Stream("PdfToHtmlStream.html")

# ストリームとして HTML に保存
doc.SaveToStream(fileStream, FileFormat.HTML)

# ストリームとドキュメントを閉じる
fileStream.Close()
doc.Close()

この方法は、Web サーバー、API、またはメモリ上やネットワーク経由でファイルを動的に扱うアプリケーションに最適です。

まとめ

Python を使用して PDF を HTML に変換することは、ドキュメントを Web 対応にし、よりインタラクティブにするための効果的な方法です。Spire.PDF for Python を使用すれば、シンプルな変換から、画像や SVG の埋め込み、ストリーム出力といった高度な設定まで、変換プロセスを完全に制御できます。

PDF をインタラクティブな Web コンテンツに変換する準備はできましたか?ぜひ Spire.PDF for Python を試して、ドキュメントから HTML へのワークフローを効率化しましょう。

よくある質問

Q1:パスワード保護された PDF を HTML に変換できますか?

はい、Spire.PDFでは doc.LoadFromFile("file.pdf", "password") を使用して暗号化されたPDFを開くことができます。

Q2:この方法は複数ページの PDF に対応していますか?

はい。デフォルトではすべてのページが変換されます。maxPageOneFile パラメータを使用して、1つの HTML ファイルに含めるページ数を制御できます。

Q3:HTML 出力で画像やフォントは保持されますか?

はい。変換設定(画像や SVG の埋め込みなど)に応じて、できる限り元の見た目が保持されます。

一時ライセンスを申請する

評価メッセージの削除や機能制限の解除をご希望の場合は、営業担当者までお問い合わせのうえ、30日間有効な一時ライセンスを取得してください。

Read 13 times