Word 文書を HTML に変換することで、コンテンツをオンラインで簡単に共有・公開できます。また、HTML は検索エンジンに優しい形式であるため、検索エンジンがコンテンツをより効果的にインデックス化し、検索結果での可視性を向上させることができます。本記事では、Spire.Doc for Python を使用して、Word 文書をプログラムで HTML に変換する方法を解説します。
Spire.Doc for Python のインストール
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
Python で Doc/Docx を HTML に変換する
Spire.Doc for Python は、Document.SaveToFile(fileName string, FileFormat.Html) メソッドを提供しており、Word 文書(doc/docx 形式)を HTML ファイルとして簡単に保存できます。以下に、詳細な手順を示します。
- Document オブジェクトを作成します。
- Document.LoadFromFile() メソッドを使用して Word 文書を読み込みます。
- Document.SaveToFile() メソッドを使用して文書を HTML ファイルとして保存します。
- Python
from spire.doc import Document, FileFormat
# Documentクラスのインスタンスを作成します
doc = Document()
# Word文書を読み込みます
doc.LoadFromFile("Sample.docx")
# 文書をHTML形式で保存します
doc.SaveToFile("output/WordToHTML.html", FileFormat.Html)
doc.Close()
Word から HTML への書き出しオプションを設定する
Spire.Doc for Python は、変換時にエクスポートオプションを設定できる HtmlExportOptions クラスも提供しています。これにより、CSS スタイルや画像の埋め込み、フォームフィールドをプレーンテキストとしてエクスポートするかどうかなどを設定できます。以下は、HtmlExportOptions クラスを通して設定できるエクスポート・オプションの表です。
プロパティ | 説明 |
CssStyleSheetType | HTML の CSS スタイルシートの種類を指定します(外部または内部)。 |
CssStyleSheetFileName | HTML の CSS スタイルシートファイルの名前を指定します。 |
ImageEmbedded | Data URI スキームを使用してHTMLコード内に画像を埋め込むかどうかを指定します。 |
ImagesPath | エクスポートされた HTML 内の画像フォルダを指定します。 |
UseSaveFileRelativePath | 画像ファイルパスを HTML ファイルパスに対して相対パスとして使用するかどうかを指定します。 |
HasHeadersFooters | エクスポートされた HTML にヘッダーとフッターを含めるかどうかを指定します。 |
IsTextInputFormFieldAsText | テキスト入力フォームフィールドを HTML でテキストとしてエクスポートするかどうかを指定します。 |
IsExportDocumentStyles | 文書スタイルを HTML の <head> にエクスポートするかどうかを指定します。 |
以下に、詳細な手順を示します。
- Document オブジェクトを作成します。
- Document.LoadFromFile() メソッドを使用して Word 文書を読み込みます。
- CSS スタイルを埋め込むには、Document.HtmlExportOptions.CssStyleSheetType プロパティを設定します。
- 画像の埋め込み設定は、Document.HtmlExportOptions.ImageEmbedded プロパティを使用します。
- フォームフィールドをプレーンテキストとしてエクスポートする設定は、Document.HtmlExportOptions.IsTextInputFormFieldAsText プロパティを使用します。
- Document.SaveToFile() メソッドを使用して変換後の文書を保存します。
- Python
from spire.doc import *
# Documentクラスのインスタンスを作成します
document = Document()
# Word文書を読み込みます
document.LoadFromFile("Sample.docx")
# CSSスタイルを埋め込みます
document.HtmlExportOptions.CssStyleSheetFileName = "Sample.css"
document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External
# 画像を埋め込むかどうかを設定します
document.HtmlExportOptions.ImageEmbedded = False
document.HtmlExportOptions.ImagesPath = "Images/"
# フォームフィールドをプレーンテキストとしてエクスポートするかどうかを設定します
document.HtmlExportOptions.IsTextInputFormFieldAsText = True
# 文書をHTMLファイルとして保存します
document.SaveToFile("ToHtmlExportOption.html", FileFormat.Html)
document.Close()
一時ライセンスを申請する
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。