チュートリアル
簡単にライブラリーを使用するためのチュートリアルコレクション
HTML は Web ページを作成するための標準マークアップ言語であり、PDF は異なるプラットフォーム間で一貫した書式を保持しながらドキュメントを共有・保存するための広く採用されている形式です。HTML を PDF に変換することで、印刷可能なドキュメントを作成したり、Web コンテンツをオフラインで共有したり、レポートを簡単に生成したりできます。本記事では、Spire.Doc for Python を使用して、HTML ファイルや HTML 文字列を PDF に変換する方法を解説します。
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
Document.LoadFromFile() メソッドは、Doc や Docx ファイルだけでなく、HTML ファイルの読み込みにも対応しています。このメソッドを使用して HTML ファイルを読み込み、Document.SaveToFile() メソッドを使用して PDF ファイルとして保存できます。Python で HTML ファイルを PDF に変換する手順は以下のとおりです。
from spire.doc import Document, FileFormat, XHTMLValidationType
# Document のインスタンスを作成する
doc = Document()
# HTMLファイルを読み込む
doc.LoadFromFile("Sample.html", FileFormat.Html, XHTMLValidationType.none)
# PDF形式で保存する
doc.SaveToFile("output/HTMLToPDF.pdf", FileFormat.PDF)
doc.Close()
単純な HTML 文字列(通常はテキストとその書式)を Word ページ上にレンダリングする場合、Paragraph.AppendHTML() メソッドを使用できます。作成した Word ドキュメントは Document.SaveToFile() メソッドで PDF として保存可能です。Python で HTML 文字列を PDF に変換する手順は以下のとおりです。
from spire.doc import Document, FileFormat
# Document のインスタンスを作成する
doc = Document()
# 文書にセクションを追加する
section = doc.AddSection()
# セクションに段落を追加する
paragraph = section.AddParagraph()
# HTML文字列を定義する
htmlString = """
<html lang="ja">
<head>
<meta charset="UTF-8">
<title>哲学的パステル研究</title>
<style>
body {
font-family: 'Yu Gothic', Meiryo, sans-serif;
margin: 0;
padding: 0;
background: linear-gradient(135deg, #f0e6ff, #e0d6ff);
color: #4a4453;
min-height: 100vh;
display: flex;
align-items: center;
justify-content: center;
}
.container {
max-width: 600px;
width: 90%;
background-color: #fff;
border-radius: 12px;
box-shadow: 0 4px 12px rgba(0, 0, 0, 0.1);
margin: 2rem;
padding: 2rem;
}
h1, h2 {
color: #6b5b95;
text-align: center;
margin-bottom: 1rem;
}
.section {
margin: 1.5rem 0;
padding: 1.5rem;
background: linear-gradient(135deg, #faf7ff, #f2eefc);
border-radius: 8px;
transition: transform 0.3s ease, box-shadow 0.3s ease;
}
.section:hover {
transform: translateY(-5px);
box-shadow: 0 6px 15px rgba(0, 0, 0, 0.1);
}
ul {
list-style-type: disc;
padding-left: 1.5rem;
}
p, li {
line-height: 1.6;
}
@media (max-width: 640px) {
.container {
padding: 1.5rem;
}
.section {
padding: 1rem;
}
}
</style>
</head>
<body>
<div class="container">
<h1>色彩形而上学研究所</h1>
<div class="section">
<h2>紫紺色の効果</h2>
<p>紫紺色は時間延長効果を持つとされています。</p>
</div>
<div class="section">
<h2>基本色相分類</h2>
<ul>
<li>アウリウム: 創造性の覚醒</li>
<li>ヴェルディト: 時間知覚の変化</li>
</ul>
</div>
</div>
</body>
</html>
"""
# HTML文字列を文書に挿入する
paragraph.AppendHTML(htmlString)
# 文書をPDF形式で保存する
doc.SaveToFile("output/HTMLStringToPDF.pdf", FileFormat.PDF)
doc.Close()
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。
HTML はオンライン閲覧向けに設計されていますが、Word 文書は印刷や物理的な文書として一般的に使用されます。HTML を Word に変換することで、ページ区切りやヘッダー、フッターなどの要素が適切に処理され、印刷に最適化された形式でコンテンツを整えることができます。本記事では、Spire.Doc for Python を使用して Python で HTML を Word に変換する方法を説明します。
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
Spire.Doc for Python の Document.SaveToFile() メソッドを使用すると、HTML ファイルを簡単に Word 形式に変換できます。手順は以下のとおりです。
from spire.doc import Document, FileFormat, XHTMLValidationType
# Document のインスタンスを作成します
doc = Document()
# HTML ファイルを読み込みます
doc.LoadFromFile("Sample.html", FileFormat.Html, XHTMLValidationType.none)
# HTML ファイルを Word 文書として保存します
doc.SaveToFile("output/HTMLToWord.docx", FileFormat.Docx)
doc.Close()
HTML ファイルだけでなく、HTML 形式の文字列も Word に変換できます。その場合、Paragraph.AppendHTML() メソッドを使用します。手順は以下のとおりです。
from spire.doc import Document, FileFormat
# Document のインスタンスを作成する
doc = Document()
# 文書にセクションを追加する
section = doc.AddSection()
# セクションに段落を追加する
paragraph = section.AddParagraph()
# HTML 文字列を指定する
htmlString = """
<h1 style=")color: #4682b4;">夢幻都市の軌跡</h1>
<p style="font-size: 14px; text-align: justify;">
この文書は、HTML文字列をWord文書に挿入する例です。<strong>強調</strong>や<em>斜体</em>のスタイルが含まれています。
</p>
<table style="width: 100%; border-collapse: collapse; margin: 10px 0;">
<thead>
<tr>
<th style="border: 1px solid #ccc; padding: 8px; background-color: #87cefa; color: #fff;">項目</th>
<th style="border: 1px solid #ccc; padding: 8px; background-color: #87cefa; color: #fff;">内容</th>
</tr>
</thead>
<tbody>
<tr>
<td style="border: 1px solid #ccc; padding: 8px;">施設</td>
<td style="border: 1px solid #ccc; padding: 8px;">未来文化センター</td>
</tr>
<tr>
<td style="border: 1px solid #ccc; padding: 8px;">状態</td>
<td style="border: 1px solid #ccc; padding: 8px;">進行中</td>
</tr>
</tbody>
</table>
<ul style="margin-left: 20px;">
<li>最新技術の導入</li>
<li>環境に優しい設計</li>
</ul>
<blockquote style="border-left: 4px solid #ccc; margin: 10px 0; padding-left: 10px;">
<p style="font-style: italic;">「都市の未来は我々の手の中にある。」</p>
</blockquote>
"""
# HTML 文字列を段落に挿入する
paragraph.AppendHTML(htmlString)
# 文書を保存する
doc.SaveToFile("output/InsertHTMLStringToWord.docx", FileFormat.Docx)
doc.Close()
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。
Word 文書を HTML に変換することで、コンテンツをオンラインで簡単に共有・公開できます。また、HTML は検索エンジンに優しい形式であるため、検索エンジンがコンテンツをより効果的にインデックス化し、検索結果での可視性を向上させることができます。本記事では、Spire.Doc for Python を使用して、Word 文書をプログラムで HTML に変換する方法を解説します。
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
Spire.Doc for Python は、Document.SaveToFile(fileName string, FileFormat.Html) メソッドを提供しており、Word 文書(doc/docx 形式)を HTML ファイルとして簡単に保存できます。以下に、詳細な手順を示します。
from spire.doc import Document, FileFormat
# Documentクラスのインスタンスを作成します
doc = Document()
# Word文書を読み込みます
doc.LoadFromFile("Sample.docx")
# 文書をHTML形式で保存します
doc.SaveToFile("output/WordToHTML.html", FileFormat.Html)
doc.Close()
Spire.Doc for Python は、変換時にエクスポートオプションを設定できる HtmlExportOptions クラスも提供しています。これにより、CSS スタイルや画像の埋め込み、フォームフィールドをプレーンテキストとしてエクスポートするかどうかなどを設定できます。以下は、HtmlExportOptions クラスを通して設定できるエクスポート・オプションの表です。
プロパティ | 説明 |
CssStyleSheetType | HTML の CSS スタイルシートの種類を指定します(外部または内部)。 |
CssStyleSheetFileName | HTML の CSS スタイルシートファイルの名前を指定します。 |
ImageEmbedded | Data URI スキームを使用してHTMLコード内に画像を埋め込むかどうかを指定します。 |
ImagesPath | エクスポートされた HTML 内の画像フォルダを指定します。 |
UseSaveFileRelativePath | 画像ファイルパスを HTML ファイルパスに対して相対パスとして使用するかどうかを指定します。 |
HasHeadersFooters | エクスポートされた HTML にヘッダーとフッターを含めるかどうかを指定します。 |
IsTextInputFormFieldAsText | テキスト入力フォームフィールドを HTML でテキストとしてエクスポートするかどうかを指定します。 |
IsExportDocumentStyles | 文書スタイルを HTML の <head> にエクスポートするかどうかを指定します。 |
以下に、詳細な手順を示します。
from spire.doc import *
# Documentクラスのインスタンスを作成します
document = Document()
# Word文書を読み込みます
document.LoadFromFile("Sample.docx")
# CSSスタイルを埋め込みます
document.HtmlExportOptions.CssStyleSheetFileName = "Sample.css"
document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External
# 画像を埋め込むかどうかを設定します
document.HtmlExportOptions.ImageEmbedded = False
document.HtmlExportOptions.ImagesPath = "Images/"
# フォームフィールドをプレーンテキストとしてエクスポートするかどうかを設定します
document.HtmlExportOptions.IsTextInputFormFieldAsText = True
# 文書をHTMLファイルとして保存します
document.SaveToFile("ToHtmlExportOption.html", FileFormat.Html)
document.Close()
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。
テキストファイルは、書式やスタイルが適用されていないプレーンテキストのみを含む一般的なファイル形式です。もしテキストファイルに書式を適用したり、画像やグラフ、表、その他のメディア要素を追加したい場合は、Word ファイルに変換することをおすすめします。
逆に、Word 文書の内容を効率的に抽出したり、ファイルサイズを減らしたい場合は、テキスト形式に変換する方法が役立ちます。本記事では、Spire.Doc for Python を使用して、テキストファイルを Word 形式に変換する方法と、Word ファイルをテキスト形式に変換する方法を解説します。
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
TXT から Word ドキュメントへの変換は、数行のコードで簡単に実現できます。以下は詳細な手順です。
from spire.doc import *
# ドキュメントオブジェクトを作成
document = Document()
# TXTファイルを読み込む
document.LoadFromFile("Sample.txt")
# TXTファイルをWord形式で保存
document.SaveToFile("output/テキストをWordに変換.docx", FileFormat.Docx2016)
document.Close()
Spire.Doc for Python が提供する Document.SaveToFile(string fileName, FileFormat.Txt) メソッドを使用すると、Word ファイルをテキスト形式にエクスポートできます。以下は詳細な手順です。
from spire.doc import *
# ドキュメントオブジェクトを作成
document = Document()
# ディスクからWordファイルを読み込む
document.LoadFromFile("Sample.docx")
# Wordファイルをtxt形式で保存
document.SaveToFile("output/Wordをテキストに変換.txt", FileFormat.Txt)
document.Close()
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。
Word 文書を画像に変換することは、フォーマットの問題やデバイス間の互換性を気にせずにコンテンツを共有または提示したい場合に便利で実用的なオプションです。Word 文書を画像に変換することで、テキスト、画像、フォーマットがそのまま保持されるため、ソーシャルメディア、ウェブサイト、またはメールでの文書共有に最適な方法となります。本記事では、Spire.Doc for Python を使用して Python で Word ドキュメントを PNG、JPEG、または SVG 形式に変換する方法について説明します。
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
Spire.Doc for Python には、特定のページをビットマップ画像に変換するための Document.SaveImageToStream() メソッドがあります。その後、このビットマップ画像を PNG、JPEG、または BMP などの一般的な画像フォーマットに保存できます。詳細な手順は以下の通りです。
from spire.doc import *
# ドキュメントオブジェクトを作成
document = Document()
# Wordファイルを読み込む
document.LoadFromFile("Sample.docx")
# ドキュメント内のページをループ処理
for i in range(document.GetPageCount()):
# 特定のページをビットマップ画像に変換
imageStream = document.SaveImageToStreams(i, ImageType.Bitmap)
# ビットマップをPNGファイルとして保存
with open('Output/Images/Image-{0}.png'.format(i),'wb') as imageFile:
imageFile.write(imageStream.ToArray())
document.Close()
Word ドキュメントを複数の SVG ファイルに変換するには、Document.SaveToFile() メソッドを使用するだけです。手順は以下の通りです。
from spire.doc import *
from spire.doc.common import *
# ドキュメントオブジェクトを作成
document = Document()
# Wordファイルを読み込む
document.LoadFromFile("Sample.docx")
# SVGファイルとして保存
document.SaveToFile("output/SVGs/WordをSVGに変換.svg", FileFormat.SVG)
document.Close()
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。
デジタルドキュメントは、個人および業務において重要な役割を果たしています。その中でよく使用される形式の 1 つが Microsoft Word です。これは、テキストドキュメントの作成や編集に使われます。しかし、Word ファイルをより普遍的に利用可能な形式、例えば PDF に変換する必要が生じることがあります。PDF は、フォーマットの維持、互換性の確保、異なるデバイスやオペレーティングシステム間での文書の完全性の保持といった利点を提供します。この記事では、Spire.Doc for Python を使って Word から PDF に変換する方法を説明します。
この操作には、Spire.Doc for Python と plum-dispatch v1.7.4 が必要です。これらは、Spire.Doc for Python の公式ウェブサイトから手動でダウンロードするか、以下の pip コマンドでインストールできます。
pip install Spire.Doc
Spire.Doc for Python には、Document.SaveToFile(string fileName, FileFormat fileFormat) メソッドが用意されており、これを使用して Word を PDF、XPS、HTML、RTF などの形式で保存できます。追加設定をせずに Word 文書を通常の PDF として保存したい場合は、以下の手順に従ってください。
from spire.doc import *
from spire.doc.common import *
# Word文書を作成
document = Document()
# docまたはdocxファイルを読み込む
document.LoadFromFile("Sample.docx")
# 文書をPDFとして保存
document.SaveToFile("output/WordからPDFへの変換.pdf", FileFormat.PDF)
document.Close()
Word をパスワード保護付きPDFに変換するには、Document.SaveToFile(string fileName, ToPdfParameterList paramList) メソッドを使用します。この ToPdfParameterList パラメータにより、Word 文書を PDF に変換する際の設定を制御できます。以下の手順で実行します。
from spire.doc import *
from spire.doc.common import *
# Documentオブジェクトを作成
document = Document()
# Wordファイルを読み込む
document.LoadFromFile("Sample.docx")
# ToPdfParameterListオブジェクトを作成
parameter = ToPdfParameterList()
# オープンパスワードと許可パスワードを指定
openPsd = "abc-123"
permissionPsd = "permission"
# 生成されるPDFをオープンパスワードと許可パスワードで保護
parameter.PdfSecurity.Encrypt(openPsd, permissionPsd, PdfPermissionsFlags.Default, PdfEncryptionKeySize.Key128Bit)
# Word文書をPDFとして保存
document.SaveToFile("output/パスワードを付けてWordをPDFに変換.pdf", parameter)
document.Close()
ドキュメントにブックマークを追加すると、可読性が向上します。Word から PDF を作成する際に、既存のブックマークを保持したり、見出しに基づいて新しいブックマークを作成したりすることが可能です。以下の手順で、ブックマーク付きの PDF に変換します。
from spire.doc import *
from spire.doc.common import *
# Documentオブジェクトを作成
document = Document()
# Wordファイルを読み込む
document.LoadFromFile("Sample.docx")
# ToPdfParameterListオブジェクトを作成
parames = ToPdfParameterList()
# Wordの見出しを使ってブックマークを作成
#parames.CreateWordBookmarksUsingHeadings = True
# Wordの既存のブックマークを使ってPDFにブックマークを作成
parames.CreateWordBookmarks = True
# 文書をPDFとして保存
document.SaveToFile("output/ブックマーク付きWordをPDFに変換.pdf", FileFormat.PDF)
document.Close()
PDF 文書がどのデバイスでも一貫して表示されるようにするためには、生成された PDF 文書にフォントを埋め込む必要があります。以下は、Word 文書で使用されているフォントを PDF に埋め込む手順です。
from spire.doc import *
from spire.doc.common import *
# Documentオブジェクトを作成
document = Document()
# Wordファイルを読み込む
document.LoadFromFile("Sample.docx")
# ToPdfParameterListオブジェクトを作成
parameter = ToPdfParameterList()
# PDFにフォントを埋め込む
parameter.IsEmbeddedAllFonts = True
# Word文書をPDFとして保存
document.SaveToFile("output/フォントを埋め込んだWordからPDFへの変換.pdf", parameter)
document.Close()
Word 文書を PDF に変換する際、多くの高品質画像が含まれている場合は、生成されるファイルのサイズが重要です。変換プロセス中に画像の品質を圧縮することができます。以下の手順に従ってください。
from spire.doc import *
# Documentオブジェクトを作成
document = Document()
# Wordファイルを読み込む
document.LoadFromFile("Sample.docx")
# 画像を元の品質の40%に圧縮
document.JPEGQuality = 40
# 元の画像品質を保持
# document.JPEGQuality = 100
# Word文書をPDFとして保存
document.SaveToFile("output/画質の設定.pdf", FileFormat.PDF)
document.Close()
結果ドキュメントから評価メッセージを削除したい場合、または機能制限を取り除く場合は、についてこのメールアドレスはスパムボットから保護されています。閲覧するにはJavaScriptを有効にする必要があります。にお問い合わせ、30 日間有効な一時ライセンスを取得してください。