ファイルを開く#
サポートされているファイルタイプ#
PyMuPDF は PDF 以外のファイルも開くことができます。
PyMuPDF は以下のファイルタイプをサポートしています:
PDF XPS EPUB MOBI FB2 CBZ SVG TXT | |
JPG/JPEG, PNG, BMP, GIF, TIFF, PNM, PGM, PBM, PPM, PAM, JXR, JPX/JP2, PSD
JPG/JPEG, PNG, PNM, PGM, PBM, PPM, PAM, PSD, PS
|
ファイルを開く方法#
ファイルを開くには、次の手順を実行します。
doc = pymupdf.open("a.pdf")
拡張子の異なるファイルを開く#
拡張子がファイルタイプと異なっていても、正しく開くことができます。
例えば "some.file" が実際には XPS ファイルの場合は、以下のようにして開きます:
doc = pymupdf.open("some.file", filetype="xps")
注釈
PyMuPDF 自体は、ファイルの内容からファイルタイプを判断しようとはしません。このため、ユーザーがファイルの拡張子などを通じて暗黙的に、または filetype パラメーターを通じて明示的にファイルタイプの情報を提供する責任があります。また、詳細な説明については Document (ドキュメント) の章を参照してください。
PyMuPDF は不明なファイルや拡張子のないファイルはPDFとして開きます。このため、これらの場合は追加の情報は必要ありません。同様に、メモリ上のドキュメントの場合は、doc=pymupdf.open(stream=mem_area)
と指定するだけでPDFドキュメントとして開くことができます。
サポートされていないファイルを開こうとした場合、PyMuPDFはファイルデータエラーをスローします。
ファイルをテキストとして開く#
PyMuPDF には、プレーン テキスト ファイルをドキュメントとして開く機能があります。 これを行うには、pymupdf.open
関数の filetype
パラメータを「txt」として指定する必要があります。
doc = pymupdf.open("my_program.py", filetype="txt")
このようにして、さまざまな種類のファイルを開いて、テキスト検索、テキスト抽出、ページ レンダリングなどの PDF に固有ではない一般的な機能を実行できます。 明らかに、txt コンテンツをレンダリングしたら、 PDF として保存したり、他の PDF ファイルと結合したりすることは問題ありません。
例#
C# ファイルを開く#
doc = pymupdf.open("MyClass.cs", filetype="txt")
XML ファイルを開く#
doc = pymupdf.open("my_data.xml", filetype="txt")
JSON ファイルを開く#
doc = pymupdf.open("more_of_my_data.json", filetype="txt")
等々!
ご想像のとおり、多くのテキスト ベースのファイル形式は、PyMuPDF によって非常に簡単に開いて解釈できます。 これにより、これまで利用できなかった広範囲のファイルのデータ分析と抽出が突然可能になります。