The PyMuPDF4LLM API¶

property version¶: ライブラリのバージョンを出力します。

to_markdown(doc: pymupdf.Document | str, *, detect_bg_color: bool = True, dpi: int = 150, embed_images: bool = False, extract_words: bool = False, filename: str | None = None, fontsize_limit: float = 3, footer: bool = True, force_ocr: bool = False, force_text: bool = True, graphics_limit: int = None, hdr_info: Any = None, header: bool = True, ignore_alpha: bool = False, ignore_code: bool = False, ignore_graphics: bool = False, ignore_images: bool = False, image_format: str = 'png', image_path: str = '', image_size_limit: float = 0.05, margins: float | list = 0, ocr_dpi: int = 300, ocr_function: callable = None, ocr_language: str = 'eng', page_chunks: bool = False, page_height: float = None, page_separators: bool = False, page_width: float = 612, pages: list | range | None = None, show_progress: bool = False, table_strategy: str = 'lines_strict', use_glyphs: bool = False, use_ocr: bool = True, write_images: bool = False) → str | list[dict]¶

ファイルのページを読み取り、各ページのテキストを Markdown 形式で出力します。詳細な動作は複数のパラメータで制御できます。 Markdown テキストからページチャンクを構築する機能がサポートされていることにご注意ください。

パラメータ:

doc (Document,str) -- ファイルは、ファイルパス文字列、または PyMuPDF Document (pymupdf.open で作成) のいずれかで指定します。pathlib.Path 指定、Pythonファイル風オブジェクト、メモリ内ドキュメントなどを使用する場合は、PyMuPDF Document を必ず使用してください。
detect_bg_color (bool) -- use_layout() must be False ページの全体的な背景色を簡易的にチェックします（デフォルトは True）。テキストやベクターがこの色の場合、無視されます。検出精度が向上する可能性があります。
dpi (int) -- 希望する画像解像度をドット・パー・インチ（DPI）で指定します。write_images=True または embed_images=True の場合のみ有効です。デフォルト値は150です。
embed_images (bool) -- write_images と同様ですが、画像はbase64エンコードされた文字列としてマークダウンテキストに含まれます。write_images とは相互排他的であり、image_path は無視されます。これによりマークダウンテキストのサイズが大幅に増加する可能性があります。
extract_words (bool) -- use_layout() must be False True を指定すると page_chunks=True が強制され、各ページの辞書にキー「words」が追加されます。その値は、PyMuPDFの Page メソッド get_text("words") によって提供される単語のリストです。このリスト内の単語の順序は、抽出されたテキストと同じです。「レイアウトモード」では無視されます。
filename (str) -- 書き込まれる画像の希望するファイル名を上書きまたは設定します。ドキュメントがメモリオブジェクト（固有のファイル名を持たない）として提供される場合に便利です。
fontsize_limit (float) -- use_layout() must be False テキスト抽出時に考慮するフォントサイズの下限を設定します。フォントサイズが設定値より小さい場合、そのテキストは抽出対象として考慮されません。デフォルトは 3 で、フォントサイズが >= 3 のテキストのみが抽出対象として考慮されます。
footer (bool) -- ページフッターの内容を含めるか除外するかを切り替えるブール値です。このパラメータは、ドキュメント全ページのフッターテキストを含めるか省略するかを制御します。ドキュメントに繰り返しのフッター内容があり、全体的な抽出データに価値を追加しない場合に便利です。デフォルトは True で、フッターの内容が考慮されることを意味します。
force_ocr (bool) --
if True, OCR will be applied to all pages regardless of their content.

This may be useful for documents which are known to be image-based and thus profit from OCR, but which do not meet the default criteria for applying OCR. Default is False meaning that OCR will only be applied to pages which meet the default criteria.

警告

Requires that either one of the default supported OCR engines is installed or ocr_function specifies a callable OCR function. Otherwise, an exception will be raised.
force_text (bool) -- 画像やグラフィックが重なっている場合でもテキスト出力を生成します。このテキストは該当する画像の後に表示されます。
graphics_limit (int) -- use_layout() must be False 過剰な量のベクターグラフィック要素への対処を制限するために使用します。科学文書や、グラフィックコマンドでテキストをシミュレートするページには、これらのオブジェクトが数万個含まれている場合があります。ベクターグラフィックは複数の目的で分析されるため、実行時間がすぐに許容できないレベルになる可能性があります。このパラメータを使用すると、ベクターグラフィックの数が閾値を超えた場合、すべてのベクターグラフィックが無視されます。
hdr_info -- use_layout() must be False 独自のヘッダー検出ロジックを提供したい場合に使用します。これは、呼び出し可能オブジェクト、または get_header_id という名前のメソッドを持つオブジェクトです。テキストスパン（extractDICT() に含まれるスパン辞書）とキーワードパラメータ「page」（所有する Page オブジェクト）を受け入れる必要があります。空文字列 "" または最大6個の "#" 文字とその後に続く1つのスペースを返す必要があります。省略した場合（None）、ドキュメント全体がスキャンされ、最も一般的なフォントサイズを見つけ、それに基づいてヘッダーレベルが導出されます。この動作を完全に回避するには、hdr_info=lambda s, page=None: "" または hdr_info=False を指定してください。
header (bool) -- ページヘッダーの内容を含めるか除外するかを切り替えるブール値です。このパラメータは、ドキュメント全ページのヘッダー内容を含めるか省略するかを制御します。ドキュメントに繰り返しのヘッダー内容があり、全体的な抽出データに価値を追加しない場合に便利です。デフォルトは True で、ヘッダーの内容が考慮されることを意味します。
ignore_alpha (bool) -- use_layout() must be False True の場合、完全に透明なテキストも含めます。デフォルトは False で、透明なテキストは無視され、通常は検出精度が向上します。「レイアウトモード」では無視されます。
ignore_code (bool) -- True の場合、等幅テキスト行は特別なフォーマットを受けません。コードブロックは生成されなくなります。extract_words=True が使用される場合、この値は True に設定されます。
ignore_graphics (bool) -- use_layout() must be False (v.0.0.20の新機能) ページ上のベクターグラフィックを無視します。ページが非常に混雑している場合（プレゼンテーションスライドを表すドキュメントでよくあるケース）、テキストを正しく検出するのに役立つ可能性があります。また、処理時間も短縮されます。これにより、テーブル検出が自動的に無効になります。
ignore_images (bool) -- use_layout() must be False (v.0.0.20の新機能) ページ上の画像を無視します。ページが非常に混雑している場合（プレゼンテーションスライドを表すドキュメントでよくあるケース）、テキストを正しく検出するのに役立つ可能性があります。また、処理時間も短縮されます。
image_format (str) -- 拡張子を使用して希望する画像形式を指定します。デフォルトは「png」（ポータブルネットワークグラフィックス）です。他の一般的な形式としては「jpg」があります。使用可能な値は、すべてのサポートされている出力形式です。
image_path (str) -- このフォルダに画像を保存します。write_images=True の場合に有効です。デフォルトはスクリプトディレクトリのパスです。
image_size_limit (float) -- use_layout() must be False 0 <= value < 1 の値である必要があります。width / page.rect.width <= image_size_limit または height / page.rect.height <= image_size_limit の場合、画像は無視されます。たとえば、デフォルト値の0.05は、画像が含まれる対象として考慮されるには、画像の幅と高さがそれぞれページの幅と高さの5%より大きくなければならないことを意味します。
margins (float,list) --
use_layout() must be False ページの境界を指定する浮動小数点数、または2個もしくは4個の浮動小数点数のシーケンスです。マージン内のオブジェクトのみが出力対象として考慮されます。
- margin=f は (left, top, right, bottom) に対して (f, f, f, f) を生成します。
- (top, bottom) は (0, top, 0, bottom) を生成します。
- 常にページ全体を読み取る (デフォルト) には、margins=0 を使用します。
ocr_dpi (int) -- specify the desired image resolution in dots per inch for applying OCR to the intermediate image of the page. Default value is 300. Only relevant if the page has been determined to profit from OCR (no or few text, most of the page covered by images or character-like vectors, etc.). Larger values do not usually increase the OCR precision. There also is a risk of over-sharpening the image which may decrease OCR precision. So the default value should probably be sufficiently high - in many cases you should see satisfactory results already with values of 150 or 200. Be aware that processing time and memory requirements grow quadratically with this value (an O(ocr_dpi²) impact).
ocr_function (callable) -- if you want to provide your own OCR function, specify it here. If omitted (None), one of the available built-in OCR engines will be used.
ocr_language (str) -- specify the language to be used by the Tesseract OCR engine. Default is "eng" (English). Make sure that the respective language data files are installed. Remember to use correct Tesseract language codes. Multiple languages can be specified by concatenating the respective codes with a plus sign "+", for example "eng+deu" for English and German.
page_chunks (bool) --
True の場合、出力は Document.page_count 個の辞書のリスト（ページごとに1つ）になります。各辞書は以下の構造を持ちます:
- "metadata" - ドキュメントのメタデータ Document.metadata から構成される辞書で、追加のキー "file_path" （ファイル名）、"page_count" （ドキュメント内のページ数）、および "page_number" （1ベースのページ番号）で拡張されています。
- "toc_items" - このページを指す目次項目のリストです。このリストの各項目は [lvl, title, pagenumber] の形式を持ち、lvl は階層レベル、title は文字列、pagenumber は1ベースのページ番号です。
- "tables" - Only if use_layout() is False a list of tables on this page. Each item is a dictionary with keys "bbox", "row_count" and "col_count". Key "bbox" is a pymupdf.Rect in tuple format of the table's position on the page.
- "images" - Only if use_layout() is False ページ上の画像のリストです。これは、ページメソッド Page.get_image_info() のコピーです。
- "graphics" - Only if use_layout() is False ページ上のベクターグラフィック矩形のリストです。これは、メソッド Page.cluster_drawings() によって提供されるクラスタ化されたベクターグラフィックのバウンディングボックスのリストです。
- "text" - Markdown テキストとしてのページ内容です。
- "words" - Only if use_layout() is False extract_words=True が使用された場合に含まれます。これは、page.get_text("words") によって提供されるタプル (x0, y0, x1, y1, "wordstring", bno, lno, wno) のリストです。ただし、これらのタプルの順序はマークダウンテキスト文字列で生成される順序と同じであり、したがってマルチカラムテキストを尊重します。これはテーブル内のテキストにも当てはまります。単語はテーブル行のセルの順序で抽出されます。
- "text" - Markdown テキストとしてのページ内容です。
- "page_boxes" - a list of dictionaries representing the layout boundary boxes. Each dictionary has the following structure:
```
{
    "index": int,              # 0-based integer index of the box in reading sequence
    "class": str,              # one of "text", "picture", "table", etc.
    "bbox": [x0, y0, x1, y1],  # boundary box coordinates
    "pos": (start, stop),      # 0-based integers: bbox_text = chunk["text"][start:stop]
}
```
  See: box classes
page_height (float) -- 希望するページの高さを指定します。関連性については page_width パラメータを参照してください。デフォルトの None を使用する場合、ドキュメントは page_width の幅を持つ1つの大きなページとして表示されます。したがって、この場合、マークダウンページ区切り文字は発生せず（最後のものを除く）、それぞれ1つのページチャンクのみが返されます。
page_separators (bool) -- True の場合、各ページ出力の最後に文字列 --- end of page=n --- を挿入します。デバッグ目的を想定しています。ページ番号は0ベースです。区切り文字列は改行で囲まれます。デフォルトは False です。
page_width (float) -- 希望するページの幅を指定します。PDF、XPSなどの固定ページ幅を持つドキュメントでは無視されます。しかし、電子書籍、オフィス [2] ファイル、テキストファイルなどの リフロー可能な ドキュメントには固定のページサイズがありません。これらはデフォルトでレター形式の幅（612）と 無制限の ページの高さを持つと見なされます。これは、ドキュメント全体が1つの大きなページとして扱われる ことを意味します。
pages (list) -- オプションで、出力対象として考慮するページを指定します（注意:0ベースのページ番号を指定してください）。省略した場合（None）、すべてのページが処理されます。整数項目を持つ任意のPythonシーケンスが受け入れられます。シーケンスはソートされ、一意の項目のみを含むように処理されます。
show_progress (bool) -- デフォルトは False です。True を指定すると、ページが変換される際に進捗バーが表示されます。インストールされている場合はパッケージ tqdm が使用され、それ以外の場合は組み込みのテキストベースの進捗バーが使用されます。
table_strategy (str) -- use_layout() must be False 参照: テーブル検出戦略。デフォルトは "lines_strict" で、背景色を無視します。状況によっては、他の戦略がより成功する場合があります。たとえば、すべてのベクターグラフィックオブジェクトを検出に使用する "lines" などです。
use_glyphs (bool) -- use_layout() must be False (v.0.0.19の新機能) デフォルトは False です。True を指定すると、フォントがUnicode値を保存していない場合、文字自体の代わりに文字のグリフ番号が使用されます。
use_ocr (bool) -- use OCR capability to help analyse the page. This will OCR pages as determined by the default criteria.
write_images (bool) --
画像またはベクターグラフィックに遭遇した場合、該当するページ領域から画像が作成され、指定されたフォルダに保存されます。これらの画像を指す Markdown 参照が生成されます。これらの領域に含まれるテキストは、テキスト出力には含まれません（ただし、画像の一部として表示されます）。したがって、たとえば、ドキュメントにフルページ画像上に書かれたテキストがある場合は、このパラメータを False に設定してください。

PyMuPDF Layout を使用する場合、レイアウトモジュールによって「picture」として分類されたバウンディングボックスは、テキスト、画像、またはベクターグラフィックの混在に関係なく、画像として扱われます。force_text=True が使用された場合、これらの領域からテキストが抽出され、該当する画像参照の後に出力に含まれます。

戻り値:

選択されたすべてのドキュメントページの結合されたテキストの文字列、または page_chunks=True の場合は辞書のリストです。

to_text(doc: pymupdf.Document | str, *, **kwargs) → str¶

Reads the pages of the file and outputs the text of its pages in plain text (TXT) format.

パラメータ:

doc (Document,str) -- ファイルは、ファイルパス文字列、または PyMuPDF Document (pymupdf.open で作成) のいずれかで指定します。pathlib.Path 指定、Pythonファイル風オブジェクト、メモリ内ドキュメントなどを使用する場合は、PyMuPDF Document を必ず使用してください。
use_ocr (bool) -- OCR機能を使用してページの分析を支援します。
ocr_language (str) -- specify the language to be used by the Tesseract OCR engine. Default is "eng" (English). Make sure that the respective language data files are installed. Remember to use correct Tesseract language codes. Multiple languages can be specified by concatenating the respective codes with a plus sign "+", for example "eng+deu" for English and German.
ocr_dpi (int) -- ページの中間画像にOCRを適用する際の希望する画像解像度をドット・パー・インチ（DPI）で指定します。デフォルト値は400です。ページがOCRの恩恵を受けると判断された場合（テキストが無いまたは少ない、ページの大部分が画像または文字のようなベクターで覆われているなど）のみ有効です。大きな値を指定するとOCRの精度が向上する可能性がありますが、メモリ要件と処理時間が増加します。また、画像が過度にシャープ化されてOCRの精度が低下するリスクもあります。そのため、デフォルト値はおそらく十分に高い値となっています。
header (bool) -- ページヘッダーの内容を含めるか除外するかを切り替えるブール値です。このパラメータは、ドキュメント全ページのヘッダー内容を含めるか省略するかを制御します。ドキュメントに繰り返しのヘッダー内容があり、全体的な抽出データに価値を追加しない場合に便利です。デフォルトは True で、ヘッダーの内容が出力されることを意味します。
footer (bool) -- ページフッターの内容を含めるか除外するかを切り替えるブール値です。このパラメータは、ドキュメント全ページのフッター内容を含めるか省略するかを制御します。ドキュメントに繰り返しのフッター内容があり、全体的な抽出データに価値を追加しない場合に便利です。デフォルトは True で、フッターの内容が出力されることを意味します。
ignore_code (bool) -- True の場合、等幅テキスト行は特別なフォーマットを受けません。ブロックは書き込まれず、テキスト行は連続して書き込まれます。
pages (list) -- オプションで、出力対象として考慮するページを指定します（注意:0ベースのページ番号を指定してください）。省略した場合（None）、すべてのページが処理されます。整数項目を持つ任意のPythonシーケンスが受け入れられます。シーケンスはソートされ、一意の項目のみを含むように処理されます。
force_text (bool) -- 画像やグラフィックが重なっている場合でもテキスト出力を生成します。このテキストは該当する画像参照の後に表示されます。ただし、画像（つまり「picture」領域）はテキスト出力には書き込まれず、==> picture [width x height] <== のようなテキスト行として出力に表示されます。
show_progress (bool) -- デフォルトは False です。True を指定すると、ページが変換される際に進捗バーが表示されます。インストールされている場合はパッケージ tqdm が使用され、それ以外の場合は組み込みのテキストベースの進捗バーが使用されます。
page_chunks (bool) --
True の場合、出力は Document.page_count 個の辞書のリスト（ページごとに1つ）になります。各辞書は以下の構造を持ちます:
- "metadata" - ドキュメントのメタデータ Document.metadata から構成される辞書で、追加のキー "file_path" （ファイル名）、"page_count" （ドキュメント内のページ数）、および "page_number" （1ベースのページ番号）で拡張されています。
- "toc_items" - このページを指す目次項目のリストです。このリストの各項目は [lvl, title, pagenumber] の形式を持ち、lvl は階層レベル、title は文字列、pagenumber は1ベースのページ番号です。
- "tables" - empty list.
- "images" - empty list.
- "graphics" - empty list.
- "words" - empty list.
- "text" - page content as plain text.
- "page_boxes" - a list of dictionaries representing the layout boundary boxes. Each dictionary has the following structure:
```
{
    "index": int,              # 0-based integer index of the box in reading sequence
    "class": str,              # one of "text", "picture", "table", etc.
    "bbox": [x0, y0, x1, y1],  # boundary box coordinates
    "pos": (start, stop),      # 0-based integers: bbox_text = chunk["text"][start:stop]
}
```
  See: box classes

to_json(doc: pymupdf.Document | str, *, **kwargs) → str¶

Parses the document and the specified pages and converts the result into a JSON formatted string.

パラメータ:

doc (Document,str) -- ファイルは、ファイルパス文字列、または PyMuPDF Document (pymupdf.open で作成) のいずれかで指定します。pathlib.Path 指定、Pythonファイル風オブジェクト、メモリ内ドキュメントなどを使用する場合は、PyMuPDF Document を必ず使用してください。
use_ocr (bool) -- OCR機能を使用してページの分析を支援します。
ocr_language (str) -- specify the language to be used by the Tesseract OCR engine. Default is "eng" (English). Make sure that the respective language data files are installed. Remember to use correct Tesseract language codes. Multiple languages can be specified by concatenating the respective codes with a plus sign "+", for example "eng+deu" for English and German.
ocr_dpi (int) -- ページの中間画像にOCRを適用する際の希望する画像解像度をドット・パー・インチ（DPI）で指定します。デフォルト値は400です。ページがOCRの恩恵を受けると判断された場合（テキストが無いまたは少ない、ページの大部分が画像または文字のようなベクターで覆われているなど）のみ有効です。大きな値を指定するとOCRの精度が向上する可能性がありますが、メモリ要件と処理時間が増加します。また、画像が過度にシャープ化されてOCRの精度が低下するリスクもあります。そのため、デフォルト値はおそらく十分に高い値となっています。
image_dpi (int) -- 希望する画像解像度をドット・パー・インチ（DPI）で指定します。デフォルト値は150です。write_images=True または embed_images=True のいずれかのパラメータが使用される場合にのみ有効です。
image_format (str) -- 拡張子を使用して希望する画像形式を指定します。デフォルトは「png」（ポータブルネットワークグラフィックス）です。他の一般的な形式としては「jpg」があります。使用可能な値は、すべてのサポートされている出力形式です。write_images=True または embed_images=True のいずれかのパラメータが使用される場合にのみ有効です。
image_path (str) -- このフォルダに画像を保存します。write_images=True の場合に有効です。デフォルトはスクリプトディレクトリのパスです。「picture」として分類されたページ領域は、指定された場所に画像ファイルとして書き込まれます。画像ファイル名は {image_path}/{filename}-pagenumber-image_number.{image_format} の形式になります。
force_text (bool) -- レイアウトモジュールによって「picture」として分類された領域上に書かれたテキストのテキスト出力を生成します。これは、画像内容が保存されない場合に特に便利です。
show_progress (bool) -- 処理中に進捗バーを表示します。
embed_images (bool) -- 「picture」バウンディングボックスの画像バイナリを保存します。Base64エンコードされた画像がJSON出力に含まれます。使用された場合、image_path は無視されます。これによりJSONテキストのサイズが大幅に増加する可能性があります。
write_images (bool) -- store image files "picture" boundary boxes. When encountering images, image files will be created from the respective page area and stored in the specified folder. Any text contained in these areas will still be included in the text output.
pages (list) -- オプションで、出力対象として考慮するページを指定します（注意:0ベースのページ番号を指定してください）。省略した場合（None）、すべてのページが処理されます。0 から page_count - 1 の間の整数を含む任意の有効なPythonシーケンスを指定してください。

戻り値の型:

str

See JSON Schema for the structure of the output JSON string.

注釈

About box classes

If page_chunks = True the return objects for to_markdown & to_text contains a list of dictionaries representing the layout boundary boxes page_boxes, within that a key class indicates the type of box content therein.

The return object for to_json contains a similar key called boxclass.

The possible string values are for this class / boxclass key are:

text
picture
table
caption
title
section-header
page-header
page-footer
list-item
footnote
formula

use_layout(yes: bool = True)¶

Switch on/off the use of the PyMuPDF Layout module.

If yes=True (default), the layout module will be used for page analysis for optimal results. If yes=False, the layout module will not be used.

get_key_values(doc: pymupdf.Document | str) → list[dict]¶

Parse the document if it is a Form PDF and extract key-value pairs from all form fields (widgets).

Please note that this method is only relevant for PDF documents that contain widgets. Otherwise, an empty list will be returned.

The function is always available -- independently of whether you are using the PyMuPDF Layout module or not.

Each dictionary item has the following structure:

{
    "field_name": str,      # the full name of the form field, components separated by dots
    {
        "value": str,       # the field value as string
        "pages": list,      # list of 0-based page numbers where the field appears
    }
}

LlamaMarkdownReader(*args, **kwargs)¶

LlamaIndex パッケージを使用して pdf_markdown_reader.PDFMarkdownReader を作成します。このパッケージは pymupdf4llm をインストールする際に 自動的にインストールされない ことに注意してください。

可能な引数の詳細については、LlamaIndexのドキュメント [1] を参照してください。

Raises:: NotImplementedError: 必要な LlamaIndex パッケージをインストールしてください。
戻り値:: pdf_markdown_reader.PDFMarkdownReader と、メッセージ「Successfully imported LlamaIndex」を返します。このメソッドの実行には数秒かかることに注意してください。マークダウンリーダーの使用方法の詳細については、以下を参照してください。

class IdentifyHeaders¶

注釈

Only if use_layout() is False

__init__(self, doc: pymupdf.Document | str, *, pages: list | range | None = None, body_limit: float = 11, max_levels: int = 6)¶

テキストフォントサイズをマークダウン構文でヘッダーレベルを示すために使用される '#' 文字の数にマッピングするオブジェクトを作成します。このオブジェクトは、ドキュメントをスキャンしてフォントサイズの「人気度」を調べることで作成されます。最も一般的なフォントサイズとそれより小さいすべてのサイズは本文テキストに使用されます。より大きいフォントサイズは、それぞれのヘッダーレベル（HTMLタグ <h1> から <h6> に対応）にマッピングされます。

すべてのフォントサイズは整数値に丸められます。

6つを超えるヘッダーレベルが必要な場合、<h6> フォントサイズより小さい最大の数値が本文テキストに使用されます。

オブジェクトの作成は、その後 to_markdown() メソッドでドキュメントを再度読み取ることとは独立して、ドキュメント全体のテキストを読み取って検査することに注意してください。to_markdown() メソッドは、hdr_info=None パラメータを上書きしない場合、デフォルトで このオブジェクトを作成します。

パラメータ:

doc (Document,str) -- ファイルは、ファイルパス文字列、または PyMuPDF Document (pymupdf.open で作成) のいずれかで指定します。pathlib.Path 指定、Pythonファイル風オブジェクト、メモリ内ドキュメントなどを使用する場合は、PyMuPDF Document を必ず使用してください。
pages (list) -- オプションで、考慮するページを指定します。省略した場合、すべてのページが処理されます。
body_limit (float) -- 本文テキストのデフォルトのフォントサイズ下限です。ドキュメントスキャンが有効な情報を提供しない場合にのみ使用されます。
max_levels (int) -- 使用する最大ヘッダーレベル数です。有効な値は range(1, 7) 内です。デフォルトは6で、HTMLタグ <h1> から <h6> に対応します。より小さい値を指定すると、生成されるヘッダーレベルの数が制限されます。たとえば、値3を指定すると、ヘッダータグ「#」、「##」、「###」のみが生成されます。「###」に対応するフォントサイズより小さいすべてのフォントサイズは本文テキストと見なされます。

get_header_id(self, span: dict, page=None) → str¶

適切なマークダウンヘッダープレフィックスを返します。これは空文字列 ""、または「#」文字列とそれに続くスペースのいずれかです。

「dict」抽出からのテキストスパンを指定すると、0からn個の連結された「#」文字からなるマークダウンヘッダープレフィックス文字列を決定します。

パラメータ:

span (dict) -- テキストスパン情報を含む辞書です。これは page.get_text("dict") によって返される辞書と同じものです。
page (Page) -- 所有するページオブジェクトです。追加情報を抽出する必要がある場合に使用できます。

戻り値:

「#」文字列とそれに続くスペースです。

header_id¶: 整数のフォントサイズを {14: '# ', 12: '## '} のようなマークダウンヘッダー文字列にマッピングする辞書です。この辞書は IdentifyHeaders コンストラクタによって作成されます。キーはドキュメント内のテキストスパンのフォントサイズです。値はそれぞれのヘッダー文字列です。

body_limit¶: 本文テキストのフォントサイズ下限を示す整数値です。これは min(header_id.keys()) - 1 として計算されます。上記の例では、body_limitは11になります。

ヘッダーレベルを制限する方法（例）

生成されるヘッダーレベルを3に制限します:

import pymupdf, pymupdf4llm

filename = "input.pdf"
doc = pymupdf.open(filename)  # use a Document for subsequent processing
my_headers = pymupdf4llm.IdentifyHeaders(doc, max_levels=3)  # generate header info
md_text = pymupdf4llm.to_markdown(doc, hdr_info=my_headers)

独自のヘッダーロジックを提供する方法（例1）

事前に決定された固定のフォントサイズを使用する独自の関数を提供します:

import pymupdf, pymupdf4llm

filename = "input.pdf"
doc = pymupdf.open(filename)  # use a Document for subsequent processing

def my_headers(span, page=None):
    """
    Provide some custom header logic.
    This is a callable which accepts a text span and the page.
    Could be extended to check for other properties of the span, for
    instance the font name, text color and other attributes.
    """
    # header level is h1 if font size is larger than 14
    # header level is h2 if font size is larger than 10
    # otherwise it is body text
    if span["size"] > 14:
        return "# "
    elif span["size"] > 10:
        return "## "
    else:
        return ""

# this will *NOT* scan the document for font sizes!
md_text = pymupdf4llm.to_markdown(doc, hdr_info=my_headers)

独自のヘッダーロジックを提供する方法（例2）

このユーザー関数はドキュメントの目次を使用します。ブックマークテキストがヘッダー行としてページ上にも存在することを前提としています（これは必ずしもそうであるとは限りません！）:

import pymupdf, pymupdf4llm

filename = "input.pdf"
doc = pymupdf.open(filename)  # use a Document for subsequent processing
TOC = doc.get_toc()  # use the table of contents for determining headers

def my_headers(span, page=None):
    """
    Provide some custom header logic (experimental!).
    This callable checks whether the span text matches any of the
    TOC titles on this page.
    If so, use TOC hierarchy level as header level.
    """
    # TOC items on this page:
    toc = [t for t in TOC if t[-1] == page.number + 1]

    if not toc:  # no TOC items on this page
        return ""

    # look for a match in the TOC items
    for lvl, title, _ in toc:
        if span["text"].startswith(title):
            return "#" * lvl + " "
        if title.startswith(span["text"]):
            return "#" * lvl + " "

    return ""

# this will *NOT* scan the document for font sizes!
md_text = pymupdf4llm.to_markdown(doc, hdr_info=my_headers)

class TocHeaders¶

注釈

Only if use_layout() is False

__init__(self, doc: pymupdf.Document | str)¶

ドキュメントの目次（TOC）を使用してヘッダーレベルを決定するオブジェクトを作成します。オブジェクト作成時に、Document.get_toc() メソッドを介して目次が読み取られます。その後、TOCデータは to_markdown() メソッドでヘッダーレベルを決定するために使用されます。

これは IdentifyHeaders の代替手段です。フォントサイズを識別するためにドキュメント全体を実行する代わりに、ドキュメントの目次（TOC）を使用してページ上のヘッダーを識別します。IdentifyHeaders と同様に、これもヘッダーを見つけることを保証するものではありませんが、適切に構築された目次の場合、フォントサイズベースのアプローチよりもドキュメントページ上のヘッダー行をより正確に識別できる可能性が高くなります。

また、ドキュメント全体のスキャンを実行したり、ドキュメントページにアクセスしたりしないため、フォントサイズベースのアプローチよりもはるかに高速であるという利点もあります。

このアプローチが非常にうまく機能する例としては、AdobeのPDFドキュメントに関するファイルがあります。

この機能は、目次が通常の標準テキストとして存在する可能性のある ドキュメントページを読み取りません。Document.get_toc() メソッドによって提供されるデータにのみアクセスします。目次がブックマークのコレクションとして利用できないドキュメントの場合、ヘッダーを識別しません。

get_header_id(self, span: dict, page=None) → str¶

適切なマークダウンヘッダープレフィックスを返します。これは空文字列、または「#」文字列とそれに続くスペースのいずれかです。

「dict」抽出バリアントからのテキストスパンを指定すると、0からn個の連結された「#」文字からなるマークダウンヘッダープレフィックス文字列を決定します。

パラメータ:

span (dict) -- テキストスパン情報を含む辞書です。これは page.get_text("dict") によって返される辞書と同じものです。
page (Page) -- 所有するページオブジェクトです。追加情報を抽出する必要がある場合に使用できます。

戻り値:

「#」文字列とそれに続くスペースです。

TocHeaders クラスの使用方法

これは、ヘッダー識別に TocHeaders を使用する以前の例2 のバージョンです

import pymupdf, pymupdf4llm

filename = "input.pdf"

doc = pymupdf.open(filename)  # use a Document for subsequent processing
my_headers = pymupdf4llm.TocHeaders(doc)  # use the table of contents for determining headers

# this will *NOT* scan the document for font sizes!
md_text = pymupdf4llm.to_markdown(doc, hdr_info=my_headers)

class pdf_markdown_reader.PDFMarkdownReader¶

load_data(file_path: Path | str, extra_info: Dict | None = None, **load_kwargs: Any) → List[LlamaIndexDocument]¶

これは、マークダウンデータを抽出するために現在使用すべきマークダウンリーダーの唯一のメソッドです。いかなる場合でも、aload_data() および lazy_load_data() メソッドは無視してください。use_doc_meta() などの他のメソッドは、意味がある場合とない場合があります。詳細については、LlamaIndexのドキュメント [1] を参照してください。

内部的には、このメソッドは to_markdown() を実行します。

戻り値:: LlamaIndexDocument ドキュメントのリストです。ページごとに1つです。

For a list of changes, please see file CHANGES.md.

脚注

This software is provided AS-IS with no warranty, either express or implied. This software is distributed under license and may not be copied, modified or distributed except as expressly authorized under the terms of that license. Refer to licensing information at artifex.com or contact Artifex Software Inc., 39 Mesa Street, Suite 108A, San Francisco CA 94129, United States for further information.

/* this script is used to adjust the search widget and to add line breaks after parameters in the signature blocks for better readability */