Extract Text from PDF C#

PDF ファイルからテキストを抽出することは、文書処理作業において一般的な要件です. この記事では、C# で効率的かつ多様なテキスト抽出のための Aspose.PDF のテキスト抽出プラグイン を使用するための深いガイドを提供します. 完全な文書、特定のページ、または定義された地域からテキストを抽出する必要があるかどうかにかかわらず、Aspose プラグインは、最小の努力で高性能の PDF テキスト抽出を容易にします。

Aspose.PDFのテキストエクストラクタープラグインのキー機能

Aspose.PDFのテキストエクストラクタープラグインの概要

Aspose.PDF の テキスト エクストラクター プラグイン for .NET** は PDF ドキュメントから テキスト を 抽出 する ための 強力 な ソリューション です. .NET アプリケーション で 働く 開発 者 に 特別 に 設計 さ れ て い ます. .NET Framework と .NET Core の PDF テキスト エクストラクター を サポート し て い ます. プラグイン は 3 つの 操作 モード を 提供 し て い ます。

  • Pure Mode:オリジナルのフォーマットと構造を維持しながらテキストを抽出します。
  • Raw モード:フォーマットなしでテキストを抽出します。
  • Plain モード: テキストを抽出し、すべてのフォーマットや特別な文字を削除します。

Asposeを使用する利点.PDF

  • Batch Processing:複数のPDFを同時に処理します。
  • カスタマイズ可能な設定:あなたの特定のニーズに合わせるために抽出設定をカスタマイズします。
  • Seamless Integration: 順調なワークフローのための .NET アプリケーションと直接統合します。
  • 高速パフォーマンス:最適化され、最小限のリソース消費量で迅速かつ正確なテキスト抽出に適しています。

C# PDF テキスト抽出で始まる

The ASPOSE.PDF for .NET library is a comprehensive tool for .NET developers seeking high-performance C# PDF text extraction. You can easily install it via NuGet:

PM> Install-Package Aspose.PDF

Alternatively, you can ダウンロード DLL to integrate it directly into your project, providing a reliable C# PDF text extraction solution.

テキストをC#でPDF全体から抽出する

PDFからすべてのテキストを抽出するには、以下の手順に従ってください。

  • Load the PDF using the 文書 class.
  • Create a テキストアプローチ object.
  • すべてのページに吸収器を適用します。
  • 抽出されたテキストをファイルに保存します。

例コード

PDF で特定ページからテキストを抽出する

単一ページからテキストを抽出するには:

  • PDFをダウンロードします。
  • Create a テキストアプローチ.
  • 望ましいページに吸収器を適用します。
  • 抽出されたテキストを保存します。

例コード

特定地域からのテキストをPDFで抽出する

ページの特定の領域からテキストを抽出するには、直角座標を定義します。

例コード

テキストの検索と抽出 Regex

通常の表現を使用して特定のパターンと一致するテキストを抽出するには:

  • PDFをダウンロードします。
  • レゲックスパターンを定義します。
  • Apply the pattern using テキストアプローチ.
  • 合致テキストフラグメントを抽出します。

例コード

テーブルデータをC#でテキストとして抽出する

テーブルからコンテンツを抽出するには:

  • PDFをダウンロードします。
  • Use テーブルアプローチ to navigate through table structures.
  • 細胞によるテキストセルを抽出します。

例コード

強調テキストをPDFで抽出する

強調されたテキストを抽出するには:

  • ノートを通してイタリア。
  • Filter テキストマーク.
  • 強調された部分を取り戻し、保存します。

例コード

テキスト抽出の最適化と低メモリ使用

i) Using **** and ****:

  • Call absorber.Reset() after processing each page.
  • Free memory held by pages using page.FreeMemory().

ii) Using メモリ Mode:

Set TextExtractionOptions.TextFormattingMode to optimize memory usage during PDF text extraction.

例コード

無料 C# PDF テキスト抽出図書館

Get a 無料の暫定ライセンス for unrestricted access to Aspose.PDF for .NET and unlock its full potential for efficient C# PDF text extraction.

結論

Aspose.PDF の テキスト エクストラクター プラグイン for .NET は、信頼性の高いテキスト エクストラクター タスクのための多様で効率的なソリューションを提供します. テキスト エクストラクター から 特定の ページまたは 地域 に テキスト エクストラクター から テキスト エクストラクター プロセス を 精度 と スピード で 簡素化 します. これは 利用可能な C# PDF テキスト エクストラクター ライブラリ の一つ です. 今日 PDF テキスト エクストラクター の 作業 流れ を 単純 に $ 99 で 簡素化 する

More in this category