Extract Text from PDF C#

Витяг тексту з PDF-файлів є загальним вимогою у справах обробки документів. Ця стаття надає глибокий посібник щодо використання Aspose.PDF’s Text Extractor Plugin для ефективного і різноманітного витягу тексту в C#. Незалежно від того, чи потрібно витягувати текст з цілого документа, конкретних сторінок або визначених регіонів, Aspose Plugin сприяє високопродуктивному витягу тексту PDF з мінімальними зусиллями.

Ключові функції Aspose.PDF Text Extractor Plugin

Докладніше: Aspose.PDF’s Text Extractor Plugin

Aspose.PDF’s Text Extractor Plugin for .NET є міцним рішенням для екстракції тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-прикладами, підтримуючи як .NET Framework, так і .NET Core для екстракції тексту PDF.

  • Чистий режим: витягує текст, зберігаючи оригінальний формат і структуру.
  • Raw Mode: Витягує текст без будь-якого форматування.
  • Plain Mode: Витягує текст і видаляє всі формати та спеціальні символи.

Переваги використання Aspose.PDF

  • Batch Processing: обробка кількох файлів PDF одночасно.
  • **Налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування.
  • Безкоштовна інтеграція: безпосередньо інтегрується з додатками .NET для плавних робочих потоків.
  • Високошвидкісна продуктивність: Оптимізована для швидкого, точного видобутку тексту з мінімальним споживанням ресурсів.

Починаючи з C# PDF Text Extraction

The Aspose.PDF для .NET library is a comprehensive tool for .NET developers seeking high-performance C# PDF text extraction. You can easily install it via NuGet:

PM> Install-Package Aspose.PDF

Alternatively, you can Завантажити DLL to integrate it directly into your project, providing a reliable C# PDF text extraction solution.

Витяг тексту з цілого PDF в C#

Щоб витягти весь текст з PDF, слідкуйте за цими кроками:

Код прикладу

Витяг тексту з конкретних сторінок в PDF

Завантажити текст з однієї сторінки:

  • Завантажити PDF.
  • Create a Текстовий абсорбтор.
  • Нанесіть абсорбтор на бажану сторінку.
  • Зберегти витягнутий текст.

Код прикладу

Витяг тексту з конкретних регіонів у PDF

Для екстракції тексту з конкретних областей сторінки визначайте прямокутні координати.

Код прикладу

Пошук та екстракція тексту за допомогою Regex

Для екстракції тексту, що відповідає конкретному зразку за допомогою регулярних виразів:

  • Завантажити PDF.
  • Визначте регексний зразк.
  • Apply the pattern using Текстовий абсорбтор.
  • Витяг відповідних текстових фрагментів.

Код прикладу

Витяг табличних даних як тексту в C#

Для вилучення контенту з таблиць:

  • Завантажити PDF.
  • Use Таблиця Absorber to navigate through table structures.
  • Витяг тексту за клітиною.

Код прикладу

Витяг підкреслюваного тексту в PDF

Для витягування підкреслюваного тексту:

Код прикладу

Оптимізація тексту з використанням низької пам’яті

i) Using **** and ****:

  • Call absorber.Reset() after processing each page.
  • Free memory held by pages using page.FreeMemory().

ii) Using Пам’ять Mode:

Set TextExtractionOptions.TextFormattingMode to optimize memory usage during PDF text extraction.

Код прикладу

Безкоштовний C# PDF Бібліотека екстракції тексту

Get a Безкоштовна тимчасова ліцензія for unrestricted access to Aspose.PDF for .NET and unlock its full potential for efficient C# PDF text extraction.

Заключення

Aspose.PDF’s Text Extractor Plugin for .NET пропонує різноманітне і ефективне рішення для надійних завдань з видобутку тексту. Від видобутку тексту з цілих документів до конкретних сторінок або регіонів, він ускладжує процес з точністю і швидкістю. Це робить його однією з кращих доступних бібліотек з видобутку тексту C# PDF. Спробуйте сьогодні спростити робочі потоки з видобутку тексту PDF за тільки $99!

More in this category