Extract Text from PDF C#

Odstranění textu z souborů PDF je běžným požadavkem v úlohách zpracování dokumentů. Tento článek poskytuje důkladný průvodce používání Aspose.PDF Text Extractor Plugin pro efektivní a všestrannou textovou extrakci v C#. Ať už potřebujete odstranit text z celého dokumentu, konkrétních stránek nebo definovaných oblastí, Aspose Plugin usnadňuje vysoce výkonnou PDF textovou extrakci s minimálním úsilím.

Klíčové vlastnosti programu Aspose.PDF Text Extractor Plugin

Přehled programu Aspose.PDF Text Extractor Plugin

Aspose.PDF Text Extractor Plugin pro .NET** je robustní řešení pro extrahování textu z dokumentů PDF. Je speciálně navržen pro vývojáře pracující s aplikacemi .NET, podporující jak .NET Framework, tak .NET Core pro PDF text extrahován:

  • Pure Mode: Vyrábí text při zachování původního formátování a struktury.
  • Raw Mode: Vyrábí text bez formátován.
  • Plain Mode: Odstraňuje text a odstraňuje všechny formátování a speciální znaky.

Výhody použití Aspose.PDF

  • Batch Processing: Jedná se o více PDF souběžn.
  • Přizpůsobitelné nastavení: Přizpůsobte nastavení extrakce tak, aby odpovídalo vašim specifickým potřebám.
  • Seamless Integration: Přímá integrace s aplikacemi .NET pro hladké pracovní toky.
  • High-Speed Performance: Optimalizován pro rychlé a přesné textové extrakce s minimální spotřebou zdroj.

Začněte s C# PDF Text Extraction

The Aspose.PDF pro .NET library is a comprehensive tool for .NET developers seeking high-performance C# PDF text extraction. You can easily install it via NuGet:

PM> Install-Package Aspose.PDF

Alternatively, you can Stáhněte si DLL to integrate it directly into your project, providing a reliable C# PDF text extraction solution.

Odstranění textu z plného PDF v C#

Chcete-li extrahovat celý text z PDF, postupujte podle následujících krok:

  • Load the PDF using the Dokumenty class.
  • Create a Textová absorpce object.
  • Aplikujte absorptor na všechny stránky.
  • Uložte extrahovaný text do souboru.

Příkladový kód

Odstranění textu z konkrétních stránek v PDF

Pro extrahování textu z jedné stránky:

  • Stáhněte si PDF.
  • Create a Textová absorpce.
  • Aplikujte absorptor na požadovanou stránku.
  • Shromažďujte extrahovaný text.

Příkladový kód

Odstranění textu z konkrétních oblastí v PDF

Chcete-li extrahovat text z konkrétních oblastí stránky, definujte rektangulární koordináty:

Příkladový kód

Vyhledávání a extrakce textu pomocí Regex

Chcete-li extrahovat text, který odpovídá konkrétnímu vzoru pomocí pravidelných výraz:

  • Stáhněte si PDF.
  • Využijte režim regex.
  • Apply the pattern using Textová absorpce.
  • Připojte se k textovým fragmentům.

Příkladový kód

Vytažení tabulkových údajů jako textu v C#

Pro extrahování obsahu z tabulek:

  • Stáhněte si PDF.
  • Use Tabulka Absorpce to navigate through table structures.
  • Odstranění textové buňky po buňce.

Příkladový kód

Vytažení zdůrazněného textu v PDF

K vyjádření zdůrazněného textu:

  • Iterate prostřednictvím poznámek.
  • Filter TextMarkupNotace.
  • Odstraňte a uložte zdůrazněné fragmenty.

Příkladový kód

Optimalizace textové extrakce s nízkým využitím paměti

i) Using **** and ****:

  • Call absorber.Reset() after processing each page.
  • Free memory held by pages using page.FreeMemory().

ii) Using paměťové Mode:

Set TextExtractionOptions.TextFormattingMode to optimize memory usage during PDF text extraction.

Příkladový kód

Zdarma C# PDF Text Extraction Library {#Zdarma licence}

Get a Zdarma dočasná licence for unrestricted access to Aspose.PDF for .NET and unlock its full potential for efficient C# PDF text extraction.

závěr

Aspose.PDF Text Extractor Plugin pro .NET nabízí všestranné a efektivní řešení pro spolehlivé úkoly extrakce textu. Od extrakce textu z celého dokumentu do konkrétních stránek nebo regionů, usnadňuje proces s přesností a rychlostí. To z něj dělá jednu z nejlepších knihoven pro extrakci textu C# PDF k dispozici. Vyzkoušejte to dnes, abyste zjednodušili pracovní toky extrakce textu PDF za pouhých $99!

More in this category