PDF files are popular because they support text, images, animations, videos, and various annotations. However, for many documents, the text is the most crucial part. This article explains how to convert PDF files to TXT files and, conversely, TXT files to PDF using C# .NET. This conversion is particularly useful when you need to extract or focus solely on the text content of a PDF document, such as when performing text analysis or preparing content for reformatting.

Témy pokryté v tomto sprievodcovi zahŕňajú:

Tip: You might also be interested in a free Text na GIF Converter that allows you to generate animated GIFs from text.

C# TXT na PDF alebo PDF na TXT Converter

Converting between PDF and TXT formats is essential when your main interest lies in the textual data within a document. Whether you need to strip out all formatting for simple text analysis or preserve some structured layout, the process can be accomplished with a few simple steps using the Aspose.PDF pre .NET API. This API is versatile and supports both C# and VB.NET, making it easy to integrate into your .NET applications.

To install the API in your application, you can either download the DLL files from sťahovanie or use the NuGet gallery. For example, install it via the Package Manager Console:

PM> Install-Package Aspose.PDF

Po inštalácii API môžete začať proces konverzie niekoľkými prístupmi prispôsobenými rôznym potrebám.

C# Konvertovať PDF na TXT bez formátovania

Niekedy potrebujete iba surový text z dokumentu PDF bez akéhokoľvek ďalšieho formátovania. Táto metóda extrahuje text presne tak, ako sa zobrazuje v dokumente, bez zachovania písmen, rozsahov alebo štýlov. Je to obzvlášť užitočné pre textovú analýzu, indexovanie vyhľadávania, alebo keď je rozloženie nezávislé.

Krok pre extrakciu surového textu

  • ** Stiahnuť vstupný PDF dokument:** Použite API na načítanie súboru PDF do objektu dokumentu.

  • Initializujte StringBuilder: Create an instance of the Stringbuilder class to efficiently accumulate text data.

  • Iterate cez každú PDF stránku: Prejdite cez všetky stránky v dokumente. pre každú stránku:

  • Use Textové zariadenie to extract text.

  • Employ the Raw režim to ensure that formatting is not applied.

  • Zachráňte výstupný text: Napíšte nahromadený text do súboru TXT.

Snippet kódu nižšie ilustruje, ako previesť PDF do súboru TXT pomocou metódy extrakcie Raw:

Ďalšie inšpekcie

  • ** Výkon a jednoduchosť:** Hrubá textová extrakcia je zvyčajne rýchlejšia, pretože sa nepokúšajú rozptýliť alebo uplatňovať žiadne pravidlá formátovania.
  • Používa sa prípady: Ideálne pre vytiahnutie záznamov, indexovanie vyhľadávania alebo scenáre, kde je potrebný iba textový obsah.

Konvertovať PDF do TXT súboru s Formátovanie rutiny pomocou C# alebo VB.NET

V iných scenároch je zachovanie formátovania textu (ako sú odseky, indentácie a stĺpce) kľúčové. Táto metóda sa vzťahuje na formátovanie rutín, ktoré odrážajú rozloženie dokumentu v výslednom súbore TXT.

Krok pre textovú extrakciu s formátovaním

  • ** Stiahnuť zdroj PDF súbor:** Ako predtým, nainštalujte dokument PDF do aplikácie.

  • ** Začiatok striekacieho variantu:** Pripravte riadok na zhromažďovanie formátovaných textových výstupov.

  • Extrakt textu pomocou režimu formátovania: For each page, use the TextFormatovanieMode.Pure option. This mode attempts to reproduce the original formatting as closely as possible.

  • Zachráňte formátovaný text: Vypnite zhromaždený text do súboru TXT, ktorý zachová štruktúrované formátovanie, ako sú prerušenia riadkov, indenty a tabové rozhranie.

Nasledujúci príklad kódu ukazuje, ako premeniť PDF na TXT súbor s textovým formátovaním pomocou C#:

Vizuálne porovnanie RAW a Pure Extraction

Obrázok nižšie poskytuje vizuálne porovnanie dvoch režimov extrakcie.Na ľavej strane sa text PDF zobrazí so svojím pôvodným formátovaním (čistý režim), zatiaľ čo pravý zobrazuje surový text bez formátovania.

Convert PDF TXT csharp

Konvertovať TXT súbor do PDF Programaticky pomocou C# alebo VB.NET

Konvertovanie súboru TXT späť do PDF je užitočné, keď potrebujete vytvoriť polizovaný dokument z plochého textového obsahu. Tento proces zahŕňa čítanie textu a potom aplikovať formátovanie PDF na vytvorenie dokumentu, ktorý je vizuálne atraktívny a pripravený na distribúciu.

Krok pre TXT na konverziu PDF

  • ** Vytvorte textReader inštanciu:** Use the Textový čitateľ class to read content from the TXT file.

  • Initializujte nový PDF dokument a pridajte bielu stránku: Create an instance of the dokumenty class and add a new page.

  • Inštalovať textBuilder objekt: Use the Textový tvorca to construct text paragraphs with desired formatting, such as font, size, and color.

  • Prečítajte si a pridajte každú čiaru textu: Prejdite cez riadky v súbore TXT, pripojiť každú čiaru k objektu TextBuilder.

  • Zachráňte výstup PDF: Use the String – zachrániť (string ) method to write the final PDF file to disk.

Nižšie uvedený kód ukazuje, ako premeniť súbor TXT na PDF dokument pomocou C#:

Uvažovanie pri konvertovaní TXT do PDF

  • Rozloženie a štýl: Môžete potrebovať upraviť hranice, rozsah línie a ďalšie textové vlastnosti, aby sa zabezpečilo, že PDF je dobre formátovaný a čitateľný.
  • Chyby v riešení: Vykonajte kontrolu chýb počas čítania súborov a písania operácií na riešenie scenárov, ako sú problémy s prístupom k súborom alebo kódovanie chýb.

Záver

In this article, we demonstrated the techniques for converting PDF files to TXT and TXT files to PDF using C# or VB.NET in the .NET Framework. Whether you opt for raw text extraction for speed and simplicity or require formatted text to retain document layout, the Aspose.PDF pre .NET API offers reliable and flexible solutions. These conversion methods are invaluable for data processing, document archiving, and content repurposing.

If you have any questions or require further assistance, please visit our Fórum bezplatnej podpory or review the Dokumentácia produktu.

Pozri tiež

More in this category