PDF files are popular because they support text, images, animations, videos, and various annotations. However, for many documents, the text is the most crucial part. This article explains how to convert PDF files to TXT files and, conversely, TXT files to PDF using C# .NET. This conversion is particularly useful when you need to extract or focus solely on the text content of a PDF document, such as when performing text analysis or preparing content for reformatting.

De emner, der er dækket i denne guide, omfatter:

Tip: You might also be interested in a free Tekst til GIF Converter that allows you to generate animated GIFs from text.

C# TXT til PDF eller PDF til TXT Converter

Converting between PDF and TXT formats is essential when your main interest lies in the textual data within a document. Whether you need to strip out all formatting for simple text analysis or preserve some structured layout, the process can be accomplished with a few simple steps using the PDF til .NET API. This API is versatile and supports both C# and VB.NET, making it easy to integrate into your .NET applications.

To install the API in your application, you can either download the DLL files from Downloads or use the NuGet gallery. For example, install it via the Package Manager Console:

PM> Install-Package Aspose.PDF

Når API er installeret, kan du starte konverteringsprocessen med flere tilgange tilpasset forskellige behov.

C# Konverter PDF til TXT uden Formatering

Nogle gange behøver du kun den rå tekst fra et PDF-dokument uden yderligere formatering. Denne metode ekstrakter teksten præcis som det vises i dokumentet, uden at bevare bogstaver, spacing eller stilarter. Det er især nyttigt for tekstanalyse, søgning indexering, eller når layout er irrelevant.

Træk til Raw Text Extraction

  • Lad indtastning af PDF-dokumentet: Brug API til at lade PDF-filen ind i et dokumentobjekt.

  • ** Indled en StringBuilder:** Create an instance of the Stringbuilder class to efficiently accumulate text data.

  • Iterate gennem hver PDF-side: Gå gennem alle sider i dokumentet. for hver side:

  • Use Tekstudstyr to extract text.

  • Employ the Rød mode to ensure that formatting is not applied.

  • Save udgangsteksten: Skriv den akkumulerede tekst til en TXT-fil.

Koden snippet nedenfor illustrerer, hvordan man konverterer en PDF til en TXT-fil ved hjælp af Raw ekstraktionsmetoden:

Yderligere indsigt

  • ** Udførelse og enkelhed:** Raw tekst ekstraktion er normalt hurtigere, fordi det ikke forsøger at parse eller anvende nogen formatering regler.
  • Brug af tilfælde: Ideel til logekstraktion, søgindektering eller scenarier, hvor kun tekstindhold er nødvendig.

Konverter PDF til TXT-fil med Formatering Routiner ved hjælp af C# eller VB.NET

I andre scenarier er bevarelsen af formatering af teksten (som f.eks. afsnit, indentationer og kolumner) afgørende. Denne metode anvendes til formatering af rutiner for at spejle dokumentets layout i den resulterende TXT-fil.

Træk til tekstekstraktion med formatering

  • ** Last ned kilden PDF-filen:** Som før, lad PDF-dokumentet ind i din ansøgning.

  • ** Indled en String Variable:** Forbered en string til at indsamle formateret tekstudgang.

  • Extract tekst ved hjælp af formatering: For each page, use the TekstformattingMode.Pure option. This mode attempts to reproduce the original formatting as closely as possible.

  • Save den formaterede tekst: Udgå den indsamlede tekst til en TXT-fil, der bevarer struktureret formatering som linjebrud, indenter og tabspace.

Følgende kodeksempel viser, hvordan man konverterer en PDF til en TXT-fil med tekstformatering ved hjælp af C#:

Visuel sammenligning af RAW og Pure Extraction

Billedet nedenfor giver en visuel sammenligning af de to ekstraktionsmoder. På venstre side vises PDF’s tekst med sin oprindelige formatering (Pure mode), mens den højre viser rå tekst uden nogen formatering. Denne sammenligning kan hjælpe dig med at bestemme, hvilken metode passer bedst til dine behov.

Convert PDF TXT csharp

Konverter TXT fil til PDF Programmetisk ved hjælp af C# eller VB.NET

Konvertering af en TXT-fil tilbage til en PDF er nyttig, når du har brug for at producere et poleret dokument fra blank tekstindhold. Denne proces involverer læsning af teksten og derefter at anvende PDF-formatering til at skabe et dokument, der er visuelt attraktive og klar til distribution.

Steg for TXT til PDF konvertering

  • ** Skab en tekstreader instans:** Use the Tekstlæsere class to read content from the TXT file.

  • Initiere et nyt PDF-dokument og tilføje en hvid side: Create an instance of the Dokumentation class and add a new page.

  • Instantiere et TextBuilder-objekt: Use the Tekstilbygger to construct text paragraphs with desired formatting, such as font, size, and color.

  • ** Læs og tilføj hver linje af tekst:** Gå gennem linjerne i TXT-filen, ved at tilføje hver linje til TextBuilder-objektet.

  • Save udgangen af PDF: Use the Sikkerhed (String) method to write the final PDF file to disk.

Nedenfor viser koden, hvordan man konverterer en TXT-fil til et PDF-dokument ved hjælp af C#:

Overvejelser ved konvertering af TXT til PDF

  • Layout og stil: Du behøver muligvis at justere marginer, linjer og andre tekstegenskaber for at sikre, at PDF’en er velformateret og læses.
  • Forklaring af fejl: Implementering af fejlkontrol under fil læsning og skrive operationer til at håndtere scenarier som fil adgang problemer eller koding af fejl.

Konklusion

In this article, we demonstrated the techniques for converting PDF files to TXT and TXT files to PDF using C# or VB.NET in the .NET Framework. Whether you opt for raw text extraction for speed and simplicity or require formatted text to retain document layout, the PDF til .NET API offers reliable and flexible solutions. These conversion methods are invaluable for data processing, document archiving, and content repurposing.

If you have any questions or require further assistance, please visit our Gratis supportforum or review the Produktdokumentation.

Se også

More in this category