PDF files are popular because they support text, images, animations, videos, and various annotations. However, for many documents, the text is the most crucial part. This article explains how to convert PDF files to TXT files and, conversely, TXT files to PDF using C# .NET. This conversion is particularly useful when you need to extract or focus solely on the text content of a PDF document, such as when performing text analysis or preparing content for reformatting.
Die in diesem Leitfaden abgedeckten Themen umfassen:
- C# TXT in PDF oder PDF in TXT Converter API
- C# Konvertieren PDF in TXT ohne Formatierung
- Konvertieren von PDF in TXT-Datei mit Formatering Routine mit C# oder VB.NET
- Konvertieren TXT-Datei in PDF Programmierbar mit C# oder VB.NET
Tip: You might also be interested in a free Text zu GIF Converter that allows you to generate animated GIFs from text.
C# TXT in PDF oder PDF in TXT Converter
Converting between PDF and TXT formats is essential when your main interest lies in the textual data within a document. Whether you need to strip out all formatting for simple text analysis or preserve some structured layout, the process can be accomplished with a few simple steps using the Aspose.PDF für .NET API. This API is versatile and supports both C# and VB.NET, making it easy to integrate into your .NET applications.
To install the API in your application, you can either download the DLL files from Downloads or use the Neugier gallery. For example, install it via the Package Manager Console:
PM> Install-Package Aspose.PDF
Sobald die API installiert ist, können Sie den Konvertierungsprozess mit mehreren Ansätzen beginnen, die an verschiedene Bedürfnisse angepasst sind.
C# Konvertieren PDF in TXT ohne Formatieren
Manchmal benötigen Sie nur den Rohtext aus einem PDF-Dokument ohne zusätzliche Formatierung. Diese Methode extrahiert den Text genau so, wie es im Dokument erscheint, ohne Schriften, Spazierungen oder Styles zu bewahren. Es ist besonders nützlich für Textanalyse, Suchindexierung oder wenn die Layout irrelevant ist.
Schritt für Raw Text Extraction
Laden Sie das PDF-Dokument ein: Verwenden Sie die API, um die PDF-Datei in ein Dokumentobjekt zu laden.
Initialisieren Sie einen StringBuilder: Create an instance of the StringBuilder class to efficiently accumulate text data.
Iterate durch jede PDF-Seite: Laufen Sie durch alle Seiten des Dokuments. Für jede Seite:
Use Textübergabe to extract text.
Employ the Rohmodus to ensure that formatting is not applied.
Speichern Sie den Ausgangstext: Schreiben Sie den akkumulierten Text in eine TXT-Datei.
Der Code-Snippet unten zeigt, wie man ein PDF in eine TXT-Datei mit der Raw-Extraktionsmethode umwandelt:
Zusätzliche Insights
- Leistung und Einfachheit: Rohtext-Extraktion ist in der Regel schneller, weil es versucht, keine Formattungsregeln zu vertreiben oder anzuwenden.
- Verwendung von Fällen: Ideal für Log-Extraktion, Suchindizierung oder Szenarien, in denen nur Textinhalt erforderlich ist.
Konvertieren Sie PDF in TXT-Datei mit Formatering Routine mit C# oder VB.NET
In anderen Szenarien ist die Erhaltung der Formatierung des Textes (z. B. Absätze, Indentationen und Spalten) entscheidend. Diese Methode gilt für die Formatierung von Routinen, um die Layout des Dokuments in der resultierenden TXT-Datei zu spiegeln.
Schritte für Text-Extraktion mit Formatierung
Laden Sie die Quelle PDF-Datei herunter: Wie zuvor, laden Sie das PDF-Dokument in Ihre Anwendung.
Starten Sie eine String Variable: Bereiten Sie einen String vor, um formatierte Text-Ausgabe zu sammeln.
Extrakt Text mit Formattungsmodus: For each page, use the TextformattingMode.Pure option. This mode attempts to reproduce the original formatting as closely as possible.
Speichern Sie den formatierten Text: Ausführen Sie den gesammelten Text in eine TXT-Datei, die strukturierte Formatierung wie Linebrechen, Indents und Tab-Spacing beibehält.
Das folgende Code Beispiel zeigt, wie man ein PDF in eine TXT-Datei mit Textformat mit C# umwandelt#:
Visual Vergleich von RAW und Pure Extraction
Das Bild unten bietet eine visuelle Vergleich der beiden Extraction-Modus. Auf der linken Seite erscheint der PDF-Text mit seiner ursprünglichen Formatierung (Pure-Modus), während der rechte Drehtext ohne Formatierung anzeigt.

Konvertieren Sie TXT-Datei in PDF Programmierbar mit C# oder VB.NET
Umwandeln eines TXT-Datei zurück in ein PDF ist nützlich, wenn Sie ein poliertes Dokument aus reinem Text-Inhalt produzieren müssen. Dieser Prozess beinhaltet das Lesen des Textes und dann die Anwendung von PDF-Formatierung, um ein Dokument zu erstellen, das visuell attraktiv und bereit für die Verteilung ist.
Schritte für TXT in PDF-Konvertierung
Eine Textreader-Instanz erstellen: Use the Textreader class to read content from the TXT file.
Starten Sie ein neues PDF-Dokument und fügen Sie eine weiße Seite hinzu: Create an instance of the Dokumentation class and add a new page.
Installieren Sie ein TextBuilder-Objekt: Use the Textverarbeiter to construct text paragraphs with desired formatting, such as font, size, and color.
Lesen und hinzufügen Sie jede Linie des Textes: Laufen Sie durch die Zeilen im TXT-Datei, indem Sie jede Zeile auf das TextBuilder-Objekt hinzufügen.
Speichern Sie die Ausgabe PDF: Use the Dokument.Save (String) auf der Seite) method to write the final PDF file to disk.
Der Code-Snippet unten zeigt, wie man eine TXT-Datei in ein PDF-Dokument mit C# umwandelt#:
Überlegungen beim Umwandeln von TXT in PDF
- Layout und Stil: Sie müssen möglicherweise Margen, Line Spacing und andere Text-Eigenschaften anpassen, um sicherzustellen, dass das PDF gut formatiert und lesen kann.
- Fehlerbehandlung: Implementieren Sie Fehlerüberprüfung während der Datei Lesen und Schreiben Operationen, um Szenarien wie Datei-Access-Probleme oder Verschlüsselung Fehler zu behandeln.
Schlussfolgerungen
In this article, we demonstrated the techniques for converting PDF files to TXT and TXT files to PDF using C# or VB.NET in the .NET Framework. Whether you opt for raw text extraction for speed and simplicity or require formatted text to retain document layout, the Aspose.PDF für .NET API offers reliable and flexible solutions. These conversion methods are invaluable for data processing, document archiving, and content repurposing.
If you have any questions or require further assistance, please visit our Free Support Forum or review the Produktdokumentation.
Sehen Sie auch
More in this category
- Konvertieren von PDF in EPUB in C#
- Aspose.PDF: 99 $ Plugins für leistungsstarke PDF-Verarbeitung
- PDF in PNG-Bilder in C# konvertieren | Aspose.PDFs PNG-Konverter-Plugin
- Tabellen in PDF-Dateien mit C# erstellen | Aspose.PDFs Tabellen-Generator-Plugin
- Wie man Bilder aus PDF-Dateien in C# extrahiert | Aspose.PDF Bildextraktor