PDF files are popular because they support text, images, animations, videos, and various annotations. However, for many documents, the text is the most crucial part. This article explains how to convert PDF files to TXT files and, conversely, TXT files to PDF using C# .NET. This conversion is particularly useful when you need to extract or focus solely on the text content of a PDF document, such as when performing text analysis or preparing content for reformatting.

Los temas cubiertos en esta guía incluyen:

Tip: You might also be interested in a free Título en GIF Converter that allows you to generate animated GIFs from text.

C# TXT a PDF o PDF a TXT Converter

Converting between PDF and TXT formats is essential when your main interest lies in the textual data within a document. Whether you need to strip out all formatting for simple text analysis or preserve some structured layout, the process can be accomplished with a few simple steps using the Página web.pdf para .NET API. This API is versatile and supports both C# and VB.NET, making it easy to integrate into your .NET applications.

To install the API in your application, you can either download the DLL files from Descargar or use the Nuevos gallery. For example, install it via the Package Manager Console:

PM> Install-Package Aspose.PDF

Una vez que se instala la API, puede comenzar el proceso de conversión con varios enfoques adaptados a diferentes necesidades.

C# Convertir PDF a TXT sin Formatar

A veces, sólo necesita el texto crudo de un documento PDF sin ningún formato adicional. Este método extrae el texto exactamente como aparece en el documento, sin preservar las letras, el espacio o los estilos. Es particularmente útil para el análisis de texto, la indicación de búsqueda, o cuando el diseño es irrelevante.

Pasos para la extracción de texto crudo

  • Carga el documento de entrada PDF: Utilice la API para cargar el archivo PDF en un objeto de documento.

  • Iniciación a un StringBuilder: Create an instance of the El StringBuilder class to efficiently accumulate text data.

  • Iterate a través de cada página PDF: A través de todas las páginas del documento. para cada página:

  • Use TextoDevice to extract text.

  • Employ the El modo Raw to ensure that formatting is not applied.

  • Salva el texto de salida: Escribe el texto acumulado en un archivo TXT.

El snippet de código a continuación ilustra cómo convertir un PDF en un archivo TXT utilizando el método de extracción Raw:

Insights adicionales

  • Desarrollo y simplicidad: La extracción de texto crudo es generalmente más rápida porque no intenta parse ni aplicar ninguna regla de formatación.
  • Casos de uso: Ideal para extracción de logs, índice de búsqueda o escenarios donde solo se requiere el contenido textual.

Convertir PDF a Ficheo TXT con Routinas de Formatación utilizando C# o VB.NET

En otros escenarios, la preservación de la formatación del texto (como parágrafos, indentaciones y columnas) es crucial.Este método se aplica a la formatación de rutinas para reflejar el diseño del documento en el archivo TXT resultante.

Pasos para la extracción de texto con formatación

  • Cargar el archivo PDF de la fuente: Como antes, cargue el documento PDF en su aplicación.

  • Inicio de una variable de string: Preparar una cinta para recoger la salida de texto formado.

  • Extracto de texto utilizando el modo de formatación: For each page, use the Página de textoMode.Pure option. This mode attempts to reproduce the original formatting as closely as possible.

  • Salva el texto formado: Exporta el texto recogido a un archivo TXT que mantiene formatos estructurados como brechas de línea, indentes y espacio de tablas.

El siguiente ejemplo de código muestra cómo convertir un PDF en un archivo TXT con formato de texto utilizando C#:

Comparación visual de RAW y Pure Extraction

La imagen a continuación proporciona una comparación visual de los dos modos de extracción.En la izquierda, el texto del PDF aparece con su formato original (modo puro), mientras que la derecha muestra el texto crudo sin ningún formato.

Convert PDF TXT csharp

Convertir el archivo TXT en PDF de forma programática utilizando C# o VB.NET

Convertir un archivo TXT de vuelta a un PDF es útil cuando necesitas producir un documento polido de contenido de texto plano. Este proceso implica leer el texto y luego aplicar el formato PDF para crear un documento que es visualmente atractivo y listo para la distribución.

Pasos para la conversión de TXT a PDF

  • Crea una instancia de texto: Use the TextoReader class to read content from the TXT file.

  • Iniciar un nuevo documento PDF y agregar una página blanca: Create an instance of the Documento class and add a new page.

  • Instalar un Objeto TextBuilder: Use the TextoEditar to construct text paragraphs with desired formatting, such as font, size, and color.

  • Leer y añadir cada línea de texto: Pasar a través de las líneas en el archivo TXT, añadiendo cada línea al objeto TextBuilder.

  • Salva la salida PDF: Use the SiguienteSiguienteSiguienteSiguienteSiguiente) method to write the final PDF file to disk.

El corte de código a continuación muestra cómo convertir un archivo TXT en un documento PDF utilizando C#:

Consideraciones Cuando Convertir TXT en PDF

  • Layout y estilo: Puede que necesite ajustar las margen, el espacio de línea y otras propiedades de texto para asegurarse de que el PDF sea bien formátado y leible.
  • El tratamiento de los errores: Implementar la verificación de errores durante las operaciones de lectura y escritura de archivos para gestionar escenarios como problemas de acceso al archivo o codificación de errores.

Conclusión

In this article, we demonstrated the techniques for converting PDF files to TXT and TXT files to PDF using C# or VB.NET in the .NET Framework. Whether you opt for raw text extraction for speed and simplicity or require formatted text to retain document layout, the Página web.pdf para .NET API offers reliable and flexible solutions. These conversion methods are invaluable for data processing, document archiving, and content repurposing.

If you have any questions or require further assistance, please visit our Foro de apoyo gratuito or review the Documentación del producto.

Ver también

More in this category