PDF documents are essential in many business processes, often requiring programmatic access to their scanned content. Extracting text from scanned PDF files can be challenging, emphasizing the need for effective tools. In this tutorial, we will explore how to OCR PDF documents and extract text from PDF in C# using the reliable ASPOSE.OCR para .NET API, una biblioteca de extracción de PDF líder C# OCR disponible para evaluación gratuita.

Lo que aprenderás

En este artículo abordaremos los siguientes temas:

Revisión de Aspose.OCR para .NET API

We will utilize the ASPOSE.OCR para .NET API, **.

The API features the AsposaOcr class, which provides multiple methods for OCR operations. Notably, the RecognizePdf(string, DocumentRecognitionSettings) method is essential for extracting text from a specified PDF document. The Recogida de Documentos class allows customization of the recognition process, while the Reconocimiento Resultado class encapsulates the results of the recognition.

You can Descarga el DLL de la API or install it via Nuevos:

PM> Install-Package Aspose.OCR

Pasos a OCR PDF y Extract Text en C#

Para realizar OCR en documentos PDF y extraer el texto reconocido, siga estos pasos:

  • Crea una instancia de la clase **AsposeOcr.
  • Iniciar un objeto de la clase **DocumentRecognitionSettings.
  • Especificar el idioma para OCR.
  • Obtain the RecognitionResult by invoking the RecognizePdf() method, passing the image path and the Recogida de Documentos object.
  • Pasar a través de la lista RecognitionResult para mostrar el texto identificado.

Aquí hay un ejemplo que ilustra cómo obtener documentos PDF de OCR y extraer texto reconocido en C#:

OCR PDF y extraer texto de PDF en C#

Cómo realizar OCR en PDF y guardar texto en C#

Para realizar OCR en documentos PDF y salvar el texto reconocido, siga estos pasos:

  • Crea una instancia de la clase **AsposeOcr.
  • Iniciar un objeto de la clase **DocumentRecognitionSettings.
  • Especificar el idioma para OCR.
  • Póngase en contacto con el método RecognizePdf() para obtener el RecognitionResult.
  • Save the text using the SaveMultipageDocument() method, which requires the output file path, the Salvación, and the Reconocimiento Resultado object.

Aquí hay un ejemplo que demuestra cómo acceder a documentos PDF de OCR y guardar el texto reconocido en C#:

Performan OCR en PDF y guardan texto en C#

Convertir OCR PDF a Word en C#

Para convertir documentos de PDF escaneados a Word, siga los mismos pasos que se mencionaron anteriormente, pero especifique SaveFormat.Docx en el paso final.

Aquí hay un ejemplo que ilustra cómo acceder a OCR PDF y guardar el texto reconocido como documento de Word en C#:

OCR PDF y Convertir Scanned PDF en Word en C#

Convertir OCR PDF a JSON en C#

Para guardar el texto reconocido de los documentos PDF en un archivo JSON, siga los pasos anteriores con el único cambio de ser especificar SaveFormat.Json en el paso final.

Aquí hay un ejemplo que demuestra cómo acceder a OCR PDF y guardar el texto reconocido como un archivo JSON en C#:

Obtenga una licencia de evaluación gratuita

You can Obtener una licencia temporal gratuita to evaluate the Aspose.OCR for .NET API without any limitations.

Conclusión

In this tutorial, we learned how to perform OCR on PDF documents and extract text from PDF in C#. We also explored how to save the recognized text as a TXT, DOCX, and JSON file. For more information on the Aspose.OCR for .NET API, check out its Documentación. If you have any questions, feel free to reach out to us on our El Foro.

Ver también

Al aprovechar la Aspose.OCR para .NET API, puede implementar una alta precisión PDF OCR en C# para diversas aplicaciones, incluyendo el procesamiento de facturas y el manejo de formularios. Esta afiable solución de .Net PDF O CR es perfecta para los desarrolladores que buscan integrar las capacidades OCR PDF con eficacia en sus Aplicaciones.

Además, si necesita convertir PDF en texto en C#, esta API proporciona una solución sencilla.Para aquellos interesados en C# OCR PDF a texto capacidades, la integración es sin sentido, lo que permite la extracción de texto eficiente de varios formatos de documento.También puede utilizar la funcionalidad c# Convert PDF to Text para manejar fácilmente la extración del texto de PDF, haciendo su proceso de desarrollo más suave.

Si usted está buscando un ejemplo Aspose OCR C#, este guía sirve como un recurso integral. Además, para tareas intricadas como el procesamiento de las facturas C# oCR o la utilización de una API** de *c#, esta tutorial cubre todos los elementos esenciales necesarios para comenzar de manera efectiva.

More in this category