PDF documents are essential in many business processes, often requiring programmatic access to their scanned content. Extracting text from scanned PDF files can be challenging, emphasizing the need for effective tools. In this tutorial, we will explore how to OCR PDF documents and extract text from PDF in C# using the reliable Aspose.OCR pour .NET API, une bibliothèque d’extraction PDF de premier plan C# OCR disponible pour une évaluation gratuite.

Ce que vous apprendrez

Dans cet article, nous allons couvrir les sujets suivants :

Résumé de Aspose.OCR pour .NET API

We will utilize the Aspose.OCR pour .NET API, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

The API features the Aspoïdes class, which provides multiple methods for OCR operations. Notably, the RecognizePdf(string, paramètres de reconnaissance de document) method is essential for extracting text from a specified PDF document. The Documents de reconnaissance class allows customization of the recognition process, while the ReconnaissanceRésultat class encapsulates the results of the recognition.

You can Téléchargez le DLL de l’API or install it via Nouveau:

PM> Install-Package Aspose.OCR

Étapes vers OCR PDF et Extrait du texte en C#

Pour effectuer l’OCR sur les documents PDF et extraire le texte reconnu, suivez les étapes suivantes:

  • Créez un exemple de la classe AsposeOcr.
  • Initialisez un objet de la classe DocumentRecognitionSettings.
  • Déterminer le langage pour OCR.
  • Obtain the RecognitionResult by invoking the RecognizePdf() method, passing the image path and the Documents de reconnaissance object.
  • Passez à travers la liste RecognitionResult pour afficher le texte identifié.

Voici un exemple illustrant comment à OCR PDF documents et extraire le texte reconnu en C#:

OCR PDF et extraire le texte de PDF en C#

Comment réaliser OCR sur PDF et enregistrer le texte en C#

Pour effectuer l’OCR sur les documents PDF et enregistrer le texte reconnu, suivez les étapes suivantes :

  • Créez un exemple de la classe AsposeOcr.
  • Initialisez un objet de la classe DocumentRecognitionSettings.
  • Déterminer le langage pour OCR.
  • Appelez le RecognizePdf() pour obtenir le RecognitionResult.
  • Save the text using the SaveMultipageDocument() method, which requires the output file path, the Sauvegarde, and the ReconnaissanceRésultat object.

Voici un exemple montrant comment faire des documents OCR PDF et enregistrer le texte reconnu en C#:

Exécutez OCR sur PDF et sauvegardez le texte en C#

Convertir OCR PDF à Word en C#

Pour convertir les documents PDF scannés en Word, suivez les mêmes étapes que celles indiquées ci-dessus, mais spécifiez SaveFormat.Docx dans la dernière étape.

Voici un exemple illustrant comment OCR PDF et sauvegarder le texte reconnu comme un document Word dans C#:

OCR PDF et Conversion Scanned PDF en Word en C#

Convertir OCR PDF à JSON en C#

Pour enregistrer le texte reconnu des documents PDF dans un fichier JSON, suivez les étapes précédentes avec le seul changement étant de spécifier SaveFormat.Json dans la dernière étape.

Voici un exemple montrant comment OCR PDF et sauvegarder le texte reconnu comme un fichier JSON dans C#:

Obtenez une licence d’évaluation gratuite

You can obtenir une licence temporaire gratuite to evaluate the Aspose.OCR for .NET API without any limitations.

Conclusion

In this tutorial, we learned how to perform OCR on PDF documents and extract text from PDF in C#. We also explored how to save the recognized text as a TXT, Docx, and JSON file. For more information on the Aspose.OCR for .NET API, check out its La documentation. If you have any questions, feel free to reach out to us on our Forum.

Vedi anche

En utilisant Aspose.OCR pour API .NET, vous pouvez mettre en œuvre une précision élevée PDF OCR dans C# pour diverses applications, y compris le traitement des factures et la manipulation des formulaires. Cette solution officielle .Net PDF O CR est parfaite pour les développeurs qui souhaitent intégrer efficacement OCr PDF des capacités dans leurs applications.

En outre, si vous avez besoin de convertir PDF en texte en C#, cette API fournit une solution simple. Pour ceux qui sont intéressés par C# OCR PDF à text capacités, l’intégration est sans signe, ce qui permet d’extraction efficace du texte de différents formats de document. Vous pouvez également utiliser la fonctionnalité Convert PDF to Text pour facilement gérer les extraits de texte des PDF, rendant votre processus de développement plus fluide.

Si vous cherchez un exemple Aspose OCR C#, ce guide sert d’une ressource complète. En outre, pour des tâches compliquées telles que le traitement de la facture C# oCR ou le déploiement d’une API **c#, cet tutoriel couvre tous les éléments essentiels nécessaires pour commencer efficacement.

More in this category