Convert Scanned PDF to Word in C#

Introduction

Les fichiers PDF scanés contiennent souvent du texte comme des images, ce qui rend impossible de sélectionner, d’éditer ou de copier le contenu.Si vous avez besoin de convertir les fichiers PDF scanés en documents Word édifiables, la technologie Optical Character Recognition (OCR) offre un moyen efficace d’extraire le texte tout en préservant le format original. Dans cet article, vous apprendrez comment convertir programmatiquement les fichiers PDF scanés en Word (DOCX ou DOC) en utilisant C# avec les fichiers Aspose.OCR pour .NET et Aspose.Words pour .NET bibliothèques.

Pourquoi convertir les PDF scanés en Word ?

Il y a plusieurs raisons contraignantes pour convertir les PDF scannés en documents Word:

  • Edifier facilement les documents scanés: Modifier le texte sans l’absence de retyping manuel.
  • Texte extrait pour le traitement ultérieur: Utilisez le texte extrait pour l’analyse ou l’intégration dans d’autres applications.
  • Maintenez le layout et le formatage: Maintenez la structure du document original tout en le faisant éditable.
  • Traitement automatique de documents basé sur l’OCR: Intégrer cette fonctionnalité dans vos applications C#.

Table des contenus

Configurez l’API OCR pour la conversion scanée PDF vers Word

Pour extraire le texte des PDF scannés et les convertir en documents Word, nous utiliserons :

インストール

Vous pouvez facilement installer ces API via NuGet avec les commandes suivantes:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatively, you can download the DLLs from the Page de téléchargement Aspose.

Convertir PDF scané en Document Word Editable

Suivez ces étapes pour convertir les fichiers PDF scannés en Word (DOCX ou DOC) en C#:

  • Initialize OCR with AsposeOcr.
  • Extract text using DocumentRecognitionSettings.
  • Store recognized text in a StringBuilder.
  • Create a Word document using Aspose.Words.
  • Applicez le formatage et sauvez comme DOCX ou DOC.

Code de l’échantillon

Voici un exemple de C# démontrant la conversion PDF scanée vers Word:

Conserver le formatage en conversion OCR

Alors que l’extraction de texte OCR est puissante, elle ne peut pas toujours préserver le formatage original, les phrases et les styles**. Pour assurer le formatage précis, considérez les conseils suivants:

  • Utilisez Aspose.Words Paragraph Styles pour appliquer le formatage de texte cohérent.
  • Sélectionnez des propriétés de caractère telles que la taille, le courage, l’italique et l’alignement.
  • Ajuster les marges de page et le layout pour améliorer la production de document Word.

Traitement de plusieurs pages dans les PDF scanés

Pour les PDF scannés à plusieurs pages, il est essentiel de traiter et de fusionner le texte de toutes les pages dans un seul document Word.

  • Voyez à travers chaque page dans le PDF scanné.
  • Recognize text per page and store it in a StringBuilder.
  • Appliquer le texte reconnu au document Word.

Cette approche assure conversion multi-page PDF à Word.

Licence pour la précision OCR complète

Par défaut, Aspose.OCR fonctionne dans le mode d’évaluation, qui peut limiter l’exactitude de la reconnaissance du texte.

Demandez une [Licence Temporaire Gratuite](http://purchase.aspose.com/licence temporaire) à des fins d’évaluation.

Conclusion et ressources supplémentaires

Résumé

Dans ce guide, nous couvrons :

  • Configuration Aspose.OCR pour le traitement PDF scané
  • Extrait texte des PDF scannés en C#
  • Conversion texte reconnu en un document Word formaté
  • Maîtriser canné de plusieurs pages PDF à la conversion Word

En utilisant Aspose.OCR et Aspose.Words, vous pouvez sans effort convertir des PDF basés sur l’image en fichiers Word éditables. Commencez à construire votre OCR-powered PDF to Word converter dans .NET aujourd’hui pour seulement $99!

Conseils supplémentaires pour la conversion PDF scanée

Si vous cherchez des façons d’améliorer votre flux de travail, considérez l’utilisation des fonctionnalités C# OCR PDF à Texte ou PDF à DOCX C# pour un traitement plus avancé. Que vous avez besoin de **convertir le PDF scanné à Word pour l’édition **ou que vous voulez simplement extraire le texte de Word documents, ces méthodes fournissent un soutien inestimable. Pour ceux qui demandent, comment puis-je convertir un PDF scané au Word?, les outils mentionnés vous guideront sans effort par le processus.

More in this category