Convert Scanned PDF to Word in C#

Introduktion

Scannede PDF-filer indeholder ofte tekst som billeder, hvilket gør det umuligt at vælge, redigere eller kopiere indholdet.Hvis du har brug for at konvertere scannet PDF’er til redigerbare Word-dokumenter, tilbyder Optical Character Recognition (OCR) teknologi en effektiv måde at udveksle tekst samtidig med opbevaring af den oprindelige formatering.I denne artikel vil du lære hvordan man programmeret konverterer scanne PDFs til Word (DOCX eller DOC) ved hjælp af C# med Aspose.OCR for .NET og Spring.Words til .Net biblioteker.

Hvorfor konvertere scannede PDF’er til Word?

Der er flere krævende grunde til at konvertere scannede PDF’er til Word-dokumenter:

  • Easy Edit Scanned Documents: Modifier tekst uden den manuelle retyping.
  • Extrakttekst til yderligere behandling: Brug den ekstraherede tekst til analyse eller integration i andre applikationer.
  • Hold layout og formatering: Hold originaldokumentets struktur samtidig med at den kan redigeres.
  • Automatisk OCR-baseret Dokumentbehandling: Integrér denne funktionalitet i dine C#-applikationer.

Tabellen af indhold

Sæt OCR API til Scanned PDF til Word Conversion

For at udveksle tekst fra scannede PDF’er og konvertere dem til Word-dokumenter, vil vi bruge:

Installation

Du kan nemt installere disse APIs via NuGet med følgende kommandoer:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatively, you can download the DLLs from the Download af Aspose.

Konverter scannet PDF til redigeret Word-dokument

Følg disse trin for at konvertere scannede PDF-filer til Word (DOCX eller DOC) i C#:

  • Initialize OCR with AsposeOcr.
  • Extract text using DocumentRecognitionSettings.
  • Store recognized text in a StringBuilder.
  • Create a Word document using Aspose.Words.
  • Anvend formatering og gem som DOCX eller DOC.

Eksempler på kode

Her er et eksempel på C#, der viser den skanne PDF til Word konvertering:

Bevarelse af formatering i OCR konvertering

Mens OCR tekstudvinding er kraftig, kan det ikke altid beholde den original formatering, fonts og stilarter. For at sikre nøjagtig formatting, overveje følgende tips:

  • ** Brug Aspose.Words Paragraph Styles** til at anvende konsekvent tekstformatering.
  • Sæt fontegenskaber som størrelse, bold, italics og alignment.
  • Add page margins og layout for forbedret Word-dokumentproduktion.

4. håndtering af flere sider i scannede PDF’er

For multi-page scannede PDF’er er det afgørende at behandle og fusionere tekst fra alle sider til et enkelt Word-dokument.

  • ** Gå gennem hver side** i den scannede PDF.
  • Recognize text per page and store it in a StringBuilder.
  • ** Tilføj anerkendt tekst** til Word-dokumentet.

Denne tilgang sikrer seamless multi-page PDF til Word konvertering.

Licens til fuld OCR nøjagtighed

Som standard opererer Aspose.OCR i evalueringsmodus, som kan grænse tekstopdagelses nøjagtighed.

Du skal anmode om en Free Temporary License til evalueringsformål.

Konklusion og yderligere ressourcer

Samlinger

I denne guide dækker vi:

  • Sæt op Aspose.OCR til scannede PDF-behandling
  • Udvinding tekst fra scannede PDF’er i C#
  • Konvertering af genkendt tekst til et formateret Word-dokument
  • Handling Multi-page scannede PDF til Word konvertering

Ved at bruge Aspose.OCR og ASPOSE.Words, kan du nemt konvertere image-baserede PDF’er til redigerbare Word-filer. Start opbygningen af din OCR-powered PDF til Word converter i .NET i dag for kun $99!

Yderligere tips til Scanned PDF Conversion

Hvis du er på udkig efter måder at forbedre dit arbejdsproces, skal du overveje at bruge C# OCR PDF til Text kapaciteter eller PDF til DOCX C# løsninger til mere avanceret behandling. Uanset om du har brug for konvertering af scannede PDF’er til Word til redigering eller bare ønsker ekstrakter tekst fra Word dokumenter, giver disse metoder uværtsmæssig support. For dem, der spørger, hvordan konverterer jeg en scanned PDF i Word?, vil de nævnte værktøjer guide dig gennem processen hårdt.

More in this category