
Introduktion
Scannede PDF-filer indeholder ofte tekst som billeder, hvilket gør det umuligt at vælge, redigere eller kopiere indholdet.Hvis du har brug for at konvertere scannet PDF’er til redigerbare Word-dokumenter, tilbyder Optical Character Recognition (OCR) teknologi en effektiv måde at udveksle tekst samtidig med opbevaring af den oprindelige formatering.I denne artikel vil du lære hvordan man programmeret konverterer scanne PDFs til Word (DOCX eller DOC) ved hjælp af C# med Aspose.OCR for .NET og Spring.Words til .Net biblioteker.
Hvorfor konvertere scannede PDF’er til Word?
Der er flere krævende grunde til at konvertere scannede PDF’er til Word-dokumenter:
- Easy Edit Scanned Documents: Modifier tekst uden den manuelle retyping.
- Extrakttekst til yderligere behandling: Brug den ekstraherede tekst til analyse eller integration i andre applikationer.
- Hold layout og formatering: Hold originaldokumentets struktur samtidig med at den kan redigeres.
- Automatisk OCR-baseret Dokumentbehandling: Integrér denne funktionalitet i dine C#-applikationer.
Tabellen af indhold
- Indstill OCR API til Scanned PDF til Word Conversion
- Konverter scannet PDF til redigeret Word-dokument
- Opbevaring af formatering i OCR konvertering
- Behandling af flere sider i scannede PDF’er
- Licens til fuld OCR præcision
- Konklusion og yderligere ressourcer
Sæt OCR API til Scanned PDF til Word Conversion
For at udveksle tekst fra scannede PDF’er og konvertere dem til Word-dokumenter, vil vi bruge:
- Aspose.OCR for .NET – Et kraftfuldt værktøj, der genkender tekst fra scannede billeder.
- Aspose.Words for .NET – Denne bibliotek konverterer den udvundede tekst til Word-format.
Installation
Du kan nemt installere disse APIs via NuGet med følgende kommandoer:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternatively, you can download the DLLs from the Download af Aspose.
Konverter scannet PDF til redigeret Word-dokument
Følg disse trin for at konvertere scannede PDF-filer til Word (DOCX eller DOC) i C#:
- Initialize OCR with
AsposeOcr
. - Extract text using
DocumentRecognitionSettings
. - Store recognized text in a
StringBuilder
. - Create a Word document using
Aspose.Words
. - Anvend formatering og gem som DOCX eller DOC.
Eksempler på kode
Her er et eksempel på C#, der viser den skanne PDF til Word konvertering:
Bevarelse af formatering i OCR konvertering
Mens OCR tekstudvinding er kraftig, kan det ikke altid beholde den original formatering, fonts og stilarter. For at sikre nøjagtig formatting, overveje følgende tips:
- ** Brug Aspose.Words Paragraph Styles** til at anvende konsekvent tekstformatering.
- Sæt fontegenskaber som størrelse, bold, italics og alignment.
- Add page margins og layout for forbedret Word-dokumentproduktion.
4. håndtering af flere sider i scannede PDF’er
For multi-page scannede PDF’er er det afgørende at behandle og fusionere tekst fra alle sider til et enkelt Word-dokument.
- ** Gå gennem hver side** i den scannede PDF.
- Recognize text per page and store it in a
StringBuilder
. - ** Tilføj anerkendt tekst** til Word-dokumentet.
Denne tilgang sikrer seamless multi-page PDF til Word konvertering.
Licens til fuld OCR nøjagtighed
Som standard opererer Aspose.OCR i evalueringsmodus, som kan grænse tekstopdagelses nøjagtighed.
Du skal anmode om en Free Temporary License til evalueringsformål.
Konklusion og yderligere ressourcer
Samlinger
I denne guide dækker vi:
- Sæt op Aspose.OCR til scannede PDF-behandling
- Udvinding tekst fra scannede PDF’er i C#
- Konvertering af genkendt tekst til et formateret Word-dokument
- Handling Multi-page scannede PDF til Word konvertering
Ved at bruge Aspose.OCR og ASPOSE.Words, kan du nemt konvertere image-baserede PDF’er til redigerbare Word-filer. Start opbygningen af din OCR-powered PDF til Word converter i .NET i dag for kun $99!
Yderligere tips til Scanned PDF Conversion
Hvis du er på udkig efter måder at forbedre dit arbejdsproces, skal du overveje at bruge C# OCR PDF til Text kapaciteter eller PDF til DOCX C# løsninger til mere avanceret behandling. Uanset om du har brug for konvertering af scannede PDF’er til Word til redigering eller bare ønsker ekstrakter tekst fra Word dokumenter, giver disse metoder uværtsmæssig support. For dem, der spørger, hvordan konverterer jeg en scanned PDF i Word?, vil de nævnte værktøjer guide dig gennem processen hårdt.