Convert Scanned PDF to Word in C#

Introduktion

Skannade PDF-filer innehåller ofta text som bilder, vilket gör det omöjligt att välja, redigera eller kopiera innehållet. Om du behöver konvertera skannade PDF-filer till redigerbara Word-dokument, erbjuder Optical Character Recognition (OCR) teknik ett effektivt sätt att extrahera text samtidigt som den ursprungliga formateringen bevaras. I den här artikeln lär du dig hur man programmerat konvertera skannade PDF-filer till Word (DOCX eller DOC) med C# med Aspose.OCR för .NET och Aspose.Words för .NET bibliotek.

Varför konvertera scannade PDF-filer till Word?

Det finns flera tvingande skäl att konvertera skannade PDF-filer till Word-dokument:

  • Lätt redigera skannade dokument: Ändra text utan manuell retyping.
  • Extrakttext för vidare bearbetning: Använd den extraherade texten för analys eller integration i andra applikationer.
  • Håll layout och formatering: Håll den ursprungliga dokumentets struktur samtidigt som den kan redigeras.
  • Automatisk OCR-baserad dokumentbehandling: Integrera denna funktionalitet i dina C#-applikationer.

Tabell av innehåll

Ställ in OCR API för Skannad PDF till Word Conversion

För att extrahera text från skannade PDF-filer och konvertera dem till Word-dokument använder vi:

Installation

Du kan enkelt installera dessa API via NuGet med följande kommandon:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatively, you can download the DLLs from the Aspose nedladdningar sida.

Konvertera Scanned PDF till Editable Word Document

Följ dessa steg för att konvertera skannade PDF-filer till Word (DOCX eller DOC) i C#:

  • Initialize OCR with AsposeOcr.
  • Extract text using DocumentRecognitionSettings.
  • Store recognized text in a StringBuilder.
  • Create a Word document using Aspose.Words.
  • Applicera formatering och spara som DOCX eller DOC.

Koden sampling

Här är ett C#-exempel som visar skannat PDF till Word-konvertering:

Håll formatering i OCR konvertering

Även om OCR-tekstutvinning är kraftfull, kan det inte alltid behålla originalformatering, font och stilar. För att säkerställa korrekt formatering, överväga följande tips:

  • Använda Aspose.Words Paragraph Styles för att tillämpa konsekvent textformatering.
  • Ställ in teckensnittsegenskaper som storlek, mod, itik och anpassning.
  • Anpassa sidmarginaler och layout för förbättrad Word-dokumentutgång.

Hantera flera sidor i skannade PDF-filer

För Multi-page scanned PDFs är det viktigt att bearbeta och fusionera text från alla sidor till ett enda Word-dokument.

  • Gå igenom varje sida i den skannade PDF-filen.
  • Recognize text per page and store it in a StringBuilder.
  • Lägg till erkänt text till Word-dokumentet.

Detta tillvägagångssätt säkerställer seamless multi-page PDF till Word konvertering.

5. licens för full OCR noggrannhet

Som standard fungerar Aspose.OCR i utvärderingsläge, vilket kan begränsa textbekännandets noggrannhet.

Be om en Free Temporary License för utvärderingsändamål.

6. slutsatser och ytterligare resurser

Sammanfattning

I den här guiden täcker vi:

  • Ställ in Aspose.OCR för skannad PDF-behandling
  • Utvinning text från skannade PDF-filer i C#
  • Konvertera bekant text till ett formaterat Word-dokument
  • Handla Multi-page skannad PDF till Word konvertering

Genom att använda Aspose.OCR och Aspose.Words kan du enkelt konvertera bildbaserade PDF-filer till redigerbara Word-filer. Börja bygga din OCR-driven PDF till Word-konverter i .NET idag för bara $99!

Ytterligare tips för skannad PDF-konvertering

Om du letar efter sätt att förbättra din arbetsflöde, överväga att använda C# OCR PDF till Text förmågor eller PDF till DOCX C# lösningar för mer avancerad bearbetning. Oavsett om du behöver konvertera skannade pdf till Word för redigering eller helt enkelt vill extra text från Word dokument, dessa metoder ger värdefull support. För dem som frågar, hur konverterar jag en scannad PDF til Word?, de nämnda verktygen kommer att leda dig igenom processen utan ansträngningar.

More in this category