Extract Text from PDF C#

Mengekstrak teks dari file PDF adalah persyaratan umum dalam tugas pemrosesan dokumen. artikel ini memberikan panduan mendalam tentang penggunaan Aspose.PDF’s Text Extractor Plugin untuk ekstraksi teks yang efisien dan beragam dalam C#. Apakah Anda perlu mengekstrak teks dari seluruh dokumen, halaman tertentu, atau daerah yang ditentukan, Aspose Plugin memfasilitasi ekstraksi teks PDF berprestasi tinggi dengan usaha minimal.

Ciri-ciri utama dari Aspose.PDF Text Extractor Plugin

Spesifikasi dari Aspose.PDF Text Extractor Plugin

Plugin Pengekstrak Teks untuk .NET adalah solusi yang kuat untuk mengekstrak teks dari dokumen PDF. Ini dirancang khusus untuk pengembang yang bekerja dengan aplikasi .NET, mendukung .NET Framework dan .NET Core untuk pengekstrak teks PDF. Plugin ini menawarkan tiga mode operasi:

  • Mode Bersih: Mengekstrak teks sambil mempertahankan format dan struktur asli.
  • Raw Mode: Mengekstrak teks tanpa format.
  • Plain Mode: Mengekstrak teks dan menghapus semua format dan karakter khusus.

Manfaat Menggunakan Aspose.PDF

  • Batch Processing: Mengendalikan beberapa PDF secara bersamaan.
  • Pengaturan yang dapat disesuaikan: menyesuaikan pengaturan ekstraksi untuk memenuhi kebutuhan spesifik Anda.
  • Seamless Integration: Terintegrasi langsung dengan aplikasi .NET untuk aliran kerja yang lancar.
  • Performance High-Speed: dioptimalkan untuk ekstraksi teks yang cepat dan akurat dengan konsumsi sumber daya minimal.

Memulai dengan C# PDF Text Extraction

The Aspose.PDF untuk .NET library is a comprehensive tool for .NET developers seeking high-performance C# PDF text extraction. You can easily install it via NuGet:

PM> Install-Package Aspose.PDF

Alternatively, you can Download dari DLL to integrate it directly into your project, providing a reliable C# PDF text extraction solution.

Mengekstrak teks dari PDF penuh dalam C#

Untuk mengekstrak semua teks dari PDF, ikuti langkah-langkah berikut:

  • Load the PDF using the Dokumen class.
  • Create a Textabsorber object.
  • Gunakan penyerap ke semua halaman.
  • Simpan teks yang dikeluarkan ke dalam file.

Contoh kode

Mengekstrak teks dari halaman tertentu dalam PDF

Untuk mengekstrak teks dari satu halaman:

  • Tuliskan PDF
  • Create a Textabsorber.
  • Gunakan absorber ke halaman yang diinginkan.
  • Simpan teks yang dikeluarkan.

Contoh kode

Mengekstrak teks dari wilayah tertentu dalam PDF

Untuk mengekstrak teks dari area tertentu halaman, tetapkan koordinat rektangular. ikuti langkah-langkah berikut:

Contoh kode

Mencari dan mengekstrak teks menggunakan Regex

Untuk mengekstrak teks yang sepadan dengan pola tertentu menggunakan ekspresi biasa:

  • Tuliskan PDF
  • Menentukan pola regex.
  • Apply the pattern using Textabsorber.
  • Mengekstrak fragmen teks yang sesuai.

Contoh kode

Mengekstrak data tabel sebagai teks dalam C#

Untuk mengekstrak konten dari tabel:

  • Tuliskan PDF
  • Use Tabungan Absorber to navigate through table structures.
  • Mengekstrak sel teks per sel.

Contoh kode

Mengekstrak teks yang ditonjolkan dalam PDF

Untuk mengekstrak teks yang ditekankan:

  • Iterate melalui anotasi.
  • Filter TekstMarkupAnnotasi.
  • Menyelamatkan dan menyimpan fragmen yang ditonjolkan.

Contoh kode

Mengoptimalkan ekstraksi teks dengan penggunaan memori rendah

i) Using **** and ****:

  • Call absorber.Reset() after processing each page.
  • Free memory held by pages using page.FreeMemory().

ii) Using Memori yang Mode:

Set TextExtractionOptions.TextFormattingMode to optimize memory usage during PDF text extraction.

Contoh kode

Percuma C# PDF Text Extraction Library

Get a lisensi sementara gratis for unrestricted access to Aspose.PDF for .NET and unlock its full potential for efficient C# PDF text extraction.

Kesimpulan

Aspose.PDF Text Extractor Plugin for .NET menawarkan solusi yang beragam dan efisien untuk tugas-tugas ekstraksi teks yang dapat diandalkan.Dari ekstraksi teks dari seluruh dokumen ke halaman atau wilayah tertentu, ini mempercepat proses dengan ketepatan dan kecepatan.Ini menjadikannya salah satu perpustakaan ekstraksi teks C# PDF terbaik yang tersedia.Cuba hari ini untuk menyederhanakan aliran kerja ekstraksi teks PDF Anda hanya untuk $99!

More in this category