
مستندات Microsoft Word هي شريط لإنشاء وتبادل المحتوى النصي.إذا كنت تقوم بتطوير تطبيقات C# التي تتفاعل مع هذه المستندات، قد تجد نفسك بحاجة إلى استخراج النص منها.وهذا يمكن أن يكون لأغراض مثل تحليل النص أو استخراج أجزاء محددة من المستند لتجميعها في واحد جديد.في هذا المنشور على المدونة، وسوف نغوص في أساليب استخراج النص من مستندات Word في C#.
جدول المحتوى
- C# مكتبة استخراج النص
- فهم استخراج النص في مستندات Word
- دليل خطوة بخطوة لاستخراج النص من مستند Word- استخراج النص بين الفقرات
- استخراج النص بين أنواع مختلفة من النقاط
- استخراج النص القائم على الأنماط
C# مكتبة استخراج النص {#مكتبة إلى استخراج النص من كلمة إلى وثائق}
Aspose.Words لـ .NET is a powerful and user-friendly library designed for working with Word documents. It provides a comprehensive set of features, including text extraction, document creation, manipulation, and conversion. With Aspose.Words for .NET, developers can efficiently manage various aspects of Word documents, making it an invaluable tool for your development needs.
To get started, تحميل المكتبة or install it directly from نوغيت using the following command in the package manager console:
PM> Install-Package Aspose.Words
فهم استخراج النص في مستندات Word
وثيقة MS Word تتكون من عناصر مختلفة مثل الفقرات والجدول والصور. وبالتالي، قد تختلف متطلبات استخراج النص استنادا إلى حالة الاستخدام المحددة. قد تحتاج إلى استخراج النص بين الفقرات، علامات الكتاب، التعليقات، وأكثر من ذلك.
يتم تمثيل كل عنصر في وثيقة Word على أنه عقدة.لذلك ، من أجل معالجة وثيقة بفعالية ، ستحتاج إلى العمل مع هذه العقدة.لنتعلم كيفية استخراج النص من وثائق Word في سيناريوهات مختلفة.
خطوة بخطوة دليل استخراج النص من مستند Word {# استخراج النص من مستند Word-A-Word-Document}
في هذا القسم، سنقوم بتنفيذ استخراج نص C# لوثائق Word.سيتضمن تدفق العمل لاستخراج النص الخطوات التالية:
- تحديد العقدة التي يجب تضمينها في عملية الاستخراج.
- استخراج المحتوى بين العقد المحددة (بما في ذلك أو استبعاد العقد البداية والنهاية).
- استخدم العقد المستخرجة المستخرجة لإنشاء وثيقة Word الجديدة تحتوي على المحتوى المستخرج.
دعونا نخلق طريقة تسمى ExtractContent التي سوف تقبل العقدة وغيرها من المعلمات لتنفيذ استخراج النص.
StartNode و EndNode: هذه تحدد نقاط البداية والنهاية لاستخراج المحتوى.يمكن أن تكون على مستوى الكتلة (على سبيل المثال، الفقرة، الجدول) أو عقدة على مستوى الخط (على سبيل المثال، Run، FieldStart، BookmarkStart).- للحصول على الحقول، يرجى إدخال الكائن المناسب FieldStart.
للعلامات الكتابية، استخدم عقدة BookmarkStart و BookmarkEnd.
لتقديم التعليقات، استخدم عقدة CommentRangeStart و CommentRangeEnd.
IsInclusive: يحدد هذا المعيار ما إذا كانت العلامات مدرجة في الاستخراج.إذا تم تعيينها إلى مزيفة ويتم توفير نفس أو عقدة متتالية، سيتم إرجاع قائمة فارغة.
فيما يلي التنفيذ الكامل لطريقة ExtractContent لاستخراج المحتوى بين العقد المحددة:
وبالإضافة إلى ذلك، فإن بعض أساليب المساعدة مطلوبة من خلال طريقة ExtractContent لتسهيل عملية استخراج النص:
الآن عندما يكون لدينا أساليب جاهزة ، يمكننا المضي قدما في استخراج النص من وثيقة Word.
استخراج النص بين الفقرات من وثيقة كلمة {# استخراج النص بين الفقرات}
لاستخراج المحتوى بين الفقرتين في وثيقة Word DOCX، اتبع هذه الخطوات:
- قم بتحميل مستند Word باستخدام فئة Document.
- احصل على إشارات إلى الفقرات التي تبدأ وتنتهي باستخدام طريقة Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH، int، boolean).
- اتصل بالطريقة ExtractContent(startPara، endPara، True) لاستخراج العقد إلى كائن.
- استخدم طريقة المساعدة GenerateDocument(Document, extractedNodes) لإنشاء وثيقة مع المحتوى المستخرج.
- حفظ المستند الجديد باستخدام طريقة Document.Save(string).
فيما يلي نموذج من الرمز يظهر كيفية استخراج النص بين الفقرات السابعة و الحادية عشرة في وثيقة Word:
استخراج النص بين أنواع مختلفة من النود
يمكنك أيضًا استخراج المحتوى بين أنواع مختلفة من العقد.على سبيل المثال، دعونا استخراج المحتوى بين الفقرة والجدول ونحفظه في وثيقة Word الجديدة.
- قم بتحميل مستند Word باستخدام فئة Document.
- احصل على إشارات إلى عقدة البداية والنهاية باستخدام طريقة Document.FirstSection.Body.GetChild(NodeType، int، boolean).
- استدعاء ExtractContent(startPara، endPara، True) لاستخراج العقد إلى كائن.
- استخدم طريقة المساعدة GenerateDocument(Document, extractedNodes) لإنشاء وثيقة مع المحتوى المستخرج.
- حفظ المستند الجديد باستخدام Document.Save(string).
إليك نموذج الرمز لاستخراج النص بين الفقرة والجدول في C#:
استخراج النص القائم على الأنماط {# استخراج النص بين الفقرات القائم على الأنماط}
لاستخراج المحتوى بين الفقرات استنادا إلى الأنماط، اتبع هذه الخطوات.لإظهار هذا، وسوف نستخرج المحتوى بين “العنوان 1” الأول و “العنوان 3” الأول في وثيقة Word:
- قم بتحميل مستند Word باستخدام فئة Document.
- استخراج الفقرات إلى كائن باستخدام الطريقة المساعدة ParagraphsByStyleName(Document، “عنوان 1”).
- استخراج الفقرات إلى كائن آخر باستخدام ParagraphsByStyleName(وثيقة، “العنوان”).
- اتصل ExtractContent(startPara، endPara، True) مع العناصر الأولى من كلا الفقرتين.
- استخدم طريقة المساعدة GenerateDocument(Document, extractedNodes) لإنشاء وثيقة مع المحتوى المستخرج.
- حفظ المستند الجديد باستخدام Document.Save(string).
فيما يلي عينة من الرمز لاستخراج المحتوى بين الفقرات استنادا إلى الأنماط:
اقرأ المزيد عن استخراج النص
Explore additional scenarios for extracting text from Word documents through هذا المقال الوثائقي.
احصل على مكتبة مجانية لـ Word Text Extractor {# Get-a-Free-API-License}
You can obtain a مجانا الترخيص المؤقت to extract text without evaluation limitations.
استنتاجات
Aspose.Words for .NET هي مكتبة متنوعة تسرع عملية استخراج النص من مستندات Word في C#. مع ميزاتها الواسعة و API سهلة الاستخدام، يمكنك العمل بفعالية مع مستندات Word وتلقائيات مختلف سيناريوهات استخراج النص. سواء كنت تطوير التطبيقات التي تتطلب معالجة مستندات Word أو ببساطة استخراج النص، Aspose.Words for .NET هو أداة أساسية للمطورين.
To explore more features of Aspose.Words for .NET, check out the الوثائق. If you have any questions, feel free to reach out via our المنتدى.
انظر أيضا
Tip: You may want to check out the Aspose PowerPoint إلى Word Converter, which demonstrates the popular process of converting presentations to Word documents.
More in this category
- تحويل Word DOC/DOCX إلى PDF في C# .NET و Aspose.Words' Document Converter Plugin
- إنشاء رمز شريطي في مستندات وورد (.NET، C#) | قراءة رمز شريطي من وورد (.NET)
- استخراج الصور من مستندات Word في C# معالجة الصور التلقائية
- تلقائي التقارير باستخدام C# Mail Merge و Aspose.Words' Mail Merge Plugin
- العثور على واستبدال النص في مستندات الكلمة باستخدام C# تلقائي تحرير الكلمة