ليس من الممكن دائمًا استخراج النص من ملف PDF باستخدام النسخ التقليدي. غالبًا ما تكون صفحات هذه المستندات هي المحتوى الممسوح ضوئياً لإصداراتها الورقية. لتحويل هذه الملفات إلى بيانات نصية قابلة للتحرير بالكامل ، يتم استخدام برامج خاصة مع وظيفة التعرف الضوئي على الحروف (OCR).

من الصعب جدا تنفيذ مثل هذه الحلول ، وبالتالي ، فإنها تكلف الكثير من المال. إذا كنت بحاجة إلى التعرف على النص مع PDF على أساس منتظم ، فمن المستحسن شراء البرنامج المناسب. في حالات نادرة ، سيكون من المنطقي أكثر استخدام أحد الخدمات المتوفرة عبر الإنترنت بوظائف مشابهة.

كيفية التعرف على النص من PDF عبر الإنترنت

وبطبيعة الحال ، فإن مجموعة ميزات الخدمات عبر الإنترنت OCR محدودة أكثر مقارنة مع حلول سطح المكتب الكاملة. ولكن يمكنك العمل مع هذه الموارد إما مجانًا أو مقابل رسوم رمزية. الشيء الرئيسي هو أن تطبيقات الويب المقابلة تتعامل مع مهمتهم الرئيسية ، وهي التعرف على النص ، كذلك.

الطريقة 1: ABBYY FineReader عبر الإنترنت

شركة تطوير الخدمات هي واحدة من الشركات الرائدة في مجال التعرف على الوثائق البصرية. ABBYY FineReader لأن Windows و Mac هو حل قوي لتحويل PDF إلى نص والعمل بشكل أكبر معه.

النظير الشبكي للبرنامج ، بالطبع ، هو أقل شأنا منه في الوظيفة. ومع ذلك ، يمكن للخدمة التعرف على النص من عمليات المسح والصور بأكثر من 190 لغة. يدعم تحويل ملفات PDF إلى المستندات كلمة . تفوق إلخ

ABBYY FineReader خدمة الانترنت عبر الإنترنت

  1. قبل البدء في العمل مع الأداة ، قم بإنشاء حساب على الموقع أو قم بتسجيل الدخول باستخدام حسابك على Facebook أو Google أو Microsoft.
    سجل مع ABBYY FineReader عبر الإنترنت
    للانتقال إلى نافذة تسجيل الدخول ، انقر على زر "تسجيل الدخول" في شريط القائمة العلوي.
  2. بمجرد تسجيل الدخول ، قم باستيراد مستند PDF المطلوب إلى FineReader باستخدام زر "Upload Files" .
    التعرف على نص من وثيقة PDF في الخدمة عبر الإنترنت ABBYY FineReader Online
    ثم انقر فوق "تحديد أرقام الصفحات" وحدد الفاصل الزمني المطلوب للتعرف على النص.
  3. بعد ذلك ، حدد اللغات الموجودة في المستند ، تنسيق الملف الناتج وانقر فوق الزر "التعرف" .
    بدء التعرف على النص من وثيقة PDF في ABBYY FineReader Online
  4. بعد المعالجة ، تعتمد المدة بالكامل على حجم المستند ، يمكنك تنزيل الملف النهائي ببيانات نصية بمجرد النقر على اسمه.
    تنزيل المستند النهائي من الخدمة عبر الإنترنت ABBYY FineReader Online
    أو تصديرها إلى إحدى الخدمات السحابية المتوفرة.

تتميز الخدمة ، ربما ، من خلال خوارزميات التعرف على النص الأكثر دقة على الصور وملفات PDF. ولكن للأسف ، فإن استخدامه المجاني يقتصر على خمس صفحات تتم معالجتها شهريًا. للعمل مع المزيد من الوثائق الضخمة ، عليك شراء اشتراك لمدة عام.

ومع ذلك ، إذا كانت هناك حاجة إلى وظيفة OCR بشكل نادر ، فإن ABBYY FineReader Online هو خيار رائع لاستخراج النص من ملفات PDF صغيرة.

الطريقة 2: التعرف الضوئي على الحروف على الإنترنت مجاناً

خدمة بسيطة ومريحة لرقمية النص. دون الحاجة للتسجيل ، يسمح لك المورد بالتعرف على 15 صفحة PDF كاملة في الساعة. يعمل OCR على الإنترنت بشكل كامل مع الوثائق في 46 لغة وبدون ترخيص يدعم ثلاثة تنسيقات تصدير نصية - DOCX و XLSX و TXT.

عند التسجيل ، يكون المستخدم قادرًا على معالجة مستندات متعددة الصفحات ، ولكن العدد المجاني لهذه الصفحات يقتصر على 50 وحدة.

الخدمة عبر الإنترنت Free Online OCR

  1. للتعرف على النص من ملف PDF باعتباره "ضيفًا" ، دون إذن على المورد ، استخدم النموذج المناسب على الصفحة الرئيسية للموقع.
    التعرف على ملفات PDF في خدمة OCR عبر الإنترنت مجانًا
    حدد الوثيقة المرغوبة باستخدام الزر "ملف" ، وحدد لغة النص الرئيسية ، ونسق الإخراج ، ثم انتظر حتى يتم تنزيل الملف وانقر فوق "تحويل" .
  2. في نهاية عملية الرقمنة ، انقر فوق "تنزيل ملف الإخراج" لحفظ المستند النهائي مع النص الموجود على جهاز الكمبيوتر الخاص بك.
    تنزيل نتيجة التعرف على النص من PDF من خدمة OCR عبر الإنترنت المجانية عبر الإنترنت

بالنسبة للمستخدمين المخولين ، يختلف تسلسل الإجراءات إلى حد ما.

  1. استخدم زر "التسجيل" أو "تسجيل الدخول" في شريط القائمة العلوي لإنشاء أو الوصول إلى حساب OCR عبر الإنترنت مجانًا.
    إنشاء حساب في الخدمة عبر الإنترنت Free Online OCR
  2. بعد التفويض في لوحة التعرّف ، اضغط باستمرار على المفتاح "CTRL" وحدد لغتين من المستند المصدر من القائمة المتوفرة.
    تحديد لغات المستند المصدر للتعرف على النص في OCR Online Free
  3. حدد معلمات إضافية لاستخراج النص من PDF وانقر فوق الزر "تحديد ملف" لتحميل المستند إلى الخدمة.
    بدء التعرف على مستند PDF في خدمة OCR Online Online عبر الإنترنت
    ثم ، لبدء التعرف ، انقر فوق "تحويل" .
  4. بعد معالجة المستند ، انقر فوق الارتباط الذي يحمل اسم ملف الإخراج في العمود المقابل.
    تنزيل ملف DOCX منتهي من خدمة OCR عبر الإنترنت المجانية عبر الإنترنت
    سيتم تخزين نتيجة التعرف على الفور في ذاكرة الكمبيوتر.

إذا كنت بحاجة إلى استخراج نص من مستند PDF صغير ، فيمكنك اللجوء بأمان إلى استخدام الأداة الموضحة أعلاه. للعمل مع الملفات الكبيرة ، سيكون عليك شراء رموز إضافية في OCR مجانية عبر الإنترنت أو اللجوء إلى حل آخر.

الطريقة الثالثة: NewOCR

خدمة OCR- مجانية تمامًا تتيح لك استخراج النص من أي مستندات رسومات وإلكترونية مثل DjVu و PDF. لا يفرض المورد قيودًا على حجم وعدد الملفات التي يمكن التعرف عليها ، ولا يتطلب التسجيل ، ويقدم مجموعة واسعة من الوظائف ذات الصلة.

تدعم NewOCR 106 لغة ، وهي قادرة على التعامل مع فحوصات المستندات منخفضة الجودة بشكل صحيح. من الممكن تحديد المنطقة للتعرف على النص يدوياً في صفحة الملف.

الخدمة عبر الإنترنت NewOCR

  1. لذلك ، يمكنك البدء في العمل مع المورد على الفور ، دون الحاجة إلى تنفيذ إجراءات غير ضرورية.
    تنزيل ملف PDF للتعرف على خدمة NewOCR عبر الإنترنت
    يوجد مباشرة على الصفحة الرئيسية نموذج لاستيراد المستند إلى الموقع. لتحميل ملف إلى NewOCR ، استخدم الزر "Select File" في قسم "Select your file" . ثم في حقل "لغة / لغات التعرّف" ، حدد لغة أو أكثر من المستند الأصلي ، ثم انقر فوق "تحميل + OCR" .
  2. قم بتعيين إعدادات التعرف المفضلة لديك ، وحدد الصفحة المطلوبة لاستخراج النص وانقر فوق الزر "OCR" .
    إعداد وتشغيل التعرف على النص من PDF في الخدمة عبر الإنترنت NewOCR
  3. قم بالتمرير لأسفل قليلاً وابحث عن الزر "تنزيل" .
    تنزيل النص المستخرج إلى NewOCR إلى جهاز كمبيوتر
    انقر عليها واختر تنسيق المستند المطلوب للتنزيل في القائمة المنسدلة. بعد ذلك ، سيتم تنزيل الملف النهائي بالنص المستخرج إلى جهاز الكمبيوتر الخاص بك.

الأداة مريحة وتعترف بكل الشخصيات بجودة عالية بما فيه الكفاية. ومع ذلك ، يجب تشغيل معالجة كل صفحة من وثيقة PDF المستوردة بشكل مستقل وعرضها في ملف منفصل. يمكنك بالطبع نسخ نتائج التعرّف إلى الحافظة ودمجها مع الآخرين.

ومع ذلك ، وبالنظر إلى الفوارق الدقيقة المذكورة أعلاه ، من الصعب للغاية استخراج كميات كبيرة من النص باستخدام NewOCR. تتواءم الخدمة مع ملفات صغيرة "مع اثارة ضجة".

الطريقة الرابعة: OCR.Space

يسمح لك مورد بسيط ومفهوم لرقمنة النص بالتعرف على مستندات PDF وإخراج النتيجة إلى ملف TXT. لا توجد حدود لعدد الصفحات. القيد الوحيد هو أن حجم مستند الإدخال يجب ألا يتجاوز 5 ميغابايت.

OCR.Space الخدمة عبر الإنترنت

  1. التسجيل للعمل مع الأداة ليست ضرورية.
    استيراد ملف PDF إلى خدمة OCR.Space عبر الإنترنت
    ما عليك سوى النقر فوق الرابط أعلاه وتحميل مستند PDF إلى موقع الويب من جهاز الكمبيوتر الخاص بك باستخدام الزر "تحديد ملف" أو من الشبكة عن طريق النقر فوق الارتباط.
  2. في القائمة المنسدلة "تحديد لغة OCR" ، حدد لغة المستند الذي تم استيراده.
    بدء عملية التعرف على وثيقة PDF في خدمة OCR.Space عبر الإنترنت
    ثم ابدأ عملية التعرف على النص بالنقر فوق الزر "بدء OCR!" .
  3. في نهاية معالجة الملف ، راجع النتيجة في حقل "OCR'ed Result" وانقر على "تنزيل" لتنزيل مستند TXT النهائي.
    تنزيل نتيجة التعرف على ملف PDF من الخدمة عبر الإنترنت OCR.Space

إذا كنت بحاجة فقط لاستخراج النص من PDF والتنسيق النهائي غير مهم على الإطلاق ، فإن OCR.Space هو خيار جيد. يجب أن يكون المستند الوحيد "أحادي اللغة" ، نظرًا لعدم توفير التعرف على لغتين أو أكثر في نفس الوقت في الخدمة.

انظر أيضا: نظائر مجانية من FineReader

تقييم أدوات الإنترنت المعروضة في المقالة ، تجدر الإشارة إلى أن ABBYY FineReader Online تتعامل مع وظيفة التعرف الضوئي على الحروف بشكل أكثر دقة ودقة. إذا كان الحد الأقصى لدقة التعرف على النص مهمًا بالنسبة لك ، فمن الأفضل التفكير في هذا الخيار المعين. ولكن لدفع ثمن ذلك ، على الأرجح ، يجب أيضا.

إذا كنت تحتاج إلى رقمنة المستندات الصغيرة وكنت على استعداد لتصحيح الأخطاء في الخدمة بنفسك ، فمن المستحسن استخدام NewOCR أو OCR.Space أو Free Online OCR.