ليس من الممكن دائمًا استخراج النص من ملف PDF باستخدام النسخ التقليدي. غالبًا ما تكون صفحات هذه المستندات هي المحتوى الممسوح ضوئياً لإصداراتها الورقية. لتحويل هذه الملفات إلى بيانات نصية قابلة للتحرير بالكامل ، يتم استخدام برامج خاصة مع وظيفة التعرف الضوئي على الحروف (OCR).
من الصعب جدا تنفيذ مثل هذه الحلول ، وبالتالي ، فإنها تكلف الكثير من المال. إذا كنت بحاجة إلى التعرف على النص مع PDF على أساس منتظم ، فمن المستحسن شراء البرنامج المناسب. في حالات نادرة ، سيكون من المنطقي أكثر استخدام أحد الخدمات المتوفرة عبر الإنترنت بوظائف مشابهة.
محتوى
وبطبيعة الحال ، فإن مجموعة ميزات الخدمات عبر الإنترنت OCR محدودة أكثر مقارنة مع حلول سطح المكتب الكاملة. ولكن يمكنك العمل مع هذه الموارد إما مجانًا أو مقابل رسوم رمزية. الشيء الرئيسي هو أن تطبيقات الويب المقابلة تتعامل مع مهمتهم الرئيسية ، وهي التعرف على النص ، كذلك.
شركة تطوير الخدمات هي واحدة من الشركات الرائدة في مجال التعرف على الوثائق البصرية. ABBYY FineReader لأن Windows و Mac هو حل قوي لتحويل PDF إلى نص والعمل بشكل أكبر معه.
النظير الشبكي للبرنامج ، بالطبع ، هو أقل شأنا منه في الوظيفة. ومع ذلك ، يمكن للخدمة التعرف على النص من عمليات المسح والصور بأكثر من 190 لغة. يدعم تحويل ملفات PDF إلى المستندات كلمة . تفوق إلخ
ABBYY FineReader خدمة الانترنت عبر الإنترنت
تتميز الخدمة ، ربما ، من خلال خوارزميات التعرف على النص الأكثر دقة على الصور وملفات PDF. ولكن للأسف ، فإن استخدامه المجاني يقتصر على خمس صفحات تتم معالجتها شهريًا. للعمل مع المزيد من الوثائق الضخمة ، عليك شراء اشتراك لمدة عام.
ومع ذلك ، إذا كانت هناك حاجة إلى وظيفة OCR بشكل نادر ، فإن ABBYY FineReader Online هو خيار رائع لاستخراج النص من ملفات PDF صغيرة.
خدمة بسيطة ومريحة لرقمية النص. دون الحاجة للتسجيل ، يسمح لك المورد بالتعرف على 15 صفحة PDF كاملة في الساعة. يعمل OCR على الإنترنت بشكل كامل مع الوثائق في 46 لغة وبدون ترخيص يدعم ثلاثة تنسيقات تصدير نصية - DOCX و XLSX و TXT.
عند التسجيل ، يكون المستخدم قادرًا على معالجة مستندات متعددة الصفحات ، ولكن العدد المجاني لهذه الصفحات يقتصر على 50 وحدة.
الخدمة عبر الإنترنت Free Online OCR
بالنسبة للمستخدمين المخولين ، يختلف تسلسل الإجراءات إلى حد ما.
إذا كنت بحاجة إلى استخراج نص من مستند PDF صغير ، فيمكنك اللجوء بأمان إلى استخدام الأداة الموضحة أعلاه. للعمل مع الملفات الكبيرة ، سيكون عليك شراء رموز إضافية في OCR مجانية عبر الإنترنت أو اللجوء إلى حل آخر.
خدمة OCR- مجانية تمامًا تتيح لك استخراج النص من أي مستندات رسومات وإلكترونية مثل DjVu و PDF. لا يفرض المورد قيودًا على حجم وعدد الملفات التي يمكن التعرف عليها ، ولا يتطلب التسجيل ، ويقدم مجموعة واسعة من الوظائف ذات الصلة.
تدعم NewOCR 106 لغة ، وهي قادرة على التعامل مع فحوصات المستندات منخفضة الجودة بشكل صحيح. من الممكن تحديد المنطقة للتعرف على النص يدوياً في صفحة الملف.
الأداة مريحة وتعترف بكل الشخصيات بجودة عالية بما فيه الكفاية. ومع ذلك ، يجب تشغيل معالجة كل صفحة من وثيقة PDF المستوردة بشكل مستقل وعرضها في ملف منفصل. يمكنك بالطبع نسخ نتائج التعرّف إلى الحافظة ودمجها مع الآخرين.
ومع ذلك ، وبالنظر إلى الفوارق الدقيقة المذكورة أعلاه ، من الصعب للغاية استخراج كميات كبيرة من النص باستخدام NewOCR. تتواءم الخدمة مع ملفات صغيرة "مع اثارة ضجة".
يسمح لك مورد بسيط ومفهوم لرقمنة النص بالتعرف على مستندات PDF وإخراج النتيجة إلى ملف TXT. لا توجد حدود لعدد الصفحات. القيد الوحيد هو أن حجم مستند الإدخال يجب ألا يتجاوز 5 ميغابايت.
إذا كنت بحاجة فقط لاستخراج النص من PDF والتنسيق النهائي غير مهم على الإطلاق ، فإن OCR.Space هو خيار جيد. يجب أن يكون المستند الوحيد "أحادي اللغة" ، نظرًا لعدم توفير التعرف على لغتين أو أكثر في نفس الوقت في الخدمة.
انظر أيضا: نظائر مجانية من FineReader
تقييم أدوات الإنترنت المعروضة في المقالة ، تجدر الإشارة إلى أن ABBYY FineReader Online تتعامل مع وظيفة التعرف الضوئي على الحروف بشكل أكثر دقة ودقة. إذا كان الحد الأقصى لدقة التعرف على النص مهمًا بالنسبة لك ، فمن الأفضل التفكير في هذا الخيار المعين. ولكن لدفع ثمن ذلك ، على الأرجح ، يجب أيضا.
إذا كنت تحتاج إلى رقمنة المستندات الصغيرة وكنت على استعداد لتصحيح الأخطاء في الخدمة بنفسك ، فمن المستحسن استخدام NewOCR أو OCR.Space أو Free Online OCR.