आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर

और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्ट...

और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्टाल करने व इस्तेमाल करने के बारे में विस्तृत जानकारी श्रीदेवी कुमार ने गूगल तकनीकी हिंदी समूह में दी है, जिसे यहाँ दी जा रही है. मैंने इसे प्रयोग किया और पाया कि ठीक-ठाक इमेज फ़ाइल में अशुद्धि का प्रतिशत पांच (5) प्रतिशत से भी कम है. और यही बात इस निशुल्क, ओपनसोर्स ओसीआर को लाजवाब बनाती है. यह वस्तुतः ओपनसोर्स ओसीआर प्रोग्राम टैसरैक्ट का जीयूआई पोर्ट है.

इसे प्रयोग करने की विधि यह है -

1. निम्न लिंक में से अपने कंप्यूटर के हिसाब से प्रोग्राम को डाउनलोड कर इंस्टाल करें. यदि आप सुनिश्चित नहीं हैं कि आपका कंप्यूटर 64 बिट का है या 32 बिट का तो आप नीचे वाली लिंक का प्रोग्राम डाउनलोड कर इंस्टाल करें. यह सभी कंप्यूटरों में काम करेगा:

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_i686_tesseract-25fed52.exe

2. उसके बाद 4.0.0alpha Hindi traineddata यहाँ से डाउनलोड करें -

https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata

3. इस hin.traineddata को यहाँ सहेजें - Start→All Programs→gImageReader→Tesseract language definitions. (वैसे यह डिफ़ॉल्ट डायरेक्ट्री होती है, जहाँ कॉपी करना होती है - C:\Program Files\gImageReader\share\tessdata)

4. अब Giamagereader प्रोग्राम को चालू करें

[ads-post]

5. यदि आपके प्रोग्राम में Recognize all मेनू के नीचे हिंदी नहीं दिखती है तो शीर्ष दाएं कोने में दिए /Settings/Tools पर क्लिक करें और. Redetect languages चुनें. हिंदी दिखेगा. नहीं तो जहाँ डिफाल्ट English लिखा है वहां ड्रापडाउन मेनू से हिंदी चुनें. आपका प्रोग्राम हिंदी ओसीआर करने को तैयार है. यह द्विभाषी ओसीआर भी कर सकता है!

6. चित्र फ़ाइल जिसका ओसीआर किया जाना है उन्हें जोड़ने के लिए, ऊपरी बाएं कोने में सोर्सेस आइकन के नीचे फ़ाइल को क्लिक करें.

7. OCR किए जाने वाली फ़ाइल को चुनने पर यह चित्र प्रोग्राम के मुख्य विंडो में बीच में दिखने लगेगी.

8. यदि पहले से ही हिंदी नहीं है तो प्रोग्राम मेनू में 'Recognize All' के नीचे हिंदी चुनें.

9. चित्र के किसी खास हिस्से को ओसीआर करने के लिए प्लस कर्सर से चित्र का क्षेत्र हाइलाइट करें और recognize all बटन को क्लिक करें. या पूरा चित्र ओसीआर करना चाहते हैं तो क्षेत्र चुनने की आवश्यकता नहीं है. पास में मैजिक वेंड भी है जो स्वचालित क्षेत्र का चुनाव करता है, पर वह शुद्ध नहीं है.

10. प्रोग्राम के नीचे दाएं बाजू में हो रहे ओसीआर की प्रगति की स्थिति प्रतिशत (%) में दिखेगी.

11. ओसीआर किया गया पाठ दाएं विंडो में कुछ इस तरह प्रकट होगा.

आपने सही देखा, इसमें बेसिक किस्म का हिंदी वर्तनी जाँचक भी अंतर्निर्मित है.

12. आप नए चित्र का ओसीआर पाठ इसी पाठ के बीच में, ऊपर या नीचे जोड़ सकते हैं और इसे टैक्स्ट फ़ाइल के रूप में सहेज सकते हैं या कॉपी पेस्ट कर प्रयोग में ले सकते हैं.

बैच फ़ाइल के लिए श्रीदेवी जी ने निम्न कमांड का प्रयोग सुझाया है -

Commands followed under bash environment under windows 10 -

1. convert pdf to images using ghostscript

gs -q -dNOPAUSE -r300x300 -sDEVICE=tiffg4 -sOutputFile=WMH%03d.tif WMH.pdf -dFirstPage=10 -dLastPage=20

2. Use scantailor on windows

to automatically crop the images, deskew them

3. Run tesseract batch process for imagefiles

#!/bin/bash

#run in anunad/out dir

export TESSDATA_PREFIX=/mnt/c/Users/User/shree

img_files=${img_files}' '$(ls *.tif)

for img_file in ${img_files}; do

echo ${img_file}

time tesseract ${img_file} ${img_file%.*} --psm 6 --oem 1 -l hin+eng

done

--------------

COMMENTS

BLOGGER: 1

आनंद4:39 pm
दिए गए लिंक पर फाइल मौजूद नहीं है

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe

पर क्लिक किया, तो निम्न पेज खुलता है

Not Found
The requested URL /tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe was not found on this server.

Additionally, a 404 Not Found error was encountered while trying to use an ErrorDocument to handle the request.
जवाब देंहटाएं
उत्तर

टिप्पणी जोड़ें

आपकी अमूल्य टिप्पणियों के लिए आपका हार्दिक धन्यवाद.
कृपया ध्यान दें - स्पैम (वायरस, ट्रोजन व रद्दी साइटों इत्यादि की कड़ियों युक्त)टिप्पणियों की समस्या के कारण टिप्पणियों का मॉडरेशन लागू है. अतः आपकी टिप्पणियों को यहां पर प्रकट होने में कुछ समय लग सकता है.

छींटे और बौछारें

अंग्रेज़ी के वर्डल की तरह हिंदी में शब्दल खेलें -

[नया!]_$type=list$m=0$cate=0$sn=1$rm=0$c=1$va=1$p=1

आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर

COMMENTS

[आपके पसंद की रचनाएँ]_$type=blogging$m=0$cate=0$sn=1$rm=0$c=10$va=0$p=1$sr=random

[समग्र रचनाएँ]_$type=blogging$m=0$cate=0$sn=1$rm=0$c=7$va=1$p=1

छींटे और बौछारें में खोजें -

अंग्रेज़ी के वर्डल की तरह हिंदी में शब्दल खेलें -

[नया!]_$type=list$m=0$cate=0$sn=1$rm=0$c=1$va=1$p=1

आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर

SHARE:

SHARE:

COMMENTS

[आपके पसंद की रचनाएँ]_$type=blogging$m=0$cate=0$sn=1$rm=0$c=10$va=0$p=1$sr=random

[समग्र रचनाएँ]_$type=blogging$m=0$cate=0$sn=1$rm=0$c=7$va=1$p=1

छींटे और बौछारें में खोजें -