और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्ट...
और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्टाल करने व इस्तेमाल करने के बारे में विस्तृत जानकारी श्रीदेवी कुमार ने गूगल तकनीकी हिंदी समूह में दी है, जिसे यहाँ दी जा रही है. मैंने इसे प्रयोग किया और पाया कि ठीक-ठाक इमेज फ़ाइल में अशुद्धि का प्रतिशत पांच (5) प्रतिशत से भी कम है. और यही बात इस निशुल्क, ओपनसोर्स ओसीआर को लाजवाब बनाती है. यह वस्तुतः ओपनसोर्स ओसीआर प्रोग्राम टैसरैक्ट का जीयूआई पोर्ट है.
इसे प्रयोग करने की विधि यह है -
1. निम्न लिंक में से अपने कंप्यूटर के हिसाब से प्रोग्राम को डाउनलोड कर इंस्टाल करें. यदि आप सुनिश्चित नहीं हैं कि आपका कंप्यूटर 64 बिट का है या 32 बिट का तो आप नीचे वाली लिंक का प्रोग्राम डाउनलोड कर इंस्टाल करें. यह सभी कंप्यूटरों में काम करेगा:
https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe
https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_i686_tesseract-25fed52.exe
2. उसके बाद 4.0.0alpha Hindi traineddata यहाँ से डाउनलोड करें -
https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata
3. इस hin.traineddata को यहाँ सहेजें - Start→All Programs→gImageReader→Tesseract language definitions. (वैसे यह डिफ़ॉल्ट डायरेक्ट्री होती है, जहाँ कॉपी करना होती है - C:\Program Files\gImageReader\share\tessdata)
4. अब Giamagereader प्रोग्राम को चालू करें
[ads-post]
5. यदि आपके प्रोग्राम में Recognize all मेनू के नीचे हिंदी नहीं दिखती है तो शीर्ष दाएं कोने में दिए /Settings/Tools पर क्लिक करें और. Redetect languages चुनें. हिंदी दिखेगा. नहीं तो जहाँ डिफाल्ट English लिखा है वहां ड्रापडाउन मेनू से हिंदी चुनें. आपका प्रोग्राम हिंदी ओसीआर करने को तैयार है. यह द्विभाषी ओसीआर भी कर सकता है!
6. चित्र फ़ाइल जिसका ओसीआर किया जाना है उन्हें जोड़ने के लिए, ऊपरी बाएं कोने में सोर्सेस आइकन के नीचे फ़ाइल को क्लिक करें.
7. OCR किए जाने वाली फ़ाइल को चुनने पर यह चित्र प्रोग्राम के मुख्य विंडो में बीच में दिखने लगेगी.
8. यदि पहले से ही हिंदी नहीं है तो प्रोग्राम मेनू में 'Recognize All' के नीचे हिंदी चुनें.
9. चित्र के किसी खास हिस्से को ओसीआर करने के लिए प्लस कर्सर से चित्र का क्षेत्र हाइलाइट करें और recognize all बटन को क्लिक करें. या पूरा चित्र ओसीआर करना चाहते हैं तो क्षेत्र चुनने की आवश्यकता नहीं है. पास में मैजिक वेंड भी है जो स्वचालित क्षेत्र का चुनाव करता है, पर वह शुद्ध नहीं है.
10. प्रोग्राम के नीचे दाएं बाजू में हो रहे ओसीआर की प्रगति की स्थिति प्रतिशत (%) में दिखेगी.
11. ओसीआर किया गया पाठ दाएं विंडो में कुछ इस तरह प्रकट होगा.
आपने सही देखा, इसमें बेसिक किस्म का हिंदी वर्तनी जाँचक भी अंतर्निर्मित है.
12. आप नए चित्र का ओसीआर पाठ इसी पाठ के बीच में, ऊपर या नीचे जोड़ सकते हैं और इसे टैक्स्ट फ़ाइल के रूप में सहेज सकते हैं या कॉपी पेस्ट कर प्रयोग में ले सकते हैं.
बैच फ़ाइल के लिए श्रीदेवी जी ने निम्न कमांड का प्रयोग सुझाया है -
Commands followed under bash environment under windows 10 -
1. convert pdf to images using ghostscript
gs -q -dNOPAUSE -r300x300 -sDEVICE=tiffg4 -sOutputFile=WMH%03d.tif WMH.pdf -dFirstPage=10 -dLastPage=20
2. Use scantailor on windows
to automatically crop the images, deskew them
3. Run tesseract batch process for imagefiles
#!/bin/bash
#run in anunad/out dir
export TESSDATA_PREFIX=/mnt/c/Users/User/shree
img_files=${img_files}' '$(ls *.tif)
for img_file in ${img_files}; do
echo ${img_file}
time tesseract ${img_file} ${img_file%.*} --psm 6 --oem 1 -l hin+eng
done
--------------
दिए गए लिंक पर फाइल मौजूद नहीं है
हटाएंhttps://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe
पर क्लिक किया, तो निम्न पेज खुलता है
Not Found
The requested URL /tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe was not found on this server.
Additionally, a 404 Not Found error was encountered while trying to use an ErrorDocument to handle the request.