आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर

image

और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्टाल करने व इस्तेमाल करने के बारे में विस्तृत जानकारी श्रीदेवी कुमार ने गूगल तकनीकी हिंदी समूह में दी है, जिसे यहाँ दी जा रही है. मैंने इसे प्रयोग किया और पाया कि ठीक-ठाक इमेज फ़ाइल में अशुद्धि का प्रतिशत पांच (5) प्रतिशत से भी कम है. और यही बात इस निशुल्क, ओपनसोर्स ओसीआर को लाजवाब बनाती है. यह वस्तुतः ओपनसोर्स ओसीआर प्रोग्राम टैसरैक्ट का जीयूआई पोर्ट है.

इसे प्रयोग करने की विधि यह है -

 

1. निम्न लिंक में से अपने कंप्यूटर के हिसाब से प्रोग्राम को डाउनलोड कर इंस्टाल करें. यदि आप सुनिश्चित नहीं हैं कि आपका कंप्यूटर 64 बिट का है या 32 बिट का तो आप नीचे वाली लिंक का प्रोग्राम डाउनलोड कर इंस्टाल करें. यह सभी कंप्यूटरों में काम करेगा:

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_i686_tesseract-25fed52.exe

2. उसके बाद 4.0.0alpha Hindi traineddata यहाँ से डाउनलोड करें -

https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata

3. इस hin.traineddata को यहाँ सहेजें - Start→All Programs→gImageReader→Tesseract language definitions. (वैसे यह डिफ़ॉल्ट डायरेक्ट्री होती है, जहाँ कॉपी करना होती है - C:\Program Files\gImageReader\share\tessdata)

4. अब Giamagereader प्रोग्राम को चालू करें

[ads-post]

5. यदि आपके प्रोग्राम में Recognize all मेनू के नीचे हिंदी नहीं दिखती है तो शीर्ष दाएं कोने में दिए  /Settings/Tools पर क्लिक करें और. Redetect languages चुनें. हिंदी दिखेगा. नहीं तो जहाँ डिफाल्ट English लिखा है वहां ड्रापडाउन मेनू से हिंदी चुनें. आपका प्रोग्राम हिंदी ओसीआर करने को तैयार है. यह द्विभाषी ओसीआर भी कर सकता है!

6. चित्र फ़ाइल जिसका ओसीआर किया जाना है उन्हें जोड़ने के लिए, ऊपरी बाएं कोने में सोर्सेस आइकन के नीचे  फ़ाइल को क्लिक करें.

7.  OCR किए जाने वाली फ़ाइल को चुनने पर यह चित्र प्रोग्राम के मुख्य विंडो में बीच में दिखने लगेगी.

8. यदि पहले से ही हिंदी नहीं है तो   प्रोग्राम मेनू में 'Recognize All' के नीचे हिंदी चुनें.

9. चित्र के किसी खास हिस्से को ओसीआर करने के लिए प्लस कर्सर से चित्र का क्षेत्र हाइलाइट करें और  recognize all बटन को क्लिक करें. या पूरा चित्र ओसीआर करना चाहते हैं तो क्षेत्र चुनने की आवश्यकता नहीं है. पास में मैजिक वेंड भी है जो स्वचालित क्षेत्र का चुनाव करता है, पर वह शुद्ध नहीं है.

10. प्रोग्राम के नीचे दाएं बाजू में हो रहे ओसीआर की प्रगति की स्थिति प्रतिशत (%) में दिखेगी.

11. ओसीआर किया गया पाठ दाएं विंडो में कुछ इस तरह प्रकट होगा.

image

आपने सही देखा, इसमें बेसिक किस्म का हिंदी वर्तनी जाँचक भी अंतर्निर्मित है.

 

12. आप नए चित्र का ओसीआर पाठ इसी पाठ के बीच में, ऊपर या नीचे जोड़ सकते हैं और इसे टैक्स्ट फ़ाइल के रूप में सहेज सकते हैं या कॉपी पेस्ट कर प्रयोग में ले सकते हैं.

 

बैच फ़ाइल के लिए श्रीदेवी जी ने निम्न कमांड का प्रयोग सुझाया है -

Commands followed under bash environment under windows 10 -

1. convert pdf to images using ghostscript

gs -q -dNOPAUSE -r300x300 -sDEVICE=tiffg4 -sOutputFile=WMH%03d.tif WMH.pdf -dFirstPage=10 -dLastPage=20

2. Use scantailor on windows

to automatically crop the images, deskew them

3. Run tesseract batch process for imagefiles 

#!/bin/bash

#run in anunad/out dir

export TESSDATA_PREFIX=/mnt/c/Users/User/shree

    img_files=${img_files}' '$(ls *.tif)

    for img_file in ${img_files}; do

       echo ${img_file}

        time tesseract ${img_file} ${img_file%.*} --psm 6 --oem 1 -l hin+eng

    done    

--------------

टिप्पणियाँ

विशाल लाइब्रेरी में से पढ़ें >

अधिक दिखाएं

---------------

छींटे और बौछारें का आनंद अपने स्मार्टफ़ोन पर बेहतर तरीके से लें. गूगल प्ले स्टोर से छींटे और बौछारें एंड्रायड ऐप्प image इंस्टाल करें.

इंटरनेट पर हिंदी साहित्य का खजाना:

इंटरनेट की पहली यूनिकोडित हिंदी की सर्वाधिक प्रसारित व लोकप्रिय ईपत्रिका में पढ़ें 10,000 से भी अधिक साहित्यिक रचनाएँ

हिन्दी कम्प्यूटिंग के लिए काम की ढेरों कड़ियाँ - यहाँ क्लिक करें!

.  Subscribe in a reader

इस ब्लॉग की नई पोस्टें अपने ईमेल में प्राप्त करने हेतु अपना ईमेल पता नीचे भरें:

FeedBurner द्वारा प्रेषित

ऑनलाइन हिन्दी वर्ग पहेली खेलें

***

Google+ Followers

फ़ेसबुक में पसंद करें