आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर

SHARE:

और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्ट...

image

और, यह इंडसैंज के हिंदी ओसीआर से भी अधिक शुद्ध है. यदि इसे कमांड मोड में बैच मोड में इस्तेमाल किया जाए, तो यह तेज भी है. बहरहाल, इसके इंस्टाल करने व इस्तेमाल करने के बारे में विस्तृत जानकारी श्रीदेवी कुमार ने गूगल तकनीकी हिंदी समूह में दी है, जिसे यहाँ दी जा रही है. मैंने इसे प्रयोग किया और पाया कि ठीक-ठाक इमेज फ़ाइल में अशुद्धि का प्रतिशत पांच (5) प्रतिशत से भी कम है. और यही बात इस निशुल्क, ओपनसोर्स ओसीआर को लाजवाब बनाती है. यह वस्तुतः ओपनसोर्स ओसीआर प्रोग्राम टैसरैक्ट का जीयूआई पोर्ट है.

इसे प्रयोग करने की विधि यह है -

 

1. निम्न लिंक में से अपने कंप्यूटर के हिसाब से प्रोग्राम को डाउनलोड कर इंस्टाल करें. यदि आप सुनिश्चित नहीं हैं कि आपका कंप्यूटर 64 बिट का है या 32 बिट का तो आप नीचे वाली लिंक का प्रोग्राम डाउनलोड कर इंस्टाल करें. यह सभी कंप्यूटरों में काम करेगा:

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe

https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_i686_tesseract-25fed52.exe

2. उसके बाद 4.0.0alpha Hindi traineddata यहाँ से डाउनलोड करें -

https://github.com/tesseract-ocr/tessdata/blob/master/hin.traineddata

3. इस hin.traineddata को यहाँ सहेजें - Start→All Programs→gImageReader→Tesseract language definitions. (वैसे यह डिफ़ॉल्ट डायरेक्ट्री होती है, जहाँ कॉपी करना होती है - C:\Program Files\gImageReader\share\tessdata)

4. अब Giamagereader प्रोग्राम को चालू करें

[ads-post]

5. यदि आपके प्रोग्राम में Recognize all मेनू के नीचे हिंदी नहीं दिखती है तो शीर्ष दाएं कोने में दिए  /Settings/Tools पर क्लिक करें और. Redetect languages चुनें. हिंदी दिखेगा. नहीं तो जहाँ डिफाल्ट English लिखा है वहां ड्रापडाउन मेनू से हिंदी चुनें. आपका प्रोग्राम हिंदी ओसीआर करने को तैयार है. यह द्विभाषी ओसीआर भी कर सकता है!

6. चित्र फ़ाइल जिसका ओसीआर किया जाना है उन्हें जोड़ने के लिए, ऊपरी बाएं कोने में सोर्सेस आइकन के नीचे  फ़ाइल को क्लिक करें.

7.  OCR किए जाने वाली फ़ाइल को चुनने पर यह चित्र प्रोग्राम के मुख्य विंडो में बीच में दिखने लगेगी.

8. यदि पहले से ही हिंदी नहीं है तो   प्रोग्राम मेनू में 'Recognize All' के नीचे हिंदी चुनें.

9. चित्र के किसी खास हिस्से को ओसीआर करने के लिए प्लस कर्सर से चित्र का क्षेत्र हाइलाइट करें और  recognize all बटन को क्लिक करें. या पूरा चित्र ओसीआर करना चाहते हैं तो क्षेत्र चुनने की आवश्यकता नहीं है. पास में मैजिक वेंड भी है जो स्वचालित क्षेत्र का चुनाव करता है, पर वह शुद्ध नहीं है.

10. प्रोग्राम के नीचे दाएं बाजू में हो रहे ओसीआर की प्रगति की स्थिति प्रतिशत (%) में दिखेगी.

11. ओसीआर किया गया पाठ दाएं विंडो में कुछ इस तरह प्रकट होगा.

image

आपने सही देखा, इसमें बेसिक किस्म का हिंदी वर्तनी जाँचक भी अंतर्निर्मित है.

 

12. आप नए चित्र का ओसीआर पाठ इसी पाठ के बीच में, ऊपर या नीचे जोड़ सकते हैं और इसे टैक्स्ट फ़ाइल के रूप में सहेज सकते हैं या कॉपी पेस्ट कर प्रयोग में ले सकते हैं.

 

बैच फ़ाइल के लिए श्रीदेवी जी ने निम्न कमांड का प्रयोग सुझाया है -

Commands followed under bash environment under windows 10 -

1. convert pdf to images using ghostscript

gs -q -dNOPAUSE -r300x300 -sDEVICE=tiffg4 -sOutputFile=WMH%03d.tif WMH.pdf -dFirstPage=10 -dLastPage=20

2. Use scantailor on windows

to automatically crop the images, deskew them

3. Run tesseract batch process for imagefiles 

#!/bin/bash

#run in anunad/out dir

export TESSDATA_PREFIX=/mnt/c/Users/User/shree

    img_files=${img_files}' '$(ls *.tif)

    for img_file in ${img_files}; do

       echo ${img_file}

        time tesseract ${img_file} ${img_file%.*} --psm 6 --oem 1 -l hin+eng

    done    

--------------

COMMENTS

BLOGGER: 1
  1. दिए गए लिंक पर फाइल मौजूद नहीं है

    https://smani.fedorapeople.org/tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe

    पर क्लिक किया, तो निम्न पेज खुलता है

    Not Found
    The requested URL /tmp/gImageReader_3.2.0_qt5_x86_64_tesseract-25fed52.exe was not found on this server.

    Additionally, a 404 Not Found error was encountered while trying to use an ErrorDocument to handle the request.

    जवाब देंहटाएं
आपकी अमूल्य टिप्पणियों के लिए आपका हार्दिक धन्यवाद.
कृपया ध्यान दें - स्पैम (वायरस, ट्रोजन व रद्दी साइटों इत्यादि की कड़ियों युक्त)टिप्पणियों की समस्या के कारण टिप्पणियों का मॉडरेशन लागू है. अतः आपकी टिप्पणियों को यहां पर प्रकट होने में कुछ समय लग सकता है.

नाम

तकनीकी ,1,अनूप शुक्ल,1,आलेख,6,आसपास की कहानियाँ,127,एलो,1,ऐलो,1,कहानी,1,गूगल,1,गूगल एल्लो,1,चोरी,4,छींटे और बौछारें,146,छींटें और बौछारें,340,जियो सिम,1,जुगलबंदी,49,तकनीक,54,तकनीकी,704,फ़िशिंग,1,मंजीत ठाकुर,1,मोबाइल,1,रिलायंस जियो,2,रेंसमवेयर,1,विंडोज रेस्क्यू,1,विविध,380,व्यंग्य,513,संस्मरण,1,साइबर अपराध,1,साइबर क्राइम,1,स्पैम,10,स्प्लॉग,2,हास्य,2,हिंदी,4,हिन्दी,510,hindi,1,
ltr
item
छींटे और बौछारें: आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर
आ गया! मुफ़्त, निःशुल्क, शुद्ध परिणाम वाला हिंदी ओसीआर
https://lh3.googleusercontent.com/-6RGcsHXMltg/WGTdjs_MWrI/AAAAAAAAx1c/GSAIWM_oAds/image_thumb.png?imgmax=800
https://lh3.googleusercontent.com/-6RGcsHXMltg/WGTdjs_MWrI/AAAAAAAAx1c/GSAIWM_oAds/s72-c/image_thumb.png?imgmax=800
छींटे और बौछारें
https://raviratlami.blogspot.com/2016/12/blog-post_29.html
https://raviratlami.blogspot.com/
https://raviratlami.blogspot.com/
https://raviratlami.blogspot.com/2016/12/blog-post_29.html
true
7370482
UTF-8
Loaded All Posts Not found any posts VIEW ALL Readmore Reply Cancel reply Delete By Home PAGES POSTS View All RECOMMENDED FOR YOU LABEL ARCHIVE SEARCH ALL POSTS Not found any post match with your request Back Home Sunday Monday Tuesday Wednesday Thursday Friday Saturday Sun Mon Tue Wed Thu Fri Sat January February March April May June July August September October November December Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec just now 1 minute ago $$1$$ minutes ago 1 hour ago $$1$$ hours ago Yesterday $$1$$ days ago $$1$$ weeks ago more than 5 weeks ago Followers Follow THIS PREMIUM CONTENT IS LOCKED STEP 1: Share to a social network STEP 2: Click the link on your social network Copy All Code Select All Code All codes were copied to your clipboard Can not copy the codes / texts, please press [CTRL]+[C] (or CMD+C with Mac) to copy Table of Content