January 2014

 

भई, ये बातें बड़े-बड़े पंडित और शोध-कर्ता कह रहे हैं, तब तो मानना पड़ेगा!

image

image

जय हो!

(सलमान और उसके फ़िल्म की नहीं!)

clip_image002

अरविंद कुमार

चौरासी-वर्षीय अरविंद कुमार (जन्म - 17 जनवरी 1930) ने 1996 में समांतर कोश के प्रकाशन से हिंदी ही नहीं पूरे भारत को आधुनिक थिसारसों से परिचित कराया. उन के कुछ अन्य कोश हैं : देवीदेवताओं के नामों का थिसारस शब्देश्वरी, अकारादि क्रम से आयोजित पहला भारतीय थिसारस अरविंद सहज समांतर कोश, तीन खंडों वाला और संसार का विशालतम द्विभाषी द पेंगुइन इंग्लिश-हिंदी/हिंदी-इंग्लिश थिसारस ऐंड डिक्शनरी, और अब समांतर कोश का परिवर्धित परिष्कृत संस्करण बृहत् समांतर कोश. इंटरनैट पर उपलब्ध द्विभाषी शब्दकोश और थिसारस अरविंद लैक्सिकन. ये सभी कोश उन के ग्यारह लाख अभिव्यक्तियों के द्विभाषी डाटा बेस में से संकलित हैं. इस डाटा में संसार की सभी भाषाओं को समाने की क्षमता है.

 

सूचना प्रौद्योगिकी और कोशकारिता

मनुष्य की सब से बड़ी उपलब्धि – भाषा

अरविंद कुमार, अरविंद लिंग्विस्टिक्स प्रा लि, ई-28 प्रथम तल, कालिंदी कालोनी, नई दिल्ली 110025 (भारत)

 

ईमेल – arvind@arvindlexicon.comsamantarkosh@gmail.com

वैबसाइट – www.arvindlexicon.com

भाषा के आविष्कार को हम संप्रेषण के क्षेत्र में और सूचना प्रौद्योगिकी की ओर मानव का पहला और क्रांतिकारी चरण कह सकते हैं. भाषा न होती तो मनुष्य आज भी प्रस्तर युग में रह रहा होता. निस्संदेह शब्दों से बनी भाषा मनुष्य की सब से बड़ी उपलब्धि है, प्रगति का साधन और ज्ञान विज्ञान का भंडार है. भाषा एक निरंतर विकासशील और परिवर्तनशील प्रक्रिया है. भाषा ने ही मनुष्य को गूढ़ दार्शनिक विचारों की क्षमता प्रदान की.

सूचना प्रौद्योगिकी की पहली जैव मशीन और स्मृति चिप

भारत को और संस्कृत भाषा को संसार के सब से पहले दार्शनिक ग्रंथ वेदों का रचयिता होने का गौरव प्राप्त हुआ. आरंभ में वेद मौखिक थे. वेदों के एक एक शब्द का सही उच्चारण और हर शब्द का सही अर्थ पीढ़ी दर पीढ़ी सुरक्षित रखने के लिए एक नितांत अनोखी प्रणाली विकसित की गई - समाज का एक पूरा वर्ग इस महा उद्यम के लिए मनोनीत कर दिया गया! इस वर्ग को सूचना प्रौद्योगिकी की पहली जैव मशीन और स्मृति चिप कहना अनुचित न होगा.

तभी से शब्दों के संकलन और कोश निर्माण की आवश्यकता का महत्व सर्वमान्य हो गया था. संसार के पहले कोश निघंटु की रचना वैदिक काल में ही हुई. इस थिसारस में अठारह सौ वैदिक शब्दों को विषय क्रम से संकलित किया गया था. इस की रचना का श्रेय प्रजापति कश्यप को दिया जाता है. महर्षि यास्क ने निरुक्त में निघंटु के तथा अन्य वैदिक शब्दों की विशद व्याख्या की. यह संसार का पहला शब्दार्थ कोश और तत्कालीन समाज का विश्वकोश यानी ऐनसाइक्लोपीडिया है

लिपि का अन्वेषण

लिपि का अन्वेषण भाषाओं के विकास का अगला युगांतरकारी चरण था. मिस्र की जन और धर्म लिपियां, तथा चीन और जापान की चित्र लिपियां प्रतीकों पर आधारित थीं. उन से आगे बढ़ कर यूरोप और मध्य एशिया की ग्रीक, सिरिलिक, रोमन और हिब्रू लिपियां अक्षरों पर आधारित थीं. उन्हीं की तरह की लेकिन दाहिने से बाएँ लिखी जाने वाली अक्षर लिपि खरोष्ठी का प्रादुर्भाव गांधार में हुआ. अरबी, फ़ारसी और उर्दू जैसी लिपियां इसी से निकली मानी जाती हैं. इन सभी अक्षर लिपियों में प्रत्येक वर्ण किसी ध्वनि का प्रतीक तो होता है, लेकिन कई स्वरों और व्यंजनों का उच्चारण परिवर्तनशील होता है, जैसे रोमन के ‘सी’ या ‘जी’ अक्षर. यही नहीं इन की वर्णमालाओं में वर्णों का कोई पारस्परिक सुनिश्चित वैज्ञानिक क्रम भी नहीं है.

ब्राह्मी लिपि का प्रादुर्भाव भारत की एक और महान देन था. इस में हर वर्ण का उच्चारण सुनिश्चित था. पाणिनी ने ब्राह्मी लिपि के सभी स्वरों ‘अआइईउऊऋॠलृलॣएऐओअंअः’ और व्यंजनों को ‘कवर्ग, चवर्ग आदि कचटप’ वर्गों में और उन के बाद के ‘यरलव’ और ‘शषसह’ क्रम से संकलित कर के वर्णमाला को वाचा तंत्र में उच्चारणानुसार सुनिश्चित आधार प्रदान किया. इस से निकली देवनागरी आदि भारतीय लिपि परिवार की तिब्बती से थाई तक सर्वाधिक वैज्ञानिक लिपियों में गिनी जाती हैं.

अमरकोश की रचना

लिपि काल में बने कोशों में शिरोमणि ग्रंथ के तौर पर आया - अमरसिंह कृत नामलिंगानुशासन या त्रिकांड. अपनी विलक्षणता के कारण आरंभ से ही यह थिसारस अपने रचेता के नाम परअमरकोश ही कहा जाता है, ठीक वैसे ही जैसे आजकल अँगरेजी का थिसारस अपने तमाम संस्‍करणोँ और प्रकारांतरों के बावजूद रोजेट्स थिसारस ही कहा जाता है. उस काल में हस्तलिखित प्रतिलिपियां आसानी से नहीं मिलती थीं. इसलिए सभी छात्रों को ग्रंथ कंठस्थ करने होते थे. स्मरण में सुविधा के लिए ऐसे सभी कोश छंदबद्ध होते थे. किसी श्लोक का एक पद या शब्द याद आते ही तत्संबंधी पूरा प्रकरण ज़बान पर आ जाता था. इस तरह याददाश्त ही अनुक्रम खंड का काम करती थी.

अमरकोश में 8000 (आठ हज़ार) शब्दों को 1502 (एक हज़ार पांच सौ दो) श्‍लोकोँ में पद्यबद्ध किया गया है. ये श्‍लोक तीन कांडोँ में विभाजित हैँ, जिन में कुल मिला कर 25 वर्ग हैँ. इन में से चार वर्ग मानव समाज से संबंधित हैं और उन का क्रम ब्राह्मण, क्षत्रिय, वैश्य और शूद्र वर्णों के क्रम से रखा गया है. हर विषय अपने से संबद्ध या विपरीत विषय की ओर ले जाता है.

अमरकोश की शैली से प्रभावित हो कर ही अमीर खुसरो ने फ़ारसी में द्विभाषी कोश (फ़ारसी-हिंदी) ख़ालिक़बारी की रचना की. यह संसार का पहला द्विभाषी थिसारस है. इस में हिंदी के साथ साथ अरबी फ़ारसी के शब्द समूह विषय क्रम से आते थे.

हाथ से बनी प्रतिलिपियों में अशुद्धियां रह जाती थीं. हस्तलिखित होने के कारण वे बड़ी संख्या में उपलब्ध नहीं हो सकती थीं, और बहुत महँगी भी होती थीं.

मुद्रण तकनीक का आविर्भाव

लिपि के अन्वेषण के बाद सब से बड़ी क्रांति हुई जर्मनी में जोहानिस गुटेनबर्ग द्वारा 1450 में मुद्रण तकनीक का आरंभ. तब और आजकल भी कई छापेख़ानों में छपने वाली सामग्री नीचे एक सपाट धरातल पर रखी जाती थी, उस पर स्याही लगा कर ऊपर काग़ज़ रखा जाता था. एक सपाट फलक को ऊपर से नीचे ला कर काग़ज़ पर छाप डाली जाती थी. यह काम दाब या प्रैस से होता था, इसलिए इस का नाम प्रिंटिग ‘प्रैस’ पड़ा. हिंदी में भी छाप डालने के कारण यह छापाख़ाना कहलाता है.

अब किताबें आसानी से मिलने लगीं और जानकारी का संप्रेषण एक साथ कई क़दम आगे बढ़ गया. तब से अब छापेख़ाने में होने वाले सुधारों के साथ विविध विषयों पर तरह तरह की किताबें आम आदमी तक पहुँचना और भी आसान होता गया. पहली पहली किताबें धार्मिक थीं, जैसे बाइबिल. बाद में कुछ दंतकथाएँ और रहस्य कथाएँ छपनी शुरू हुईं. साहित्य का नंबर बाद में आया. धीरे धीरे कोश छपने लगे. इंग्लैंड में सन 1755 में सैमुअल जानसन का पहला इंग्लिश कोश ए डिक्शनरी आफ़ द इंग्लिश लैंग्वेज छपा. सन 1828 में इस से कहीं आगे बढ़ कर और बड़ा नोहा वैब्स्टर का ऐन अमेरीकन डिक्शनरी आफ़ द इंग्लिश लैंग्वेज छपा.

clip_image004

अमेरिकी नेता बेंजमिन फ़्रैंकलिन के प्रैस में एक मशीन

शब्द कल्पद्रुम तथा अन्य कोश

भारत में भी आरंभ में छपी पुस्तकें बाइबिल के अनुवाद थे. बात न तो यहाँ रुक सकती थी, न रुक पाई. भारतीय अस्मिता ने शीघ्र ही अपनी संस्कृति को छापेख़ाने तक लाना शुरू कर दिया. भारतीय साहित्य लोगों तक पहुँचाया जाने लगा. मैं बात कोशों तक ही सीमित रखूँगा. कुछ बहुत महत्वपूर्ण मुद्रित भारतीय (संस्कृत तथा हिंदी और इंग्लिश) कोश इस प्रकार हैं:

­ शब्द कल्पद्रुम (संस्कृत कोश - आठ खंड). राजा राधाकांत देव. पहला भाग 1822 - आठवाँ अंतिम 1856.

­ संस्कृत-इंग्लिश डिक्शनरी. सर मोनिअर मोनिअर-विलियम्स. 1872.

­ अ प्रैक्टिकल संस्कृत-इंग्लिश डिक्शनरी. वामन शिवराम आप्टे. 1889.

­ संस्कृत-हिन्दी कोश. वामन शिवराम आप्टे.

­ हिंदी शब्द सागर (ग्यारह खंड). श्याम सुंदर दास. काशी नागरी प्रचारिणी सभा.

­ बृहत् हिंदी कोश. ज्ञानमंडल वाराणसी. पहला संस्करण 1954-55. तब से इस के कई संस्करण होते रहे हैं. अनेक प्रधान संपादक. मेरी राय में हिंदी वर्तनी के लिए यह मानक कोश है. अरबी फ़ारसी शब्दों के नुक़्ते इस के मुखशब्द में बोल्ड टाइप के कारण नहीं छपे हैं, लेकिन लाइट टाइप में हैं. नुक़्ते वाले शब्दों के लिए प्रामाणिक कोश है -

­ उर्दू-हिन्दी शब्द कोश. मुहम्मद मुस्तफ़ा ख़ाँ 'मद्दाह'. हिंदी समिति, सूचना विभाग, उत्तर प्रदेश, लखनऊ.

­ हिन्दी विश्वकोश. कमलापति त्रिपाठी तथा सुधाकर पांडेय. काशी नागरी प्रचारिणी सभा.

­ Comprehensive English-Hindi Dictionary. डाक्टर रघुवीर.

­ केंद्रीय हिंदी निदेशालय के बीसियोँ तकनीकी शब्दकोश.

­ अँग्रेज़ी-हिन्दी कोश. फ़ादर कामिल बुल्के.

­ इंग्लिश-हिंदी कोश. डाक्टर हरदेव बाहरी.

­ मीनाक्षी हिंदी-अँगरेजी कोश. डा. ब्रजमोहन - डा. बदरीनाथ कपूर.

­ Oxford Hindi-English Dictionary. आर.ऐस. मैकग्रेगर.

अब मैं अपने कोशों की बात करता हूँ – ये आधुनिक भारत के पहले थिसारस हैं.

कोश और थिसारस के क्षेत्र अलग अलग हैं. कोश शब्द को अर्थ देता है, थिसारस अर्थ को, विचार को, एक नहीँ अनेक शब्द देता है. कोश में हर शब्द अकारादि क्रम से छपा होता, जैसे:कक्ष, कक्षा, कगार.

थिसारस में शब्दों का संकलन अकारादि क्रम से न हो कर कोटि क्रम से होता है, जैसे इंद्रिय के बाद ज्ञानेंद्रिय, कर्मेंद्रिय या फिर कड़वा स्वाद के बाद कसैला स्वाद, खट्टा स्वाद, चरपरा स्वाद, नमकीन स्वाद और मीठा स्वाद. यह शब्दों के अर्थ तो नहीं देता, लेकिन किसी एक शब्द के अनेक पर्यायवाचियों से शब्द का अर्थ समझ में आ जाता है,

समांतर कोश बनाने की प्रेरणा मुझे रोजेट के थिसारस से मिली थी. तो 1973 में प्राथमिक अभ्यास या रिहर्सल के तौर पर मैं ने उसी के क्रम को अपनाने का फ़ैसला किया. सौभाग्य से अच्छी बात यह हुई कि मैं ने शब्दों के पर्याय याददाश्त के आधार पर न लिख कर, ज्ञानमंडल के बृहत् हिंदी कोश के पहले से अंतिम पन्ने तक एक एक शब्द पढ़ कर रोजेट की आर्थी कोटियों में फ़िट करने की नीति बनाई. इस दो कारण थे – 1) मैं भी अपनी याददाश्त मात्र के भरोसे नहीं रहना चाहता था. 2) मैं अपने थिसारस को पूरी तरह प्रामाणिक बनाना चाहता था. मैं ने इस कोश के अतिरिक्त कई विषयों के कोशों और पुस्तकों को भी अपने शब्दों के स्रोत के तौर पर इस्तेमाल किया.

जल्दी ही पता चल गया कि रोजेट का माडल मेरे काम का नहीं है. हिंदी की बहुत सारी कोटियोँ के लिए उस में जगह ही नहीँ थी. अब हमें अपना कोटि क्रम या संदर्भ क्रम बनाना था. करते करते सीखने के अलावा हमारे पास कोई उपाय नहीँ था. कम से कम पाँच बार हमें नए रास्ते अपनाने पड़े. 1973 से 1992 तक पूरे बीस साल बीतते बीतते, हमें लगा हम किसी कामचलाऊ क्रम तक पहुँच रहे हैँ. तब तक साठ हज़ार कार्डों पर हम लगभग दो लाख साठ हज़ार शब्द या अभिव्यक्तियां या रिकार्ड दर्ज़ कर चुके थे. एक शब्द या अभिव्यक्तियां या रिकार्ड का मतलब एक शब्द नहीँ एक पूरा वाक्यांश या मुहाविरा भी है.

इस तरह से काम करते करते कई समस्याएं खड़ी हो जाती थीं. पहली थी कि कई बार हम पहले किया काम फिर से दोहराने लगते थे – क्योंकि सारा काम याद रख पाना आसान नहीं था. पहले भी यह काम कर चुके हैं, यह जाँचने का कोई तरीक़ा नहीं था.

इस से भी बड़ी समस्या छपाई की थी जो मेरे सामने हर दिन सुरसा की तरह मुँह बाए खड़ी रहती. मैं छापेख़ाने में काम कर चुका था. छापेख़ाने में जो समस्याएँ आती हैं, उन का ध्यान आते ही मेरे रोंगटे खड़े हो जाते.

पहले हमारे कार्ड टाइपिस्टोँ को दिए जाएंगे. उन से कई कार्ड खो भी सकते हैं, और उन का क्रम भी बिगड़ सकता है. टाइपिस्ट बीच बीच में से कई शब्द ग़लत टाइप कर जाते हैं, कई शब्द और पंक्तियाँ टाइप करना भूल जाते हैं और कई पंक्तियां दोबारा टाइप कर जाते हैं. मैं टाइप किए दो लाख साठ हज़ार शब्दों को पढ़ूँगा, उन की ग़लतियां ठीक कराऊंगा. कई पेज कई बार टाइप कराने पड़ सकते हैं. हर बार नई ग़लतियां होने की संभावना रहेगी. फिर टाइप शीट छापेख़ाने में कंपोज़िंग के लिए जाएंगी. वहाँ बार बार उन की प्रूफ़ रीडिंग करानी होगी. सैकड़ों पेजों का कंपोज़्ड मैटर प्रैस वाला रखेगा कहाँ. उन दिनों छपाई के लिए मशीन पर जाने से पहले कई बार पेज टूट जाते थे. तब क्या होगा. वे पेज फिर से कंपोज़ करवाने और प्रूफ़ पढ़ने होँगे. हर शीर्षक और उपशीर्षक की एकोत्तर संख्या मैनुअली लिखते समय सही क्रम का अनुपालन हो पाएगा या नहीँ - यह समस्या भी रहेगी.

अनुक्रम बनाने की समस्या तो और भी जटिल थी. पूरा संदर्भ खंड छप जाने के बाद उस के एक एक शब्द को अकारादि क्रम से लिखने और उन की शीर्षक तथा उपशीर्षक संख्या लिखना - तौबा! यह मेरे बस का काम नहीं था. दूसरों से बनवाएं, तो उन्हें देने का पैसा कहाँ से आएगा, और वे सब संख्याएं सही लिखेंगे भी या नहीं, फिर प्रैस में कंपोज़िंग में कितनी ज़्यादा ग़लतियां होंगी – यह कौन जाँचेगा. यही सब सोच सोच कर मुझे दिन रात बुख़ार सा चढ़ा रहता था.

1992 में मेरे बेटे डाक्टर सुमीत कुमार ने कहा -

इन सभी समस्याओं का एकमात्र हल है कंप्यूटर – यानी सूचना प्रौद्योगिकी.”

सूचना प्रौद्योगिकी और कोशकारिता

कंप्यूटर को हिंदी में संगणक कहा जाता है. गणना करने की यह मशीन कोई भाषा नहीं, केवल दो संख्याएँ जानती है – 1 और 0. हर डाटा, चाहे वह बैंक का ख़ाता हो, सरकारी रिकार्ड हो, किताब हो या चित्र हो या फ़िल्म या फिर ध्वनि हो - कंप्यूटर के लिए बस इन दो संख्याओं से बनी शृंखला मात्र हैं. उन दिनों (1992) कंप्यूटिंग कुल छह-सात बिट तक सीमित थी. कुछ ही महीनों में आठ बिट तक जाने वाली थी. आजकल की सोलह, बत्तीस, चौसठ और एक सौ अट्ठाईस बिट वाली कंप्यूटिंग का कहीं अतापता नहीं था.

सूचना प्रौद्योगिकी से तात्पर्य है कंप्यूटर हार्डवेयर एवं साफ़्टवेअर के अनुप्रयोग से आँकड़ों का संकलन, प्रबंधन, संपादन, सुरक्षण, परिवर्तन, पुनर्प्राप्ति और मैनिपुलेशन द्वारा वांछित रूप में आउटपुट अथवा उस के द्वारा प्रदत्त आदेशों के द्वारा काररवाई या फिर दूर संचार माध्यमों (जैसे ईमेल, इंटरनैट आदि) से विश्व स्तर पर सूचना का आदानप्रदान.

डाटा का मैनिपुलेशन क्या होता है, किसी एक डाटा से किस तरह के आउटपुट लिए जा सकते हैं, यह दरशाने के लिए ग्राफ़िक दिखाए बिना बात समझाई नहीं जा सकती. मैं ने सभी ग्राफ़िक अपने कोश के ऐमऐस ऐक्सैस वाले डाटा से लिए हैं. हर चित्र के लिए एक शब्दकोटि – सफलता – को चुना है, ताकि बात आसानी से समझ में आ जाए.

सुमीत ने तय किया कि थिसारस बनाने के लिए डाटाबेस बनाना होगा. तब हिंदी में डाटाबेस बनाने की परिकल्पना तक किसी ने नहीं की थी. उन दिनों कंप्यूटर के लिए आरंभिक क़िस्म के हिंदी फ़ोंटों से टाइपसैटिंग तो होती थी, लेकिन डाटाबेस नहीँ बन सकते थे. पता चला कि कुछ महीने पहले पुणेँ स्थित सी-डैक की ओर से जिस्ट कार्ड (GIST card) नाम का उपकरण बनाया है. इस की सहायता से ब्राह्मी आधारित सभी लिपियोँ में डाटाबेस बन सकता है. इसे कहते हैं तकनीक और विचार का संगम और सुसंयोग! सही समय पर सही कर्मियोँ के हाथ सही तकनीक लग जाना!

काफ़ी बड़े लिखित डाटा के साथ हम तैयार थे. तकनीक भी बन गई थी. देरी किए बग़ैर हम ने जिस्ट कार्ड ख़रीद लिया और फ़ाक्स-प्रो (Fox-Pro) में हमारी आवश्यकताओं के अनुरूप प्रविधि सुमीत ने स्वयं लिखनी शुरू कर दी. अब तलाश थी दक्ष कंप्यूटर टाइपिस्ट की जो हमारे विशाल शब्द भंडार को डाटाबेस में डाल सके. वह भी मिल गया - दलीप. वह दिन भर शब्द डालता, रात में कुसुम प्रिंट आउटों पर प्रूफ़ रीडिंग कर के अगली सुबह करक्शन कराती रहतीं, मैं अगले दिन के काम के कार्ड छांट कर दलीप के लिए तैयार रखता. ग्यारह महीनों में यह पड़ाव पूरा हो गया.

अब मेरी बारी थी और शब्द डालने की. सन 73 से 93 तक जितने शब्द हम ने संकलित किए और डाटा में डलवाए थे लगभग उतने ही मैं ने सन 94 से 96 तक डाल लिए. यह था तकनीक का कमाल. अब हमारे पास 5,50,000 शब्दों वाला डाटाबेस था.

चौबीस साल का काम चौपट – अब क्या होगा!

मेरे काम में कई बाधाएँ पहले भी आ चुकी थीं – जैसे, घर में बाढ़, मेरा दिल का दौरा, पीलिए का आक्रमण आदि. पर काम पूरा होते होते तकनीकी संकट हमारे लिए सब से भारी था.

कंप्यूटर पर जो कई ख़तरे होते हैं, उन में से सब से बड़ा है डाटा वाली हार्ड डिस्क भ्रष्ट हो जाना. इस से बचने के लिए बैकअप करते रहना चाहिए. मेरा डाटा इतना बड़ा था कि सवा पाँच इंची 19 फ़्लौपियों पर बैकअप हो पाता था. इस लिए मैं हर रोज़ बैकअप करने से कतराता रहता था. हुआ यह कि काम पूरा होने से तीन चार दिन पहले हमारी हार्डडिस्क फ़ेल हो गई! कई कंप्यूटर विशेषज्ञों की शरण में गए. डाटा के पुनरुद्धार की कोई संभावना नहीं निकली. मेरी जान ही निकल गई. ऊपर का दम ऊपर, नीचे का दम नीचे. चौबीस साल का काम चौपट! फिर से यह सब करने की हिम्मत नहीं थी. लगा कि अब मेरा सारा काम गया.

अब तलाश हुई पुराने बैकअपों की. पाँच छह दिन पहले का एक बैकअप मिल गया. नई हार्डडिस्क पर वह डाला गया. पिछले कुछ दिन जो किया था – वह सब मैं भूल गया था. वह क्या था, अब पता नहीं. जो बचा था वही काफ़ी था. मेरी जान में जान आई.

आदेश देने पर कंप्यूटर ने डाटा में से चयनित 1,68,000 शब्दों का आउटपुट कर के समांतर कोश के संदर्भ खंड और अनुक्रम खंड तैयार कर दिए. कुल मिला कर अठारह सौ पेज. प्रकाशक के सामने न कंपोज़िंग की इल्लत, न प्रूफ़ रीडिंग का झंझट! कैमरा वर्क कराओ... और छाप दो. 24-25 सितंबर 1996 को दोनों खंडों के प्रिंटआउट नेशनल बुक ट्रस्ट के हवाले किए थे. 13 दिसंबर 1996 की पूर्वाह्न हम ने तत्कालीन राष्ट्रपति डाक्टर शंकरदयाल शर्मा के करकमलों में दोनों खंड प्रस्तुत कर दिए!

सितारों से आगे जहां और भी हैं

बात यहाँ समाप्त नहीं हो गई. अब हम अपने डाटा को द्विभाषी बनाने में जुट गए. अकेली हिंदी के लिए लिखी गई फ़ाक्स-प्रो ऐप्लीकेशन में इंग्लिश शब्द जोड़ने के लिए मूल प्रविधि में 1997 में परिवर्तन किया गया. आधार बना हमारा हिंदी वाला डाटाबेस. जिस तरह हिंदी थिसारस बनाने के लिए रोजेट में अनेक शब्दकोटियां नहीं थीं, उसी तरह हमारे डाटा में अनेक इंग्लिश शब्दकोटियां नहीं थीं. वे किस प्रकार कहां जोड़ी जाएं, इस के लिए भी काफ़ी सोचविचार किया गया. इंग्लिश शब्दों के स्रोत के लिए आक्सफ़र्ड यूनिवर्सिटी और वैब्सटर के कोश चुने गए. उन का एक एक शब्द परख कर हमारे पुराने डाटा में उपयुक्त जगह शामिल करने के लिए प्रावधान किया गया. 2007 में यह काम पूरा हुआ. उसी साल पेंगुइन इंडिया की ओर से द पेंगुइन इंग्लिश-हिंदी/हिंदी-इंग्लिश थिसारस ऐंड डिक्शनरी नाम से तीन विशाल खंडोँ में प्रकाशित हुई.

इस बीच हमारे दो और हिंदी कोश आ चुके थे—1) अरविंद सहज समांतर कोश – अकारादि क्रम से संयोजित थिसारस, और 2) शब्देश्वरी – भारतीय पौराणिक नामों का थिसारस.

और अभी सितंबर 2013 में आया है समांतर कोश का परिवर्धित और परिष्कृत संस्करण बृहत् समांतर कोश (प्रकाशक वही नेशनल बुक ट्रस्ट इंडिया. यह कोश हमारी कंपनी से भी मंगाया जा सकता है).

सफ़र की पांचवीं मंज़िल की ओर हमारा प्रयाण था - इंटरनेट पर अरविंद लैक्सिकन पहुँचाने की तैयारी. 2008 में सुमीत ने तय कि डाटा को फ़ाक्स-प्रो से निकाल कर विज़ुअल बेसिक की सहायता से माइक्रोसाफ़्ट नैट प्लैटफ़ार्म में लाना चाहिए. अतः डाटाबेस को ऐमऐस ऐक्सैस (MS Access) में इस तरह परिवर्तित किया गया कि वह ऐसक्यू लाइट (SQLite) में ढाला जा सके. यह डाटा ऐमऐस विंडोज़ और लाइनक्स (Linux) ही नहीँ हर प्लेटफ़ार्म पर चलता है.

जून 2011 में राष्ट्रीय राजधानी क्षेत्र की हिंदी अकादेमी ने मुझे शलाका सम्मान प्रदान किया. उसी दिन सुमीत ने अरविंद लैक्सिकन www.arvindlexicon.com लिंक पर लांच कर दिया.

तो बहुत थोड़े शब्दों में यह थी भाषा के उद्भव से सूचना प्रौद्योगिकी की सहायता से हिंदी कोश निर्माण की दास्तान.

clip_image006

áउच्चारण पर आधारित हिंदी का फ़ोनेटिक कीबोर्ड - इस में आ इ ई उ ऊ ए ऐ ओ औ आदि और उन की मात्राओं के लिए स्वतंत्र कुंजी है. मतलब कि ये मात्र ग्राफ़िक नहीं हैं, बल्कि स्वतंत्र उच्चारण है. टाइप राइटर में आ, ओ और औ तथा अन्य सभी मात्राएं व्यंजनों के बाएँ, दाएँ या ऊपर और नीचे टंकित की जाती थीं. कंप्यूटर में इन में से हर एक को अलग से टंकित करना होता है.

clip_image008

á प्रसंस्कृत डाटा - डाटा मैनिपुलेशन - डाटा प्रस्तुति – डाटा प्रदर्शन

clip_image010

áऐमऐस ऐक्सैस में डाटा – आप देख रहे हैं सफलता विषयक डाटा. इस में भिन्न रंग चयनक विधि दिखाते हैं

clip_image011

áसफलता का अकारादि क्रम से हिंदी-इंग्लिश कोश के लिए आउटपुट

clip_image013

áसफलता का संदर्भ क्रम से आउटपुट – यह बृहत् समांतर कोश का एक पेज है

clip_image015

इंटरनैट पर सफलता का आउटपुट

clip_image017

áऔर एक कमांड दे कर कंप्यूटर दिखा रहा है हमारे डाटा के आधार पर सफलता के भाषाई संपर्क

पहले पहली बात.

इस वर्तनी परीक्षक पर सुप्रसिद्ध कार्टूनकार काजल कुमार का फ़ीडबैक प्रस्तुत है -

"मैं आपको व आपके दूसरे मि‍त्रों को धन्‍यवाद देना चाहता हूं कि‍ आप लोगों के अथक प्रयासों की सराहना के लि‍ए मेरे पास शब्‍द नहीं हैं.
मैंने अभी हिंदी वर्तनी परीक्षक डाउनलोड कि‍या है. वास्‍तव में ही बहुत अच्‍छा है. इसके वि‍षय में मेरी कुछ जि‍ज्ञासाएं हैं आशा आप एक पोस्‍ट लि‍ख कर इनका समाधान अवश्‍य करेंगे,
1   यह stand alone तो बढ़ि‍या चल रहा है पर स्‍पैल चैक की डि‍क्‍शनरी में शब्‍द जोड़ना मुझे नहीं आया. जैसे:- 'देश' शब्‍द लि‍खने पर देशा तो इसके ऑप्शन में है पर देश को एक शब्‍द न लेकर यह दे + श लेता है.
2   इसे फ़ायरफ़ाक्‍स एवं एमएस ऑफ़ि‍स में जोड़ने की क्रमवार जानकारी  (संभव हो तो स्‍नैपशॉट सहि‍त) दे पाएं तो नि‍श्‍चय ही मुझे जैसे बहुत से लोगों पर आपका बहुत आभार होगा.
सादर सस्‍नेह
काजल कुमार"

--

जाहिर है, यह वर्तनी परीक्षक बहुत बढ़िया और काम का है, इसीलिए काजल कुमार जी जैसे नवीन टेक्नोलॉजी के उन्नत प्रयोगकर्ता और परीक्षक (रीव्यूअर) ने भी इसे पसंद किया है. और, सबसे बड़ी बात, इसे निःशुल्क, मुक्त स्रोत सॉफ़्टवेयर के रूप में जारी किया गया है - यानी इसके सोर्स कोड और शब्दकोश को कोई भी अपने हिसाब से परिवर्तित कर निःशुल्क पुनः वितरित कर सकता है.

इस वर्तनी परीक्षक का नया, ताज़ा संस्करण आप नीचे दिए गए लिंक से डाउनलोड कर सकते हैं -

http://mcu.ac.in/Conf_New/Mala.zip 

इसे डाउनलोड करने के पश्चात आपको इसे किसी जिप टूल जैसे कि विनजिप या विनराल से अनजिप करना होगा.

अनजिप करने के बाद आपको कई फ़ाइलें मिलेंगीं, जिनके शीर्षक से ही आपको पता चल जाएगा कि कौन सी फ़ाइल का क्या कार्य है.

प्रोग्राम सेटअप की फ़ाइल चलाने पर प्रोग्राम विंडोज कंप्यूटर पर इंस्टाल हो जाता है. पर इसके लिए डॉट.नेट 3.5 संस्करण आपके कंप्यूटर पर होना आवश्यक है. यदि आपके कंप्यूटर पर विंडोज7 या उसके बाद का संस्करण है तो आपको चिंता करने की जरूरत नहीं - यह पहले से इंस्टाल होता है. विंडोज एक्सपी के लिए आपको इसे अलग से डाउनलोड कर इंस्टाल करना होगा.

फ़ायरफ़ॉक्स और थंडरबर्ड में इंस्टाल करने के लिए फ़ायरफ़ॉक्स एक्सटेंशन की फ़ाइल भी इसमें है और कैसे इंस्टाल करना है इसकी विधि भी एक अलग से टैक्स्ट फ़ाइल में दी गई है.

एक ब्लैंक.एचटीएमएल नामक फ़ाइल भी इसमें मिलेगा, जिसे खोलने पर खाली टैक्स्ट एरिया वाला ब्राउज़र विंडो खुलता है जिसमें आप हिंदी टाइप कर सकते हैं और वहीं पर वर्तनी परीक्षण कर सकते हैं.

कोई समस्या हो तो टिप्पणी में पूछें.

--

इस वर्तनी परीक्षक की पृष्ठभूमि के बारे में जानने के लिए इस प्रोग्राम के मुख्य विकासकर्ता और संयोजक - डॉ. अनुराग सीठा द्वारा प्रस्तुत सामग्री से आपको मदद मिलेगी जो निम्न है:

एक मुक्त सोर्स हिन्दी वर्तनी शोधक (जाँचक)

परिचय

¢ प्रभावी संप्रेषण की प्रक्रिया में पाठ्य दस्तावेजों की व्याकरण तथा वर्तनी शुद्धता का अत्यंत महत्व है

¢ वर्तमान में कम्प्यूटर का प्रयोग हर क्षेत्र में बढ़ रहा है। कम्प्यूटर पर हिन्दी में इलेक्ट्रॉनिक पाठ्य अत्यधिक मात्रा में तैयार किए जा रहे है। हिन्दी इलेक्ट्रॉनिक पाठ्य की शुद्धता की पुष्टि की आवश्यकता महसूस की जा रही है।

¢ एक वर्तनी जाँचक वह सॉप्टवेयर है जो किसी दस्तावेज में पाठ्य की वर्तनी शुद्धता की जाँच करता है तथा अशुद्ध शब्दों को स्वचालित रुप से रेखांकित करता है।

¢ एक वर्तनी जाँचक को एक स्वतंत्र प्रोग्राम का तरह या किसी बड़े सॉफ्टवेयर प्रोग्राम जैसे एक शब्द-संसाधक(वर्ड-प्रोसेसर), ई-मेल प्रोग्राम या किसी सर्च-इंजन प्रोग्राम के एक हिस्से के रुप में प्रयुक्त किया जा सकता है।

कम्प्यूटर से वर्तनी जाँच

¢ पाठ्य दस्तावेजों में मानवीय हस्तक्षेप से वर्तनी शुद्धता की जाँच करना अत्यंत उबाऊ तथा श्रमसाध्य कार्य है।

¢ स्वचालित वर्तनी जाँच का प्रयोग कर हम अत्यधिक श्रम तथा समय की बचत कर सकते हैं।

¢ सामान्यतः एक वर्तनी जाँचक एक शब्द संसाधक प्रोग्राम या एक पाठ्य संशोधक प्रोग्राम में संयुक्त होकर दस्तावेजों के पाठ्य की वर्तनी शुद्धता की जाँच करता है।

— दस्तावेज में प्रयुक्त प्रत्येक शब्द की जाँच शब्दकोश में उपलब्ध शब्दों की सही वर्तनी से करता है

— यदि दस्तावेज में प्रयुक्त कोई शब्द कम्प्यूटर शब्दकोश का हिस्सा नहीं है तो वह दस्तावेज में उपलब्ध शब्द से मिलते-जुलते उन शब्दों को आपको सुझाव के रुप में उपलब्ध कराता है जो उस कम्प्यूटर शब्दकोश में उपलब्ध हैं.

— इन प्रदर्शित सुझाए गए शब्दों में से आप एक उपर्युक्त शब्द का चयन कर सकते हैं या उस शब्द को उपेक्षित कर सकते हैं.

अंग्रेजी भाषा में वर्तनी शोधक

¢ अंग्रेजी भाषा में शब्दकोश कई पाठ्य संसाधकों, शब्द संसाधकों तथा पेज ले-आउटिंग सॉफ्टवेयर में लम्बे समय से उपलब्ध है.

¢ अंग्रेजी भाषा में स्वचालित वर्तनी परीक्षक प्रोग्राम विगत 3-4 दशकों से सामान्य रुप से उपलब्ध हैं

¢ अंग्रेजी भाषा के लिए विश्व का सर्वप्रथम वर्तनी परीक्षक प्रोग्राम 1960-65 के मध्य राल्फ गोरिन द्वारा विकसित किया गया था.

¢ अंग्रेजी भाषा का प्रथम वर्तनी परीक्षक प्रोग्राम मेनफ्रेम कम्प्यूटरों पर 1970 के दशक के अंत में बड़े पैमाने पर उपलब्ध कराया गया था.

¢ पर्सनल कम्प्यूटरों पर CP/M तथा TRS-80 पर 1980 में तथा फिर आई.बी.एम. पी. सी. पर अंग्रेजी भाषा वर्तनी शोधक/परीक्षक 1981 में उपलब्ध कराया गया.

¢ हाल ही के वर्षों में वर्तनी परीक्षक अधिकांश शब्द संसाधकों, पाठ्य संशोधकों, प्रेजेन्टेशन सॉफ्टवेयर तथा पेज ले-आउटिंग सॉफ्टवेयर में अंग्रेजी तथा अन्य कई भाषाओं में उपलब्ध हैं इनमें से कुछ प्रोग्राम तो सामान्य व्याकरण का परीक्षण भी कर सकते हैं.

हिन्दी तथा भारतीय भाषाओं में वर्तनी जाँच सुविधा

¢ कम्प्यूटरों पर भारतीय भाषाओं को प्रयोग करने के प्रयास 1970 के दशक से ही किए जा रहे थे

¢ 1980 के दशक में कम्प्यूटरों पर हिन्दी का मुख्यतया प्रयोग टाइपसेटिंग, प्रिंटिंग तथा प्रकाशन में किया गया. इस दशक में कम्प्यूटरों पर हिन्दी का प्रयोग कर दस्तावेजों का निर्माण किया गया. यह दस्तावेज मुख्यत लिगेसी फोन्ट्स का प्रयोग कर हिन्दी तथा अन्य भारतीय भाषाओं में तैयार किए जाते थे.

¢ हिन्दी तथा अन्य भारतीय भाषाओं में वर्तनी जाँच सुविधा एक सामान्य कम्प्यूटर उपयोगकर्ता के लिए एक स्वप्न ही थी.

¢ 1990 तथा 2000 के दशक हिन्दी में वर्तनी जाँच सुविधा निर्माण के कुछ प्रयास किए गए थे किन्तु वे अधिक सफल नहीं हो सके।

¢ वर्तमान में भी कोई भी मानक पाठ्य संसाधक तथा शब्द संसाधक सॉफ्टवेयर में में हिन्दी वर्तनी जाँच सुविधा अंत:निर्मित नहीं है.

¢ हिन्दी में वर्तनी जाँच सुविधा के क्षेत्र में कुछ शोध तथा प्रयास अवश्य किए गए है जिनके परिणाम स्वरूप कुछ सॉफ्टवेयर जैसे सीडेक के आईलीप, ओपनऑफिस, वेबदुनिया के विन्डिक इत्यादि सॉफ्टवेयर में प्रारंभिक स्तर पर वर्तनी जाँच सुविधा उपलब्ध करायी गई है. किन्तु इन सॉफ्टवेयर में शब्द संख्या अत्यंत सीमित होने के कारण तथा प्रोपराइटर फोन्ट पर निर्भरता के कारण इनका प्रयोग वांछित स्तर पर नहीं हो पाया है।

कम्प्यूटर, यूनिकोड तथा हिन्दी वर्तनी शोधक

¢ मूल रुप से कम्प्यूटर सिर्फ अंक आधारित होते है। किसी भी भाषा के अक्षरों तथा अन्य कैरेक्टर्स को प्रदर्शित तथा संग्रहित करने के लिए उनको एक आंकिक कोड प्रदान किया गया है.

¢ यूनिकोड के पर्योग से पहले अक्षरों तथा अन्य कैरेक्टर्स को प्रदर्शित तथा संग्रहित करने के लिए उनकी कई आंकिक कोड प्रणालियॉ अस्तित्व में थी

¢ यूनिकोड से पूर्व भारतीय भाषाओं को कम्प्यूटर में प्रयोग में लाने के लिए एक मानक आंकिक कोड प्रणाली ISCII (Indian Script Code for Information Interchange) को भारत सरकार ने विकसित तथा मान्य किया था परन्तु दुर्भाग्यवश यह अधिक प्रयोग में नहीं लाई गई

¢ भारतीय फोन्ट निर्माताओं ने अपने फोन्ट निर्माण तथा संग्रहण के लिए अपनी ही आंकिक कोड प्रणालियों को प्रयोग में लाया जिससे एक मानक वर्तनी शोधक का निर्माण करना भी असंभव हो गया

कम्प्यूटर, यूनिकोड तथा हिन्दी वर्तनी शोधक

¢ यूनिकोड के मानकीकरण एवं ऑपरेटिंग सिस्टम तथा सॉफ्टवेयर में सपोर्ट के पश्चात यह विचार स्तर पर संभव हो पाया कि एक मानक हिन्दी वर्तनी शोधक का विकास किया जा सके.

¢ पूर्व में विकसित हिन्दी वर्तनी जाँचक सॉफ्टवेयर जैसे सीडेक के आईलीप, ओपनऑफिस, वेबदुनिया के विन्डिक, अक्षरा-एक्सपी, सुलिपि 2.0 इत्यादि सॉफ्टवेयर प्रोपराइटर फोन्ट पर निर्भर थे। अतः इनका प्रयोग मानक यूनिकोड आधरित दस्तावेजों की वर्तनी जाँच में नहीं किया जा सकता था

¢ इन वर्तनी शोधक सॉफ्टवेयर में प्रयुक्त एल्गोरिथ्म भी अधिक परिष्कृत नहीं थे तथा इनमें प्रयुक्त शब्दकोश में शब्दों की अधिकतम संख्या 20-30 हजार के लगभग ही थी।

¢ अभी हाल ही में कम्प्यूटर क्षेत्र की दिग्गज कंपनियों याहू, गूगल, ब्लॉगर तथा रैडिफ ने अपने ऑनलाइन दस्तावेजों में तथा ई-मेल में प्रारंभिक स्तर पर हिन्दी में वर्तनी जाँच सुविधा प्रारंभ की है किन्तु यह सुविधा सिर्फ ऑनलाइन ही उपलब्ध है ऑफलाइन उपयोगकर्ताओं के लिए यह उपलब्ध नहीं है।

हिन्दी में वर्तनी शोधक विकास की चुनौतियॉ

¢ विभिन्न शोंधों से यह जानकारी मिली है कि हिन्दी में वर्तनी अशुद्धियॉ निम्न कारणों से होती है -

— मात्रा की त्रुटियॉ

— मात्रा तथा व्यंजक का स्थान परिवर्तन

— अक्षर दोहराव की त्रुटियॉ

— स्वर तथा व्यंजक परिवर्तन

— अक्षर का विलोपित होना

— शब्द विभाजन

— शब्द संयोजन

¢ हिन्दी जैसी भाषा में एक ही शब्द से बनने वाले वेरिएंट शब्द जैसे लड़का, लड़के, लड़की, लड़कियों, लड़कों की संख्या काफी अधिक है तथा सभी का शब्दकोश में रखा जाना असंभव है।

¢ हिन्दी भाषा में प्रयुक्त मूलशब्दों(Rootwords) की संख्या ही लगभग 3.5 लाख बतायी गयी है तथा इनसे बनने वाले वेरिएंट शब्दों की संख्या 40 लाख से ऊपर हो सकती है।

प्रस्तुत हिन्दी वर्तनी शोधक

¢ प्रस्तुत हिन्दी वर्तनी शोधक मानक यूनिकोड पर आधारित है जिससे इसका प्रयोग व्यापक स्तर पर विभिन्न सॉफ्टवेयर में किया जा सके.

¢ प्रस्तुत हिन्दी वर्तनी शोधक पहले से प्रयोग किए जा रहे मानक सॉप्टवेयर की वर्तनी शोधक सुविधा के समान ही कार्य करता है जिससे इसका सीखना अत्यंत सरल है.

¢ यह वर्तनी शोधक इस क्षेत्र में प्रयुक्त अत्यंत प्रभावशाली एवं प्रयोगशील एल्गोरिथ्म पर आधारित है जिसका प्रयोग गूगल, याहू, मोजिला, मैकिन्टोश, ओपनऑफिस, सोलोरिस तथा अन्य कई बड़ी कंपनियॉ अपने सॉप्टवेयर में कर रहीं है.

¢ प्रस्तुत प्रोग्राम हनस्पैल संस्करण 1.3.2 (16-02-2011 को जारी) तथा उसके .NET संस्करण Nhunspell के नवीनतम संस्करण 1.1.1 (12-05-2013 को जारी) पर आधारित है। (http://hunspell.sourceforge.net/ http://nhunspell.sourceforge.net/ )

प्रस्तुत हिन्दी वर्तनी शोधक

¢ प्रस्तुत हिन्दी वर्तनी शोधक कई सॉफ्टवेयर प्रोग्रामों जैसे फॉयरफॉक्स, थंडरवर्ड, ओपनऑफिस तथा लिब्रेऑफिस इत्यादि में सीधे ही संयुग्मित होकर कार्य कर सकता है.

¢ आवश्यकता होने पर इस हिन्दी वर्तनी शोधक की डिक्शनरी को हिन्दी समर्थन युक्त माइक्रोसॉफ्ट ऑफिस 2003, 2007, 2010 या 2013 में भी प्रयुक्त किया जा करता है.

¢ छोटे दस्तावेजों के निर्माण तथा इसमें वर्तनी शोधक के प्रयोग के लिए इसमें एक नोटपैड जैसा एक पाठ्य-संसाधक भी विकसित किया गया है।

¢ बड़े दस्तावेजों की वर्तनी शुद्धता की जाँच के लिए विकसित फॉयरफॉक्स एक्सटेंशन का प्रयोग किया जा सकता है या विकसित डिक्शनरी को माइक्रोसॉफ्ट ऑफिस, ओपनऑफिस तथा लिब्रेऑफिस के साथ किया जा सकता है.

प्रस्तुत हिन्दी वर्तनी शोधक

¢ इसका प्रयोग कर उपयोगकर्ता कम समय में हिन्दी में त्रुटिरहित दस्तावेजों का निर्माण कर सकता है।

¢ इस वर्तनी शोधक प्रोग्राम के सोर्स कोड तथा बायनरी फाइल को विकसित किए गए हिन्दी शब्दसंग्रह (डिक्शनरी) को विश्वविद्यालय द्वारा पब्लिक डोमेन में मुक्त सोर्स सॉप्टवेयर की तरह (GNU GPL लाइसेंस के अंतर्गत) उपलब्ध कराया जा रहा है जिससे इसका उपयोग हिन्दी के अन्य शोधों में बिना किसी मूल्य के किया जा सकेगा क्योंकि वर्तमान में इतनी यूनिक शब्द संख्या का कोई भी हिन्दी डाटाबेस उपलब्ध नहीं है।

¢ जीएनयू जीपीएल लाइसेंस के तहत जारी होने के कारण इस प्रोग्राम के सोर्स कोड को अन्य व्यक्ति, संस्था या शोध-समूह लेकर इसमें और अधिक सुधार कर सकते है तथा इसे परिष्कृत कर सकते है।

¢ इस वर्तनी शोधक तथा इसकी डिक्शनरी को विश्वविद्यालय की वेबसाइट पर मुक्त वितरण के लिए रखा जा सकता है.

हिन्दी वर्तनी शोधक - विकास तथा निर्माण टीम

¢ इस हिन्दी वर्तनी शोधक की विकास तथा निर्माण टीम में निम्न सदस्य है

डॉ. अनुराग सीठा – मुख्य शोधकर्ता तथा प्रोजेक्ट लीडर

डॉ. सुजोय दास – सहायक शोधकर्ता तथा शब्द सूची निर्माण सहायक

रविशंकर श्रीवास्तव (रवि रतलामी) – सॉप्टवेयर तथा शब्द सूची निर्माण सहायक तथा टेस्टिंग

डॉ. महेश परिमल – भाषाविद तथा शब्द सूची संशोधक

विनय उपाध्याय – हिन्दी भाषा विशेषज्ञ तथा शब्द सूची संशोधक

— सॉफ्टवेयर विकास - डॉ. अनुराग सीठा, आनंद, जावेद खान, दीपेन्द्र तथा अन्य 6 व्यक्ति

— विशेष सहयोग – श्री अरविंद कुमार (जिन्होंने विश्व का प्रथम हिन्दी समांतर कोष तैयार किया है) तथा डॉ. विनीत चैतन्य (IIIT, हैदराबाद में प्रोफेसर) जिन्होंने इसमें प्रयुक्त शब्दकोश के लिए लगभग 40 हजार शब्द दिए।

भविष्य की योजनाएं

¢ इस वर्तनी शोधक तथा इसकी डिक्शनरी को विश्वविद्यालय की वेबसाइट पर मुक्त वितरण के लिए रखा जा सकता है. जिसका प्रयोग हिन्दी की अन्य शोध टीमें कर सकती है. विशेषकर प्राकृतिक भाषा प्रौद्योगिकी(NLP) के क्षेत्र में कार्यरत शोध टीमें।

¢ शब्द सूची का और अधिक विस्तार तथा संशोधन।

¢ भविष्य में इस डिक्शनरी पर आधारित माइक्रोसॉफ्ट ऑफिस का प्लगइन विकास किया जा सकता है।

¢ प्राप्त सुझावों के आधार पर बेहतर शब्द सुझाव के लिए एल्गोरिथ्म में सुधार।

¢ अन्य भारतीय भाषाओं में इसका उपयोग किया जा सकता है।

प्रोजेक्ट परिणाम

— इस सॉफ्टवेयर में उपलब्ध है – विन्डोज नोटपैड के समान एक सरल पाठ्य निर्माण सॉफ्टवेयर हिन्दी वर्तनी शोधक की सुविधा के साथ।

— एक फॉयरफॉक्स ब्राउजर तथा थंडरबर्ड ई-मेल क्लाइंट के लिए प्लगइन/एक्सटेंशन जिसका प्रयोग कर हिन्दी पाठ्य तैयार कर उसमें वर्तनी शोधक प्रयोग किया जा सकता है.

— दो लाख से अधिक हिन्दी शब्दों का कोश (कुल शब्द संख्या 202021)

— यह पाठ्य निर्माण तथा हिन्दी वर्तनी शोधक प्रोग्राम विन्डोज डॉट नेट फ्रेमवर्क संस्करण 3.5 पर आधारित है जिसे C# भाषा में विकसित किया गया है.

— इसे चलाने के लिए आपके कम्प्यूटर पर निम्न सॉफ्टवेयर होना आवश्यक है-

¢ विन्डोज एक्स पी (सर्विस पैक 2 के साथ)/ विन्डोज विस्टा/ विन्डोज 7/ विन्डोज 8 हिन्दी भाषा इनपुट सुविधा के साथ (अर्थात यूनिकोड इनेबल तथा हिन्दी इनपुट के लिए आवश्यक कीबोर्ड लेआऊट की हिन्दी आईएमई के साथ)

¢ डॉट नेट फ्रेमवर्क संस्करण 3.5 (सर्विस पैक 1 के साथ)

¢ फॉयरफॉक्स ब्राउजर या थंडरबर्ड ई-मेल क्लाइंट (संस्करण 8 या अधिक)

¢ फॉयरफॉक्स ब्राउजर के एड्रेस बार में data:text/html, <html contenteditable> टाइप करने पर ब्राउजर एक पाठ्य एडीटर में बदल जाता है तथा आप यहॉ हिन्दी में टाइप कर सकते है.

प्रयुक्त हिन्दी वर्तनी की शुद्धता - मानक

— हिन्दी शब्दों की वर्तनी शुद्धता जाँच के लिए निम्न साधन या स्त्रोत का प्रयोग किया गया-

¢ वृहत हिन्दी कोश – कालिका प्रसाद, राजवल्लभ सहाय तथा मुकुन्दी लाल श्रीवास्तव – ज्ञानमंडल लिमिटेड, वाराणसी

¢ आदर्श हिन्दी शब्दकोश – संपादक – आर.सी.पाठक, भार्गव बुक डिपो, वाराणसी

¢ हिंदी शब्दसागर - प्रधान सम्पादक श्यामसुन्दर दास, नागरी प्रचारिणी सभा, काशी (http://dsal.uchicago.edu/dictionaries/dasa-hindi/index.html)

¢ शिक्षार्थी शब्दकोश डॉ. हरदेव बाहरी, राजपाल, नई दिल्ली

¢ अरविंद कुमार, समांतर कोश, नेशनल बुक ट्रस्ट, नई दिल्ली

¢ हिन्दी शब्दतंत्र (हिन्दी वर्डनेट) - http://www.cfilt.iitb.ac.in/wordnet/hindiwn_test/wn.php

----------.

इस वर्तनी परीक्षक का लोकार्पण पिछले दिनों किया गया. जिसका समाचार निम्न है -

हिन्दी का प्रथम बहुआयामी वर्तनी परीक्षक माला शब्द संशोधक व सुधारक मुक्त स्रोत सॉफ़्टवेयर जारी

image

(हिंदी वर्तनी परीक्षक सॉफ़्टवेयर - माला जारी करते हुए सुप्रसिद्ध पत्रकार राहुल देव)

भोपाल, 25 दिसंबर। आज किसी भी भाषा के विकास में तकनीकी संसाधन महत्वपूर्ण भूमिका निभा रहे हैं। कंप्यूटर आधारित तकनीक भाषा के विकास में अहम होती जा रही है। इसलिए ही हिंदी और अन्य भारतीय भाषाओं के शब्द संशोधक भाषा के विकास की अहम कड़ी होगें। यह विचार वरिष्ठ पत्रकार राहुल देव ने माखनलाल चतुर्वेदी राष्ट्रीय पत्रकारिता एवं संचार विश्वविद्यालय में आयोजित हिंदी के प्रथम ओपन सोर्स स्पेल चेक साफ्टवेयर के लोकार्पण समारोह में व्यक्त किए। इस साफ्टवेयर का नामकरण 'माला शब्द संशोधक' (माखनलाल चतुर्वेदी हिंदी शब्द संशोधक) किया गया है। कार्यक्रम का आयोजन पं.मदनमोहन मालवीय की जयंती एवं पूर्व प्रधानमंत्री श्री अटलबिहारी वाजपेयी की जन्मतिथि के अवसर पर किया गया था। पत्रकारिता विश्वविद्यालय की एक महत्वाकांक्षी परियोजना के तहत कंप्यूटर पर हिंदी में काम करते समय हिंदी के शब्दों को लिखते समय होने वाली वर्तनी की त्रुटियों को दूर करने के लिए स्पेल चेक साफ्टवेयर परियोजना के अंतर्गत तैयार किया गए 'माला शब्द संशोधक साफ्टवेयर' का लोकार्पण करते हुए श्री राहुल देव ने कहा कि भारत भाषायी विविधता वाला देश है। भारतीय भाषाओं को विकास के लिए तकनीक आधारित विकास पर जोर देते हुए वर्तनी शोधक तैयार करना चाहिए। हिंदी में तैयार किया गया यह शब्दशोधक केवल पत्रकारिता के लिए ही नहीं बल्कि हिंदी के विकास में भी महत्वपूर्ण भूमिका का निर्वाह करेगा। इस अवसर पर साफ्टवेयर निर्माण दल के सदस्यों सर्वश्री अनुराग सीठा, रवि रतलामी, महेश परिमल एवं मनीष माहेश्वरी ने साफ्टवेयर सीडी का लोकार्पण करते हुए उसके अनुप्रयोग के बारे में प्रस्तुति दी। कार्यक्रम के विशिष्ट अतिथि सूचना एवं प्रसारण मंत्रालय के पूर्व सचिव उदय वर्मा ने कहा कि हिंदी कठिन किंतु वैज्ञानिक भाषा है। ऐसा माना जाता है कि विकसित एवं अविकसित भाषाओं में मुख्य अंतर यह होता है कि विकसित भाषा में कम अक्षर होते हैं हिंदी में अधिक अक्षर होने के बावजूद भी इसका वर्तनी शोधक तैयार कर लेना एक बड़ी उपलब्धि है। साथ ही इसे ओपन सोर्स के तहत जारी करना हिंदी के विकास में एक बड़ा कदम है। अपने अध्यक्षीय संबोधन में कुलपति प्रो. बृज किशोर कुठियाला ने कहा कि हिंदी के विकास एवं विस्तार में अब तकनीकी संसाधन अब महत्वपूर्ण कड़ी बन रहे हैं इसलिए विश्वविद्यालय ने यह साफ्टवेयर तैयार किया है।विश्वविद्यालय की वेबसाइट www.mcu.ac.in पर यह साफ्टवेयर ओपनसोर्स के अंतर्गत उपलब्ध है। हिंदी प्रेमी इसमें आवश्यक सुधार-परिवर्तन करते हुए इसके नए संस्करण तैयार कर हिंदी के विकास में अपना योगदान दे सकते हैं। कार्यक्रम के दौरान डा. अनुराग सीठा ने इस संपूर्ण परियोजना की रूपरेखा रखी एवं इसके अनुप्रयोग के संबंध में बताया। कार्यक्रम का संचालन संजय द्विवेदी एवं आभार प्रदर्शन डा. चैतन्य पुरुषोत्तम अग्रवाल ने किया। इस अवसर हिंदी विश्वविद्यालय के कुलपति प्रो. मोहनलाल छीपा, वरिष्ठ पत्रकार सर्वश्री राजेंद्र शर्मा, गिरीश उपाध्याय, शिवअनुराग पटैरया, रामभुवन सिंह, कुशवाह, हरिमोहन शर्मा, बृजेश राजपूत, दीपक तिवारी, विजय दास, साहित्यकार श्री सुबोध श्रीवास्तव सहित विवि के शिक्षक, अधिकारी, कर्मचारी, छात्र-छात्राएं उपस्थित थे।

(डॉ. पवित्र श्रीवास्तव)
निदेशक, जनसंपर्क प्रकोष्ठ
मा.स.रा.प.सं.वि.वि., भोपाल

माखनलाल चतुर्वेदी विश्वविद्यालय की एक शोध परियोजना के तहत एक नया, बहुआयामी, बहुविकल्पीय व वस्तुतः प्रायोगिक हिंदी वर्तनी परीक्षक सह लेखक सॉफ़्टवेयर जारी किया गया है जिससे कंप्यूटरों में काम करते समय हिंदी के शब्दों को लिखते समय होने वाली वर्तनी त्रुटियों को दूर किया जा सकेगा.

अब आप कंप्यूटरों में काम करते समय अपनी हिंदी की चिंता छोड़ सकते हैं. यानी अब आप अपने कंप्यूटरों में परिशुद्ध हिंदी लिख सकते हैं. सही और शुद्ध वर्तनी वाली हिंदी लिखने में आपकी सहायता के लिए वर्तनी परीक्षक सह लेखक प्रोग्राम का लोकार्पण 25 दिसम्बर 2013 को किया गया. यह सॉफ़्टवेयर प्रोग्राम सभी के डाउनलोड व उपयोग के लिए निःशुल्क जारी किया गया है.

हिंदी कंप्यूटरी के क्षेत्र में अब तक जो भी वर्तनी परीक्षक सॉफ़्टवेयर उपलब्ध थे, उनमें कुछ न कुछ कमियाँ थीं – जैसे कि कुछ में प्रोप्राइटरी फ़ॉन्ट का प्रयोग किया गया है, कुछ अत्यंत महंगे हैं, कुछ केवल ऑनलाइन उपलब्ध हैं, तथा प्रायः सभी में शब्द संख्या कम होने से उनकी प्रायोगिकता अत्यंत सीमित है इत्यादि, जिन्हें इस सॉफ़्टवेयर में दूर करने का प्रयास किया गया है. इस सॉफ़्टवेयर की सबसे बड़ी ख़ूबी यह है कि इसे मुक्तस्रोत सॉफ़्टवेयर लाइसेंस के तहत जारी किया गया है जिसका अर्थ है कि इसका न केवल उपयोग निःशुल्क किया जा सकेगा, बल्कि इसमें आवश्यक सुधार / परिवर्तन आदि किया जा कर इसके अन्य संस्करण तैयार किए जा सकेंगे और उनका भी वितरण मुक्त स्रोत सॉफ़्टवेयर के रूप में किया जा सकेगा.

इस नए हिंदी वर्तनी परीक्षक सह लेखक सॉफ़्टवेयर की कुछ प्रमुख विशेषताएँ हैं –

· यह सॉफ़्टवेयर निःशुल्क, मुक्त स्रोत लाइसेंस (GNU GPL लाइसेंस के अंतर्गत) के तहत जारी किया गया है, जिसे हर कोई निःशुल्क उपयोग व वितरण व आवश्यक बदलाव व सुधार कर वितरण कर सकता है. इसका सोर्स कोड भी निःशुल्क उपयोग व वितरण के लिए उपलब्ध है. इसके स्रोत कोड का उपयोग हिन्दी के अन्य शोधों में बिना किसी मूल्य के किया जा सकेगा क्योंकि वर्तमान में इतनी अधिक विशिष्ट शब्द संख्या का कोई भी हिन्दी डाटाबेस उपलब्ध नहीं है। इस सॉफ़्टवेयर को इंस्टाल करना व उपयोग करना अत्यंत आसान है.

· इसका शब्द भंडार अतिविशाल है, जिससे अब हिंदी वर्तनी परीक्षण प्रायोगिक रूप से सफल हो गया है. अब तक जितने भी वर्तनी परीक्षक उपलब्ध हैं, उनका शब्द भंडार बेहद कम है जिससे कंप्यूटर आधारित वर्तनी परीक्षण का अर्थ आमतौर पर विफल रहता है और प्रायः उनसे कोई प्रतिफल हासिल नहीं होता. इसके शब्द भंडार में आम प्रचलित दो लाख शब्द हैं. और आप इसमें अपने विषयानुरूप विशिष्ट शब्दों को शामिल भी कर सकते हैं. यह आधुनिक, सर्वमान्य यूनिकोड हिंदी फ़ॉन्ट में कार्य करता है.

· इस सॉफ़्टवेयर में लिखते-लिखते वर्तनी जाँचने की सुविधा है जिससे आपको तत्काल ही पता चल जाता है कि वर्तनी गलत लिखी जा रही है, और गलत वर्तनी के शब्द पर क्लिक करने पर सही वर्तनी वाले शब्दों के विकल्प वहीं पर उपलब्ध हो जाते हैं. साथ ही इसमें पहले से तैयार मैटर की वर्तनी जांच भी की जा सकती है.

· इस सॉफ़्टवेयर में लिखते-लिखते वर्तनी जाँच की सुविधा युक्त एक मूलभूत सुविधा वाला हिंदी शब्दसंसाधक (वर्डपैड जैसा वर्ड प्रोसेसर) भी है जिससे आप हिंदी में लिख सकते हैं. साथ ही इसे आप अपने फ़ायरफ़ाक्स ब्राउज़र, थंडरबर्ड ईमेल क्लाएंट अथवा लिब्रे/ओपन ऑफ़िस में भी प्लगइन के रूप में इंस्टाल कर सकते हैं और हिंदी वर्तनी जाँच की सुविधा उनमें भी हासिल कर सकते हैं. इस तरह से यह सॉफ़्टवेयर अतिप्रायोगिक, बहुआयामी और बहुविकल्पीय भी है.

· आवश्यकता होने पर इस हिन्दी वर्तनी शोधक की समृद्ध डिक्शनरी को हिन्दी समर्थन युक्त माइक्रोसॉफ्ट ऑफिस 2003, 2007, 2010 या 2013 में भी प्रयुक्त किया जा करता है.

· इसमें उपयोग में लिए गए प्रोग्रामिंग अल्गोरिद्म पर विशेष ध्यान दिया गया है जिससे हिंदी वर्तनी जाँच कम समय में और त्वरित गति से संभव होता है, साथ ही गलत शब्दों के लिए सही विकल्प भी, विशाल डेटाबेस होने के बाद भी त्वरित उपलब्ध होते हैं, और प्रोग्राम तेज चलता है.

  • प्रस्तुत हिन्दी वर्तनी शोधक पहले से प्रयोग किए जा रहे मानक सॉप्टवेयर की वर्तनी शोधक सुविधा के समान ही कार्य करता है जिससे इसका सीखना अत्यंत सरल है.
  • यह वर्तनी शोधक इस क्षेत्र में प्रयुक्त अत्यंत प्रभावशाली एवं प्रयोगशील एल्गोरिथ्म पर आधारित है जिसका प्रयोग गूगल, याहू, मोजिला, मैकिन्टोश, ओपनऑफिस, सोलोरिस तथा अन्य कई बड़ी कंपनियॉ अपने सॉप्टवेयर में कर रहीं है.

इसे चलाने के लिए आपके कम्प्यूटर पर निम्न सॉफ्टवेयर होना आवश्यक है-

— विन्डोज एक्स पी (सर्विस पैक 2 के साथ)/ विन्डोज विस्टा/ विन्डोज 7/ विन्डोज 8 हिन्दी भाषा इनपुट सुविधा के साथ (अर्थात यूनिकोड इनेबल तथा हिन्दी इनपुट के लिए आवश्यक कीबोर्ड लेआऊट की हिन्दी आईएमई के साथ)

— डॉट नेट फ्रेमवर्क संस्करण 3.5 (सर्विस पैक 1 के साथ)

— फॉयरफॉक्स ब्राउजर या थंडरबर्ड ई-मेल क्लाइंट (संस्करण 8 या अधिक)

— फॉयरफॉक्स ब्राउजर के एड्रेस बार में data:text/html, <html contenteditable> टाइप करने पर ब्राउजर एक पाठ्य एडीटर में बदल जाता है तथा आप यहॉ हिन्दी में टाइप कर सकते है.

इस सॉफ़्टवेयर को माखनलाल चतुर्वेदी विश्वविद्यालय की वेबसाइट http://mcu.ac.in/Conf_New/Mala.zip  से निःशुल्क डाउनलोड कर अपने कंप्यूटर पर इंस्टाल कर सकते हैं.

कृप्या अपने सुझाव निम्न ईमेल पर देवे : malashabad@mcu.ac.in, malashabad@gmail.com.

MKRdezign

संपर्क फ़ॉर्म

नाम

ईमेल *

संदेश *

Blogger द्वारा संचालित.
Javascript DisablePlease Enable Javascript To See All Widget