अध्याय 01 डेटा - इसका स्रोत और संकलन
आपने विभिन्न प्रकार के आँकड़ों को देखा और उपयोग किया होगा। उदाहरण के लिए, टेलीविज़न पर लगभग हर समाचार बुलेटिन के अंत में उस दिन प्रमुख शहरों में दर्ज किए गए तापमान प्रदर्शित किए जाते हैं। इसी प्रकार, भारत के भूगोल की पुस्तकों में जनसंख्या की वृद्धि और वितरण, तथा विभिन्न फसलों, खनिजों और औद्योगिक उत्पादों के उत्पादन, वितरण और व्यापार से संबंधित आँकड़े सारणीबद्ध रूप में दिखाए जाते हैं। क्या आपने कभी सोचा है कि ये क्या मतलब रखते हैं? ये आँकड़े कहाँ से प्राप्त किए जाते हैं? इन्हें कैसे सारणीबद्ध और संसाधित किया जाता है ताकि इनसे सार्थक सूचना निकाली जा सके? इस अध्याय में हम आँकड़ों के इन पहलुओं पर विचार करेंगे और इन अनेक प्रश्नों के उत्तर खोजने का प्रयास करेंगे।
आँकड़े क्या हैं?
डेटा को उन संख्याओं के रूप में परिभाषित किया गया है जो वास्तविक दुनिया से मापन को दर्शाती हैं। डेटम एक एकल माप है। हम अक्सर समाचार पढ़ते हैं जैसे बाड़मेर में 24 घंटों में लगातार 20 सेंटीमीटर वर्षा या बांसवाड़ा में 35 सेंटीमीटर लगातार वर्षा, या जानकारी जैसे नई दिल्ली - मुंबई की दूरी कोटा-वडोदरा के रास्ते ट्रेन से 1385 किलोमीटर है और इटारसी-मनमद के रास्ते 1542 किलोमीटर है। यह संख्यात्मक जानकारी डेटा कहलाती है। यह आसानी से समझा जा सकता है कि आज दुनिया भर में डेटा की बड़ी मात्रा उपलब्ध है। हालांकि, कभी-कभी इन डेटा से यदि वे कच्चे रूप में हों तो तार्किक निष्कर्ष निकालना कठिन हो जाता है। इसलिए यह सुनिश्चित करना महत्वपूर्ण है कि मापी गई जानकारी किसी एल्गोरिद्म से प्राप्त और/या तार्किक रूप से निकाली गई और/या कई डेटा से सांख्यिकीय रूप से परिकलित हो। जानकारी को या तो किसी प्रश्न का सार्थक उत्तर या ऐसा सार्थक उत्तेजक परिभाषित किया गया है जो आगे के प्रश्नों को जन्म दे सकता है।
डेटा की आवश्यकता
नक्शे भूगोल के अध्ययन में महत्वपूर्ण उपकरण हैं। इसके अतिरिक्त, किसी भी घटना के वितरण और वृद्धि को सारणीबद्ध आँकड़ों के माध्यम से भी समझाया जाता है। हम जानते हैं कि पृथ्वी की सतह पर अनेक घटनाओं के बीच परस्पर संबंध होता है। ये अन्योन्य क्रियाएँ अनेक चरों द्वारा प्रभावित होती हैं, जिन्हें सर्वोत्तम रूप से मात्रात्मक पदों में समझाया जा सकता है। उन चरों का सांख्यिकीय विश्लेषण आज अनिवार्य हो गया है। उदाहरणतः, किसी क्षेत्र की फसल प्रणाली का अध्ययन करने के लिए बोई गई भूमि, फसल उत्पादन और उत्पादन, सिंचित क्षेत्र, वर्षा की मात्रा और उर्वरक, कीटनाशक, पीड़कनाशक आदि के उपयोग जैसी सांख्यिकीय सूचना होना आवश्यक है। इसी प्रकार, किसी नगर की वृद्धि का अध्ययन करने के लिए कुल जनसंख्या, घनत्व, प्रवासियों की संख्या, लोगों की व्यवसायिकता, उनके वेतन, उद्योग, परिवहन और संचार के साधनों से संबंधित आँकड़ों की आवश्यकता होती है। इस प्रकार, आँकड़े भौगोलिक विश्लेषण में महत्वपूर्ण भूमिका निभाते हैं।
आँकड़ों की प्रस्तुति
आपने एक व्यक्ति की कहानी सुनी होगी जो अपनी पत्नी और पाँच वर्षीय बच्चे के साथ यात्रा कर रहा था। रास्ते में उसे एक नदी पार करनी पड़ी। सबसे पहले उसने नदी की गहराई को चार बिंदुओं पर मापा: $0.6, 0.8, 0.9$ और 1.5 मीटर। उसने औसत गहराई 0.95 मीटर निकाली। उसके बच्चे की ऊँचाई 1 मीटर थी। इसलिए वे नदी पार करने लगे और उसका बच्चा नदी में डूब गया। दूसरे किनारे पर वह सोचता रहा: “लेखा-झोखा तो ठीक था, तो बच्चा डूबा क्यों?” (जब औसत गहराई सबकी पहुँच में थी तो बच्चा डूबा क्यों?) इसे सांख्यिकीय भ्रम कहा जाता है, जो आपको वास्तविक स्थिति से भटका सकता है। इसलिए तथ्यों और आँकड़ों को जानने के लिए डेटा इकट्ठा करना महत्वपूर्ण है, लेकिन डेटा की प्रस्तुति भी उतनी ही महत्वपूर्ण है। आज लगभग सभी विषयों—भूगोल सहित—जो डेटा का उपयोग करते हैं, विश्लेषण, प्रस्तुति और निष्कर्ष निकालने में सांख्यिकीय विधियों का उपयोग महत्वपूर्ण भूमिका निभाता है। इसलिए यह निष्कर्ष निकाला जा सकता है कि किसी घटना—जैसे जनसंख्या, वन या परिवहन व संचार नेटवर्क—की सांद्रता न केवल समय और स्थान के साथ बदलती है, बल्कि डेटा का उपयोग करके इसे सुविधापूर्वक समझाया भी जा सकता है। दूसरे शब्दों में, आप कह सकते हैं कि चरों के बीच संबंधों को समझाने में गुणात्मक विवरण से मात्रात्मक विश्लेषण की ओर एक बदलाव आया है। इसलिए इन दिनों विश्लेषणात्मक उपकरण और तकनीकें अधिक महत्वपूर्ण हो गई हैं ताकि अध्ययन को अधिक तार्किक बनाया जा सके और सटीक निष्कर्ष निकाले जा सकें। डेटा इकट्ठा करने और संकलन से लेकर उसकी सारणीबद्धता, संगठन, क्रमबद्धता और विश्लेषण तथा निष्कर्ष निकालने तक सटीक मात्रात्मक तकनीकों का उपयोग शुरू से ही किया जाता है।
आंकड़ों के स्रोत
आंकड़े निम्नलिखित तरीकों से एकत्र किए जाते हैं। ये हैं: 1. प्राथमिक स्रोत, और 2. द्वितीयक स्रोत।
वे आंकड़े जो किसी व्यक्ति या व्यक्तियों के समूह, संस्था/संगठन द्वारा पहली बार एकत्र किए जाते हैं, उन्हें आंकड़ों के प्राथमिक स्रोत कहा जाता है। दूसरी ओर, किसी भी प्रकाशित या अप्रकाशित स्रोत से एकत्र किए गए आंकड़ों को द्वितीयक स्रोत कहा जाता है। चित्र 1.1 आंकड़ा संग्रह की विभिन्न विधियों को दर्शाता है।
प्राथमिक आंकड़ों के स्रोत
1. व्यक्तिगत प्रेक्षण
इससे तात्पर्य है किसी व्यक्ति या व्यक्तियों के समूह द्वारा क्षेत्र में प्रत्यक्ष प्रेक्षण के माध्यम से सूचना का संग्रह। एक क्षेत्र सर्वेक्षण के माध्यम से राहत लक्षण, जल निकासी प्रतिरूप, मिट्टी के प्रकार और प्राकृतिक वनस्पति के साथ-साथ जनसंख्या संरचना, लिंग अनुपात, साक्षरता, परिवहन और संचार के साधन, शहरी और ग्रामी बस्तियों आदि की सूचना एकत्र की जाती है। हालांकि,
चित्र 1.1; आंकड़ा संग्रह की विधियाँ
व्यक्तिगत प्रेक्षण करते समय संलग्न व्यक्ति(यों) को विषय का सैद्धांतिक ज्ञान और निष्पक्ष मूल्यांकन के लिए वैज्ञानिक दृष्टिकोण होना चाहिए।
2. साक्षात्कार
इस विधि में, शोधकर्ता संवादों और बातचीत के माध्यम से प्रतिवादी से प्रत्यक्ष सूचना प्राप्त करता है। तथापि, क्षेत्र के लोगों के साथ साक्षात्कार करते समय साक्षात्कारकर्ता को निम्नलिखित सावधानियाँ बरतनी चाहिए:
(i) उन मदों की एक सटीक सूची तैयार की जाए जिनके बारे में साक्षात्कार किए जाने वाले व्यक्तियों से सूचना एकत्रित की जानी है।
(ii) साक्षात्कार करने वाला व्यक्ति/व्यक्ति सर्वेक्षण के उद्देश्य के बारे में स्पष्ट होना चाहिए।
(iii) कोई भी संवेदनशील प्रश्न पूछने से पहले प्रतिवादी को विश्वास में लिया जाए और उसे आश्वासन दिया जाए कि गोपनीयता बनाए रखी जाएगी।
(iv) एक अनुकूल वातावरण बनाया जाए ताकि प्रतिवादी बिना किसी हिचकिचाहट के तथ्यों को स्पष्ट कर सके।
(v) प्रश्नों की भाषा सरल और विनम्र होनी चाहिए ताकि प्रतिवादी प्रेरित महसूस करें और पूछी गई सूचना देने के लिए तुरंत सहमत हों।
(vi) ऐसा कोई प्रश्न न पूछें जिससे प्रतिवादी के आत्म-सम्मान या धार्मिक भावनाओं को ठेस पहुँचे।
(vii) साक्षात्कार के अंत में, प्रतिवादी से पूछें कि वह/वह कोई अतिरिक्त सूचना दे सकता/सकती है जो उसने पहले नहीं दी है।
(viii) अपने लिए अपना बहुमूल्य समय देने के लिए उसका धन्यवाद और कृतज्ञता प्रकट करें।
3. प्रश्नावली/अनुसूची
इस विधि में, साधारण प्रश्न और उनके संभावित उत्तर एक सादे कागज़ पर लिखे जाते हैं और उत्तरदाताओं को दिए गए विकल्पों में से संभावित उत्तरों पर टिक-चिह्न लगाना होता है। कभी-कभी, एक समूह संरचित प्रश्न लिखे जाते हैं और प्रश्नावली में पर्याप्त स्थान दिया जाता है जहाँ उत्तरदाता अपनी राय लिखते हैं। सर्वेक्षण के उद्देश्यों को प्रश्नावली में स्पष्ट रूप से उल्लेखित किया जाना चाहिए। यह विधि एक बड़े क्षेत्र के सर्वेक्षण में उपयोगी है। प्रश्नावली को दूर-दराज़ स्थानों पर डाक द्वारा भी भेजा जा सकता है। इस विधि की सीमा यह है कि केवल साक्षर और शिक्षित लोगों से ही आवश्यक जानकारी प्राप्त की जा सकती है। प्रश्नावली के समान, जिसमें जाँच के विषय से संबंधित प्रश्न होते हैं, एक अनुसूची (schedule) होती है। प्रश्नावली और अनुसूची के बीच केवल एक अंतर है कि उत्तरदाता स्वयं प्रश्नावली भरता है, जबकि एक उचित रूप से प्रशिक्षित गणक स्वयं उत्तरदाताओं से पूछे गए प्रश्नों के आधार पर अनुसूची भरता है। अनुसूची की प्रश्नावली पर मुख्य बढ़त यह है कि इससे साक्षर और निरक्षर दोनों उत्तरदाताओं से जानकारी एकत्र की जा सकती है।
4. अन्य विधियाँ
मिट्टी और पानी के गुणों के बारे में आँकड़े सीधे मैदान में एकत्र किए जाते हैं, जहाँ मिट्टी किट और जल गुणवत्ता किट का उपयोग करके उनकी विशेषताओं को मापा जाता है। इसी प्रकार, क्षेत्र वैज्ञानिक फसलों और वनस्पति के स्वास्थ्य के बारे में ट्रांसड्यूसर का उपयोग करके आँकड़े एकत्र करते हैं (चित्र 1.2)।
आँकड़ों का द्वितीयक स्रोत
द्वितीयक डेटा के स्रोत प्रकाशित और अप्रकाशित अभिलेखों से मिलकर बनते हैं जिनमें सरकारी प्रकाशन, दस्तावेज़ और रिपोर्टें शामिल हैं।
प्रकाशित स्रोत
1. सरकारी प्रकाशन
भारत सरकार के विभिन्न मंत्रालयों और विभागों, राज्य सरकारों और ज़िला बुलेटिनों के प्रकाशन द्वितीयक सूचना के सबसे महत्वपूर्ण स्रोतों में से एक हैं। इनमें भारत के रजिस्ट्रार जनरल के कार्यालय द्वारा प्रकाशित भारत की जनगणना, राष्ट्रीय नमूना सर्वेक्षण की रिपोर्टें, भारतीय मौसम विज्ञान विभाग की मौसम रिपोर्टें और राज्य सरकारों द्वारा प्रकाशित सांख्यिकीय सारांश तथा विभिन्न आयोगों द्वारा प्रकाशित आवधिक रिपोर्टें शामिल हैं। कुछ सरकारी प्रकाशन चित्र 1.3 में दिखाए गए हैं।
चित्र 1.2; फील्ड वैज्ञानिक फसल के स्वास्थ्य की माप करता हुआ
चित्र 1.3; कुछ सरकारी प्रकाशन
2. अर्ध/अर्ध-सरकारी प्रकाशन
विभिन्न शहरों और कस्बों की नगर विकास प्राधिकरणों और नगर निगमों, जिला परिषदों आदि के प्रकाशन और रिपोर्टें इस श्रेणी में आते हैं।
3. अंतर्राष्ट्रीय प्रकाशन
अंतर्राष्ट्रीय प्रकाशनों में संयुक्त राष्ट्र के विभिन्न एजेंसियों—जैसे संयुक्त राष्ट्र शैक्षिक, वैज्ञानिक और सांस्कृतिक संगठन (यूनेस्को), संयुक्त राष्ट्र विकास कार्यक्रम (यूएनडीपी), विश्व स्वास्थ्य संगठन (डब्ल्यूएचओ), खाद्य और कृषि संगठन (एफएओ) आदि—द्वारा प्रकाशित वार्षिकियाँ, रिपोर्टें और ग्रंथिकाएँ शामिल हैं। संयुक्त राष्ट्र के कुछ महत्वपूर्ण आवधिक प्रकाशन हैं: जनसांख्यिकीय वार्षिकी, सांख्यिकीय वार्षिकी और मानव विकास रिपोर्ट (चित्र 1.4)।
चित्र 1.4; संयुक्त राष्ट्र के कुछ प्रकाशन
4. निजी प्रकाशन
इस श्रेणी में समाचार-पत्रों और निजी संगठनों द्वारा प्रकाशित वार्षिकियाँ, सर्वेक्षण, अनुसंधान रिपोर्टें और ग्रंथिकाएँ आती हैं।
5. समाचार-पत्र और पत्रिकाएँ
दैनिक समाचार-पत्र और साप्ताहिक, पाक्षिक तथा मासिक पत्रिकाएँ द्वितीयक आँकड़ों की सुगम स्रोत के रूप में कार्य करती हैं।
6. इलेक्ट्रॉनिक मीडिया
इलेक्ट्रॉनिक मीडिया, विशेषतः इंटरनेट, हाल के समय में द्वितीयक आँकड़ों का एक प्रमुख स्रोत बनकर उभरा है।
अप्रकाशित स्रोत
1. सरकारी दस्तावेज़
अप्रकाशित रिपोर्ट, मोनोग्राफ और दस्तावेज़ द्वितीयक डेटा के एक अन्य स्रोत हैं। ये दस्तावेज़ विभिन्न शासन स्तरों पर अप्रकाशित अभिलेख के रूप में तैयार और संरक्षित किए जाते हैं। उदाहरण के लिए, संबंधित गाँवों के पटवारी द्वारा संरक्षित ग्राम-स्तरीय राजस्व अभिलेख गाँव-स्तरीय सूचना का एक महत्वपूर्ण स्रोत होते हैं।
2. अर्ध-सरकारी अभिलेख
विभिन्न नगर निगमों, जिला परिषदों और सिविल सेवा विभागों द्वारा तैयार और संरक्षित आवधिक रिपोर्ट और विकास योजनाएँ अर्ध-सरकारी अभिलेखों में शामिल हैं।
3. निजी दस्तावेज़
इनमें कंपनियों, ट्रेड यूनियनों, विभिन्न राजनीतिक और अराजनीतिक संगठनों तथा निवासी कल्याण संघों की अप्रकाशित रिपोर्ट और अभिलेख शामिल हैं।
डेटा का वर्गीकरण और सारणीकरण
प्राथमिक या द्वितीयक स्रोतों से एकत्र किया गया डेटा प्रारंभ में सूचना का एक बड़ा ढेर प्रतीत होता है जिसमें न्यूनतम बोधगम्यता होती है। इसे कच्चा डेटा कहा जाता है। सार्थक निष्कर्ष निकालने और उसे उपयोगी बनाने के लिए कच्चे डेटा का वर्गीकरण और सारणीकरण आवश्यक होता है।
आंकड़ों को संक्षेप में प्रस्तुत करने और दिखाने के सबसे सरल उपकरणों में से एक सांख्यिकीय सारणी है। यह स्तंभों और पंक्तियों में आंकड़ों की एक व्यवस्थित व्यवस्था होती है। सारणी का उद्देश्य प्रस्तुति को सरल बनाना और तुलनाओं को सुगम बनाना है। यह सारणी पाठक को वांछित सूचना शीघ्र खोजने में सक्षम बनाती है। इस प्रकार, सारणियाँ विश्लेषक को न्यूनतम स्थान में विशाल मात्रा में आंकड़ों को एक सुव्यवस्थित ढंग से प्रस्तुत करना संभव बनाती हैं।
आंकड़ों का संकलन और प्रस्तुति
आंकड़ों को एकत्र किया जाता है, सारणीबद्ध किया जाता है और सारणी रूप में या तो निरपेक्ष पदों में, प्रतिशतों या सूचकांकों के रूप में प्रस्तुत किया जाता है।
निरपेक्ष आंकड़े
जब आंकड़ों को उनके मूल रूप में पूर्णांकों के रूप में प्रस्तुत किया जाता है, तो उन्हें निरपेक्ष आंकड़े या कच्चे आंकड़े कहा जाता है। उदाहरण के लिए, किसी देश या राज्य की कुल जनसंख्या, किसी फसल या विनिर्माण उद्योग का कुल उत्पादन आदि। सारणी 1.1 भारत और कुछ चयनित राज्यों की जनसंख्या के निरपेक्ष आंकड़े दिखाती है।
$\hspace{1cm}$ सारणी 1.1; भारत और चयनित राज्यों/केंद्र शासित प्रदेशों की जनसंख्या, 2011
| राज्य/ संघ प्रदेश कोड |
भारत/राज्य/ संघ प्रदेश |
कुल जनसंख्या | ||
|---|---|---|---|---|
| व्यक्ति | पुरुष | महिलाएं | ||
| 1 | 2 | 3 | 4 | 5 |
| भारत $^{1}$ | $1,21,05,69,573$ | $62,31,21,843$ | $58,74,47,730$ | |
| 1. | जम्मू और कश्मीर ${ }^{2}$ | $1,25,41,302$ | $66,40,662$ | $59,00,640$ |
| 2. | हिमाचल प्रदेश | $68,64,602$ | $34,81,873$ | $33,82,729$ |
| 3. | पंजाब | $2,77,43,338$ | $1,46,39,465$ | $1,31,03,873$ |
| 4. | चंडीगढ़ $^{3}$ | $10,55,450$ | $5,80,663$ | $4,74,787$ |
| 5. | उत्तराखंड | $1,00,86,292$ | $51,37,773$ | $49,48,519$ |
| 6. | हरियाणा | $2,53,51,462$ | $1,34,94,734$ | $1,18,56,728$ |
| 7. | राष्ट्रीय राजधानी दिल्ली क्षेत्र |
$1,67,87,941$ | $89,87,326$ | $78,00,615$ |
| 8. | राजस्थान | $6,85,48,437$ | $3,55,50,997$ | $3,29,97,440$ |
| 9. | उत्तर प्रदेश | $19,98,12,341$ | $10,44,80,510$ | $9,53,31,831$ |
| 10 | बिहार | $10,40,99,452$ | $5,42,78,157$ | $4,98,21,295$ |
${ }^{1}$ भारत की सभी सीमाओं सहित
${ }^{2}$ पीओके को छोड़कर
${ }^{3}$ संघ प्रदेश
स्रोत: जनगणना, 2011
प्रतिशत/अनुपात
कभी-कभी आँकड़ों को अनुपात या प्रतिशत के रूप में सारणीबद्ध किया जाता है जो किसी सामान्य मापदंड से गणना किए जाते हैं, जैसे साक्षरता दर या जनसंख्या वृद्धि दर, कृषि उत्पादों या औद्योगिक उत्पादों का प्रतिशत आदि। सारणी 1.2 दशकों में भारत की साक्षरता दर को प्रतिशत के रूप में प्रस्तुत करती है। साक्षरता दर की गणना इस प्रकार की जाती है:
$$ \frac{\text { कुल साक्षर }}{\text { कुल जनसंख्या }}\times 100 $$
**तालिका 1.2; साक्षरता दर: 1951 – 2011 **
| वर्ष | व्यक्ति | पुरुष | महिला |
|---|---|---|---|
| 1951 | 18.33 | 27.16 | 8.86 |
| 1961 | 28.3 | 40.4 | 15.35 |
| 1971 | 34.45 | 45.96 | 21.97 |
| 1981 | 43.57 | 56.38 | 29.76 |
| 1991 | 52.21 | 64.13 | 39.29 |
| 2001 | 64.84 | 75.85 | 54.16 |
| 2011 | 73.0 | 80.9 | 64.6 |
स्रोत: जनगणना, 2011
सूचकांक संख्या
सूचकांक संख्या एक सांख्यिकीय माप है जिसे किसी चर या संबंधित चरों के समूह में समय, भौगोलिक स्थान या अन्य विशेषताओं के सापेक्ष परिवर्तन दिखाने के लिए डिज़ाइन किया गया है। यह ध्यान देना चाहिए कि सूचकांक संख्या न केवल समय के साथ परिवर्तन को मापती है बल्कि विभिन्न स्थानों, उद्योगों, शहरों या देशों की आर्थिक स्थितियों की तुलना भी करती है। सूचकांक संख्या का व्यापक रूप से अर्थशास्त्र और व्यवसाय में मूल्य और मात्रा में परिवर्तन देखने के लिए उपयोग किया जाता है। सूचकांक संख्या की गणना के लिए विभिन्न विधियाँ हैं। हालाँकि, सरलीकृत समुच्चय विधि सबसे अधिक प्रयोग में आती है। इसे निम्न सूत्र का उपयोग करके प्राप्त किया जाता है:
$$ \frac{\sum q_{1}}{\sum q_{0}}\times 100 $$
$\sum q_{1}=$ वर्तमान वर्ष के उत्पादन का योग
$\sum q_{0}=$ आधार वर्ष के उत्पादन का योग
आमतौर पर, आधार वर्ष के मान 100 लिए जाते हैं और उसके आधार पर सूचकांक संख्या की गणना की जाती है। उदाहरण के लिए, तालिका 1.3 भारत में लौह अयस्क के उत्पादन और 1970-71 को आधार वर्ष मानकर 1970-71 से 2000-01 तक सूचकांक संख्या में परिवर्तन दिखाती है।
$\hspace{1.5cm}$ तालिका 1.3; भारत में लौह अयस्क का उत्पादन
| उत्पादन (मिलियन टन में) |
गणना | सूचकांक संख्या | |
|---|---|---|---|
| $1970-71$ | 32.5 | $\frac{32.5}{32.5}\times 100$ | 100 |
| $1980-81$ | 42.2 | $\frac{42.2}{32.5}\times 100$ | 130 |
| $1990-91$ | 53.7 | $\frac{53.7}{32.5}\times 100$ | 165 |
| $2000-01$ | 67.4 | $\frac{67.4}{32.5}\times 100$ | 207 |
स्रोत - भारत; आर्थिक वर्ष पुस्तिका, 2005
डेटा का प्रसंस्करण
कच्चे डेटा के प्रसंस्करण के लिए उन्हें चयनित वर्गों में सारणीबद्ध और वर्गीकृत करना आवश्यक होता है। उदाहरण के लिए, तालिका 1.4 में दिए गए डेटा का उपयोग यह समझने के लिए किया जा सकता है कि वे कैसे प्रसंस्कृत किए जाते हैं।
हम देख सकते हैं कि दिया गया डेटा अग्रुपित है। इसलिए, पहला कदम डेटा को समूहित करना है ताकि इसकी मात्रा को कम किया जा सके और इसे समझने में आसानी हो।
तालिका 1.4; भूगोल प्रश्नपत्र में 60 विद्यार्थियों के अंक
| 47 | 02 | 39 | 64 | 22 | 46 | 28 | 02 | 09 | 10 |
|---|---|---|---|---|---|---|---|---|---|
| 89 | 96 | 74 | 06 | 26 | 15 | 92 | 84 | 84 | 90 |
| 32 | 22 | 53 | 62 | 73 | 57 | 37 | 44 | 67 | 50 |
| 18 | 51 | 36 | 58 | 28 | 65 | 63 | 59 | 75 | 70 |
| 56 | 58 | 43 | 74 | 64 | 12 | 35 | 42 | 68 | 80 |
| 64 | 37 | 17 | 31 | 41 | 71 | 56 | 83 | 59 | 90 |
डेटा का समूहबद्धन
कच्चे डेटा को समूहबद्ध करने के लिए यह निर्धारित करना होता है कि कितने वर्गों में उसे बाँटा जाएगा और प्रत्येक वर्ग की अंतराल (class interval) क्या होगी। वर्ग अंतराल और वर्गों की संख्या का चयन कच्चे डेटा के परास (range) पर निर्भर करता है। तालिका 1.4 में दिया गया कच्चा डेटा 02 से 96 तक फैला है। इसलिए हम सुविधाजनक रूप से दस वर्गों में डेटा को बाँट सकते हैं, प्रत्येक वर्ग की चौड़ाई दस इकाई रखते हुए, जैसे 0-10, 10-20, 20-30, आदि (तालिका 1.5)।
तालिका 1.5; आवृत्ति प्राप्त करने के लिए टैली चिह्न बनाना
| समूह | कच्चे डेटा के संख्यात्मक मान | टैली चिह्न | व्यक्तियों की संख्या |
|---|---|---|---|
| $0-10$ | $02,02,09,06$ | //// | 4 |
| $10-20$ | $10,15,18,12,17$ | $7 x+1$ | 5 |
| $20-30$ | $22,28,26,22,28$ | $74 x$ | 5 |
| $30-40$ | $39,32,37,36,35,37,31$ | $7 +4 +11$ | 7 |
| $40-50$ | $47,46,44,43,42,41$ | $7 +x+1$ | 6 |
| $50-60$ | $53,57,50,51,58$ $59,56,58,56,59$ |
$74 x+111$ | 10 |
| $60-70$ | 64,62,67,65, $63,64,68,64$ |
$7 +x+7 x+$ | 8 |
| $70-80$ | $74,73,75,70,74,71$ | $7 +x+11$ | 6 |
| $80-90$ | $89,84,84,80,83$ | $74 \times 1$ | 5 |
| $90-100$ | $96,92,90,90$ | $7 x+1$ | 4 |
| $\sum f=N=60$ |
वर्गीकरण की प्रक्रिया
एक बार वर्गों की संख्या और प्रत्येक वर्ग का अंतराल निर्धारित हो जाने पर, कच्चे डेटा को तालिका 1.5 के अनुसार वर्गीकृत किया जाता है। यह कार्य “फोर एंड क्रॉस विधि” या टैली चिह्न विधि द्वारा किया जाता है।
सबसे पहले, प्रत्येक व्यक्ति को उस समूह में एक टैली चिह्न दिया जाता है जिसमें वह आता है। उदाहरण के लिए, कच्चे आंकड़ों का पहला संख्यात्मक मान 47 है। चूँकि यह 40-50 के समूह में आता है, टेबल 1.5 के कॉलम 3 में एक टैली चिह्न दर्ज किया जाता है।
आवृत्ति बंटन
टेबल 1.5 में हमने एक मात्रात्मक चर के कच्चे आंकड़ों को वर्गीकृत किया है और उन्हें वर्गवार समूहित किया है। व्यक्तियों की संख्या (टेबल 1.5 के चौथे कॉलम में स्थान) को आवृत्ति कहा जाता है और यह कॉलम आवृत्ति बंटन को दर्शाता है। यह दिखाता है कि चर के विभिन्न मान विभिन्न वर्गों में कैसे बँटे हैं। आवृत्तियों को सरल और संचयी आवृत्तियों में वर्गीकृत किया जाता है।
सरल आवृत्तियाँ
इसे ‘$\boldsymbol{f}$’ द्वारा व्यक्त किया जाता है और यह प्रत्येक समूह में आने वाले व्यक्तियों की संख्या को दर्शाता है (टेबल 1.6)। सभी वर्गों को दी गई सभी आवृत्तियों का योग, दी गई श्रृंखला में व्यक्तिगत प्रेक्षणों की कुल संख्या को दर्शाता है। सांख्यिकी में इसे प्रतीक $\mathrm{N}$ द्वारा व्यक्त किया जाता है जो $\sum f$ के बराबर होता है। इसे $\sum f=N=60$ के रूप में व्यक्त किया जाता है (टेबल 1.5 और 1.6)।
टेबल 1.6; आवृत्ति बंटन
| समूह | $f$ | cf |
|---|---|---|
| $00-10$ | 4 | 4 |
| $10-20$ | 5 | 9 |
| $20-30$ | 5 | 14 |
| $30-40$ | 7 | 21 |
| $40-50$ | 6 | 27 |
| $50-60$ | 10 | 37 |
| $60-70$ | 8 | 45 |
| $70-80$ | 6 | 51 |
| $80-90$ | 5 | 56 |
| $90-100$ | 4 | 60 |
| $\sum f=N=60$ |
संचयी आवृत्तियाँ
इसे ‘$\boldsymbol{C}\boldsymbol{f}$’ द्वारा व्यक्त किया जाता है और इसे प्रत्येक समूह में क्रमागत सरल बारंबारताओं को पिछले योग में जोड़कर प्राप्त किया जा सकता है, जैसा कि तालिका 1.6 के स्तंभ 3 में दिखाया गया है। उदाहरण के लिए, तालिका 1.6 में पहली सरल बारंबारता 4 है। अगली बारंबारता 5 को 4 में जोड़ा जाता है जो अगली संचयी बारंबारता के रूप में कुल 9 देता है। इसी प्रकार, अंतिम संचयी बारंबारता 60 प्राप्त होने तक हर अगली संख्या को जोड़ते रहें। ध्यान दें कि यह $\mathrm{N}$ या $\sum f$ के बराबर है।
संचयी बारंबारता का लाभ यह है कि कोई आसानी से समझ सकता है कि 50 से कम अंक प्राप्त करने वाले 27 व्यक्ति हैं या 60 में से 45 व्यक्ति 70 के अंक से नीचे हैं।
प्रत्येक सरल बारंबारता अपने समूह या वर्ग से संबद्ध होती है। समूहों या वर्गों को बनाने के लिए विशिष्ट या अविशिष्ट विधियों का उपयोग किया जाता है।
विशिष्ट विधि
जैसा कि तालिका 1.6 में दिखाया गया है, इसके पहले स्तंभ में दो संख्याएँ दिखाई गई हैं। ध्यान दें कि एक समूह की ऊपरी सीमा अगले समूह की निचली सीमा के समान है। उदाहरण के लिए, एक समूह $(20-30)$ की ऊपरी सीमा 30 है, जो अगले समूह ( $30-40$ ) की निचली सीमा है, जिससे 30 दोनों समूहों में दिखाई देता है। लेकिन कोई भी प्रेक्षण जिसका मान 30 है, उसे उस समूह में शामिल किया जाता है जहाँ यह अपनी निचली सीमा पर है और उस समूह से बाहर रखा जाता है जहाँ यह ऊपरी सीमा है (जैसे 20-30 समूहों में)। यही कारण है कि इस विधि को विशिष्ट विधि कहा जाता है, अर्थात् एक समूह अपनी ऊपरी सीमाओं से बाहर रखा जाता है। अब आप समझ सकते हैं कि तालिका 1.4 के सभी सीमांत मान कहाँ जाएँगे।
तालिका 1.6 में समूहों की व्याख्या निम्न प्रकार से की जाती है-
0 और 10 से कम $\hspace{1cm}$ 10 और 20 से कम
20 और 30 से कम $\hspace{1cm}$ 30 और 40 से कम
40 और 50 से कम $\hspace{1cm}$ 50 और 60 से कम
60 और 70 से कम $\hspace{1cm}$ 70 और 80 से कम
80 और 90 से कम $\hspace{1cm}$ 90 और 100 से कम
इस प्रकार के समूहन में वर्ग दस इकाइयों तक फैला होता है। उदाहरण के लिए, $20,21,22,23,24,25,26,27,28$ और 29 तीसरे समूह में सम्मिलित हैं।
समावेशी विधि
इस विधि में, किसी समूह की ऊपरी सीमा के बराबर मान उसी समूह में सम्मिलित किया जाता है। इसलिए इसे समावेशी विधि कहा जाता है। इस विधि में वर्गों को भिन्न रूप में दर्शाया जाता है, जैसा कि तालिका 1.7 के पहले स्तंभ में दिखाया गया है। सामान्यतः किसी समूह की ऊपरी सीमा अगले समूह की निचली सीमा से 1 अधिक होती है। यह ध्यान रखना महत्वपूर्ण है कि इस विधि में भी प्रत्येक समूह दस इकाइयों तक फैला होता है। उदाहरण के लिए, 50-59 का समूह दस मानों को सम्मिलित करता है अर्थात् $50,51,52,53,54$, 55, 56, 57, 58 और 59 (तालिका 1.7)। इस विधि में आवृत्ति बंटन ज्ञात करने के लिए ऊपरी और निचली दोनों सीमाओं को सम्मिलित किया जाता है।
तालिका 1.7; आवृत्ति बंटन
| समूह | $f$ | cf |
|---|---|---|
| $0-9$ | 4 | 4 |
| $10-19$ | 5 | 9 |
| $20-29$ | 5 | 14 |
| $30-39$ | 7 | 21 |
| $40-49$ | 6 | 27 |
| $50-59$ | 10 | 37 |
| $60-69$ | 8 | 45 |
| $70-79$ | 6 | 51 |
| $80-89$ | 5 | 56 |
| $90-99$ | 4 | 60 |
| $\sum f=N=60$ |
आवृत्ति बहुभुज
आवृत्ति बंटन का ग्राफ आवृत्ति बहुभुज कहलाता है। यह दो या दो से अधिक आवृत्ति बंटनों की तुलना करने में सहायक होता है (चित्र 1.5)। दो आवृत्तियों को क्रमशः स्तंभ आरेख और रेखा ग्राफ द्वारा दर्शाया जाता है।
ओजाइव
जब आवृत्तियों को जोड़ा जाता है तो उन्हें संचयी आवृत्तियाँ कहा जाता है और इन्हें संचयी आवृत्ति सारणी नामक सारणी में सूचीबद्ध किया जाता है। संचयी आवृत्तियों को आलेखित करने पर प्राप्त वक्र को ओजाइव (ojive के समान उच्चारण) कहा जाता है। इसे या तो ‘कम से कम विधि’ या ‘अधिक से अधिक विधि’ द्वारा बनाया जाता है।
कम से कम विधि में हम वर्गों की ऊपरी सीमा से प्रारंभ करते हैं और आवृत्तियों को जोड़ते जाते हैं। जब इन आवृत्तियों को आलेखित किया जाता है, तो हमें एक उठता हुआ वक्र प्राप्त होता है जैसा कि सारणी 1.8 और चित्र 1.6 में दिखाया गया है।
अधिक से अधिक विधि में हम वर्गों की निचली सीमा से प्रारंभ करते हैं और संचयी आवृत्ति से प्रत्येक वर्ग की आवृत्ति घटाते हैं। जब इन आवृत्तियों को आलेखित किया जाता है, तो हमें एक गिरता हुआ वक्र प्राप्त होता है जैसा कि सारणी 1.9 और चित्र 1.7 में दिखाया गया है।
चित्र 1.5; आवृत्ति बंटन बहुभुज
चित्र 1.5 और 1.6 दोनों को मिलाकर कम से कम और अधिक से अधिक ओजाइव की तुलनात्मक तस्वीर प्राप्त की जा सकती है जैसा कि सारणी 1.10 और चित्र 1.7 में दिखाया गया है।
सारणी 1.8; आवृत्ति बंटन - कम से कम विधि
| से कम विधि | cf |
|---|---|
| 10 से कम | 4 |
| 20 से कम | 9 |
| 30 से कम | 14 |
| 40 से कम | 21 |
| 50 से कम | 27 |
| 60 से कम | 37 |
| 70 से कम | 45 |
| 80 से कम | 51 |
| 90 से कम | 56 |
| 100 से कम | 60 |
चित्र 1.6; से कम ओजाइव
तालिका 1.9; बारंबारता बंटन अधिक विधि
| अधिक विधि | cf |
|---|---|
| 0 से अधिक | 60 |
| 10 से अधिक | 56 |
| 20 से अधिक | 51 |
| 30 से अधिक | 44 |
| 40 से अधिक | 38 |
| 50 से अधिक | 28 |
| 60 से अधिक | 20 |
| 70 से अधिक | 14 |
| 80 से अधिक | 9 |
| 90 से अधिक | 4 |
तालिका 1.10; से कम और अधिक ओजाइव
| अंक प्राप्त किए |
से कम |
अधिक से |
|---|---|---|
| $0-10$ | 4 | 60 |
| $10-20$ | 9 | 56 |
| $20-30$ | 14 | 51 |
| $30-40$ | 21 | 44 |
| $30-40$ | 27 | 38 |
| $50-60$ | 37 | 28 |
| $60-70$ | 45 | 20 |
| $70-80$ | 51 | 14 |
| $80-90$ | 56 | 9 |
| $90-100$ | 60 | 4 |
चित्र 1.7; अधिक ओजाइव
आकृति 1.8; ‘से कम’ और ‘से अधिक’ ओजाइव
अभ्यास
1. चार विकल्पों में से सही उत्तर चुनिए:
(i) एक संख्या या वर्ण जो मापन को दर्शाता है, उसे कहा जाता है
(a) अंक
(b) आँकड़ा
(c) संख्या
(d) वर्ण
(ii) एक एकल आँकड़ा एकल मापन होता है
(a) सारणी का
(b) बारंबारता का
(c) वास्तविक दुनिया का
(d) सूचना का
(iii) टैली चिह्न में चार के समूह और पाँचवें को पार करने को कहा जाता है
(a) फोर एंड क्रॉस विधि
(b) टैली चिह्नन विधि
(c) बारंबारता आलेखन विधि
(d) समावेशी विधि
(iv) ओजाइव एक विधि है जिसमें
(a) सरल बारंबारता मापी जाती है
(b) संचयी बारंबारता मापी जाती है
(c) सरल बारंबारता आलेखित की जाती है
(d) संचयी बारंबारता आलेखित की जाती है
(v) यदि बारंबारता समूहन में समूह के दोनों सिरों को लिया जाता है, तो उसे कहा जाता है
(a) विशिष्ट विधि
(b) समावेशी विधि
(c) चिह्नन विधि
(d) सांख्यिकीय विधि
2. निम्नलिखित प्रश्नों के उत्तर लगभग 30 शब्दों में दीजिए:
(i) आँकड़े और सूचना में अंतर बताइए।
(ii) आप आँकड़ा प्रसंस्करण से क्या समझते हैं?
(iii) सारणी में फुटनोट का क्या लाभ है?
(iv) आप आँकड़ों के प्राथमिक स्रोत से क्या समझते हैं?
(v) द्वितीयक आँकड़ों के पाँच स्रोत गिनाइए।
3. निम्नलिखित प्रश्नों के उत्तर लगभग 125 शब्दों में दीजिए:
(i) राष्ट्रीय और अंतरराष्ट्रीय एजेंसियों की चर्चा कीजिए जहाँ से द्वितीयक आँकड़े एकत्र किए जा सकते हैं।
(ii) सूचकांक संख्या का क्या महत्व है? एक उदाहरण लेकर सूचकांक संख्या की गणना की प्रक्रिया की जाँच कीजिए और परिवर्तनों को दिखाइए।
गतिविधि
1. भूगोल की 35 विद्यार्थियों की एक कक्षा में इकाई परीक्षा में 10 अंकों में से निम्नलिखित अंक प्राप्त हुए हैं –
1,0,2,3,4,5,6,7,2,3,4,0,2,5,8,4,5,3,6,3,2,7,6,5,4,3,7,8,9,7,9,4,5,4,3
इस आँकड़े को समूहित बारंबारता बंटन के रूप में प्रस्तुत कीजिए।
2. अपनी कक्षा की भूगोल की अंतिम परीक्षा का परिणाम एकत्र कीजिए और अंकों को समूहित बारंबारता बंटन के रूप में प्रस्तुत कीजिए।