आँकड़ों में, एक बाहरी या "बाहरी" एक ऐसा डेटा होता है जो किसी नमूने या डेटा के सेट के भीतर किसी भी अन्य डेटा से बहुत दूर होता है (डेटा के सेट को डेटा कहा जाता है)। अक्सर, एक डेटम सेट में एक आउटलेयर एक असामान्यता या लिए गए माप में प्रयोगात्मक त्रुटि के सांख्यिकीविद् के लिए एक चेतावनी के रूप में काम कर सकता है, जो सांख्यिकीविद् को डेटम सेट से बाहरी को हटाने के लिए प्रेरित कर सकता है। यदि सांख्यिकीविद आउटलेयर को डेटम सेट से हटा देता है, तो अध्ययन से निकाले गए निष्कर्ष बहुत भिन्न हो सकते हैं। इसलिए, सांख्यिकीय डेटा सेट की सही समझ सुनिश्चित करने के लिए आउटलेर्स की गणना और विश्लेषण करना जानना बहुत महत्वपूर्ण है।
कदम
चरण १. संभावित बाहरी डेटा की पहचान करना सीखें।
इससे पहले कि हम यह तय करें कि डेटम सेट से बाहरी डेटा को हटाया जाए या नहीं, निश्चित रूप से हमें यह पहचानना होगा कि कौन से डेटा आउटलेयर बनने की क्षमता रखते हैं। सामान्य तौर पर, एक आउटलेयर एक डेटम होता है जो एक डेटम सेट में अन्य डेटम से बहुत दूर होता है - दूसरे शब्दों में, एक आउटलेयर दूसरे डेटम का "बाहरी" होता है। डेटा तालिका या (विशेष रूप से) ग्राफ़ में आउटलेर्स का पता लगाना आमतौर पर आसान होता है। यदि डेटा के एक सेट को ग्राफ़ के साथ नेत्रहीन रूप से वर्णित किया जाता है, तो बाहरी डेटा अन्य डेटा से "बहुत दूर" दिखाई देगा। यदि, उदाहरण के लिए, किसी डेटम सेट में अधिकांश डेटा एक सीधी रेखा बनाते हैं, तो बाहरी डेटा को उचित रूप से उस रेखा को बनाने के रूप में व्याख्या नहीं किया जाएगा।
आइए एक कमरे में 12 विभिन्न वस्तुओं के तापमान का प्रतिनिधित्व करने वाले डेटाम के एक सेट को देखें। यदि 11 वस्तुओं का तापमान लगभग 70 फ़ारेनहाइट (21 डिग्री सेल्सियस) है, लेकिन 12वीं वस्तु, ओवन का तापमान 300 फ़ारेनहाइट (150 डिग्री सेल्सियस) है, तो यह तुरंत देखा जा सकता है कि ओवन का तापमान बहुत अधिक होने की संभावना है एक बाहरी।
चरण 2. डेटा को निम्नतम से उच्चतम तक डेटा के सेट में व्यवस्थित करें।
डेटम सेट में आउटलेर्स की गणना करने के लिए पहला कदम उस डेटम सेट के माध्यिका (मध्य मान) को खोजना है। यह कार्य बहुत सरल हो जाता है यदि डेटा के सेट में डेटा को सबसे छोटे से सबसे बड़े तक व्यवस्थित किया जाता है। इसलिए, जारी रखने से पहले, डेटा को ऐसे ही एक डेटा सेट में व्यवस्थित करें।
आइए ऊपर दिए गए उदाहरण को जारी रखें। यह एक कमरे में कई वस्तुओं के तापमान का प्रतिनिधित्व करने वाले डेटा का हमारा सेट है: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। यदि हम डेटा को निम्नतम से उच्चतम तक व्यवस्थित करते हैं, तो डेटा का क्रम बन जाता है: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}।
चरण 3. डेटा सेट के माध्यिका की गणना करें।
डेटम सेट का माध्यिका एक डेटम होता है जहां डेटम का दूसरा आधा हिस्सा उस डेटम के ऊपर होता है और शेष आधा उसके नीचे होता है- मूल रूप से, वह डेटम वह डेटम होता है जो डेटम सेट के "मध्य" में होता है। यदि किसी डेटम सेट में डेटा की संख्या विषम है, तो इसे खोजना बहुत आसान है-माध्यिका वह डेटाम है जिसके ऊपर और नीचे समान संख्या होती है। हालाँकि, यदि डेटम के सेट में डेटम की संख्या सम है, तो, क्योंकि कोई भी डेटम बीच में फिट नहीं होता है, बीच में 2 डेटा को माध्यिका खोजने के लिए औसत किया जाता है। यह ध्यान दिया जाना चाहिए कि, आउटलेर्स की गणना करते समय, माध्यिका को आमतौर पर चर Q2-ni सौंपा जाता है क्योंकि Q2 Q1 और Q3 के बीच होता है, निचला और ऊपरी चतुर्थक, जिसके बारे में हम बाद में चर्चा करेंगे।
- डेटा सेट के साथ भ्रमित होने की नहीं, जहां डेटम की संख्या सम है-२ मध्य डेटा का औसत अक्सर एक नंबर लौटाएगा जो डेटा सेट में ही नहीं है-यह ठीक है। हालाँकि, यदि 2 मध्य डेटा समान संख्या हैं, तो निश्चित रूप से, औसत भी वही संख्या होगी, जो ठीक भी है।
- ऊपर के उदाहरण में, हमारे पास 12 डेटम हैं। 2 मध्य डेटा क्रमशः 6 वें और 7 वें डेटाम -70 और 71 हैं। इसलिए, हमारे डेटा के सेट का औसत इन 2 संख्याओं का औसत है: ((70 + 71)/2), = 70.5.
चरण 4. निम्न चतुर्थक की गणना करें।
यह मान, जिसे हम वेरिएबल Q1 देते हैं, वह डेटम है जो डेटम के 25 प्रतिशत (या एक चौथाई) का प्रतिनिधित्व करता है। दूसरे शब्दों में, यह डेटम है जो माध्यिका से नीचे के डेटा को द्विभाजित करता है। यदि माध्यिका के नीचे के डेटा की संख्या सम है, तो आपको Q1 को खोजने के लिए फिर से बीच में 2 डेटा का औसत निकालना होगा, जैसे कि आप स्वयं माध्यिका को खोजना चाहते हैं।
हमारे उदाहरण में, 6 डेटम हैं जो माध्यिका से ऊपर हैं, और 6 डेटम हैं जो माध्यिका के नीचे हैं। इसका मतलब यह है कि, निम्न चतुर्थक को खोजने के लिए, हमें माध्यिका से नीचे 6 डेटा के मध्य में 2 डेटाम औसत करने की आवश्यकता होगी। माध्यिका से नीचे के 6 आंकड़ों के तीसरे और चौथे आंकड़े दोनों 70 हैं। तो, औसत ((70 + 70)/2) है, = 70. 70 हमारा Q1 बन जाता है।
चरण 5. ऊपरी चतुर्थक की गणना करें।
यह मान, जिसे हम वेरिएबल Q3 देते हैं, वह डेटम है जिस पर डेटम सेट में 25 प्रतिशत डेटम होते हैं। Q3 का पता लगाना Q1 को खोजने के समान ही है, सिवाय इसके कि, इस मामले में, हम माध्यिका के ऊपर के डेटा को देख रहे हैं, न कि माध्यिका के नीचे।
ऊपर हमारे उदाहरण को जारी रखते हुए, माध्यिका के ऊपर 6 डेटा के मध्य में 2 डेटाम 71 और 72 हैं। इन 2 डेटा का औसत ((71 + 72)/2) है, = 71, 5. 71, 5 हमारा Q3 है।
चरण 6. अंतरचतुर्थक दूरी ज्ञात कीजिए।
अब जब हमें Q1 और Q3 मिल गए हैं, तो हमें इन दो चरों के बीच की दूरी की गणना करने की आवश्यकता है। Q1 से Q3 तक की दूरी Q1 को Q3 से घटाकर ज्ञात की जाती है। इंटरक्वेर्टाइल दूरियों के लिए आपको मिलने वाले मान आपके डेटा सेट में गैर-बाहरी डेटा की सीमाओं को परिभाषित करने के लिए बहुत महत्वपूर्ण हैं।
- हमारे उदाहरण में, Q1 और Q3 के हमारे मान 70 और 71, 5 हैं। इंटरक्वेर्टाइल दूरी ज्ञात करने के लिए, हम Q3 - Q1 = 71.5 - 70 = घटाते हैं। 1, 5.
- यह ध्यान दिया जाना चाहिए कि यह भी सच है, भले ही Q1, Q3, या दोनों ऋणात्मक संख्याएं हों। उदाहरण के लिए, यदि हमारा Q1 मान -70 था, तो हमारी सही अंतर-चतुर्थक दूरी 71.5 - (-70) = 141, 5 होगी।
चरण 7. डेटम सेट में "आंतरिक बाड़" खोजें।
आउटलेयर यह जाँच कर पाया जाता है कि क्या डेटम "आंतरिक बाड़" और "बाहरी बाड़" नामक संख्या सीमाओं के भीतर आता है। डेटम सेट की आंतरिक बाड़ के बाहर गिरने वाले डेटा को "मामूली बाहरी" के रूप में जाना जाता है, जबकि बाहरी बाड़ के बाहर गिरने वाले डेटा को "प्रमुख बाहरी" कहा जाता है। अपने डेटा सेट में आंतरिक बाड़ को खोजने के लिए, पहले इंटरक्वेर्टाइल दूरी को 1, 5 से गुणा करें। फिर, परिणाम को Q3 से जोड़ें और इसे Q1 से घटाएं। आपको जो दो मान मिलते हैं, वे आपके डेटम सेट की आंतरिक बाड़ की सीमाएँ हैं।
-
हमारे उदाहरण में, इंटरक्वेर्टाइल दूरी (71.5 - 70), या 1.5 है। 1.5 को 1.5 से गुणा करें जिसके परिणामस्वरूप 2.25 होता है। हम इस संख्या को Q3 में जोड़ते हैं और हम आंतरिक बाड़ की सीमाओं को खोजने के लिए Q1 को इस संख्या से घटाते हैं:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- तो, हमारे आंतरिक बाड़ की सीमाएं हैं 67, 75 और 73, 75.
-
हमारे डेटा के सेट में, केवल ओवन तापमान, 300 फ़ारेनहाइट - इन सीमाओं से बाहर है और इसलिए यह डेटा एक मामूली बाहरी है। हालाँकि, हमने अभी भी गणना नहीं की है कि क्या यह तापमान एक प्रमुख बाहरी है, इसलिए जब तक हम अपनी गणना नहीं कर लेते, तब तक किसी निष्कर्ष पर न पहुँचें।
चरण 8. डेटम सेट में "बाहरी बाड़" खोजें।
यह उसी तरह से किया जाता है जैसे आंतरिक बाड़ को खोजने के लिए, सिवाय इसके कि इंटरक्वेर्टाइल दूरी को 1.5 के बजाय 3 से गुणा किया जाता है। फिर परिणाम को Q3 में जोड़ा जाता है और बाहरी बाड़ की ऊपरी और निचली सीमा को खोजने के लिए Q1 से घटाया जाता है।
-
हमारे उदाहरण में, अंतःचतुर्थक दूरी को 3 से गुणा करने पर (1, 5 x 3), या 4, 5 प्राप्त होता है। हम बाहरी बाड़ की सीमाओं को पहले की तरह ही पाते हैं:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- बाहरी बाड़ की सीमाएं हैं 65.5 और 76.
-
बाहरी बाड़ की सीमा के बाहर स्थित डेटा को प्रमुख आउटलेयर के रूप में जाना जाता है। इस उदाहरण में, ओवन का तापमान, 300 फ़ारेनहाइट, बाहरी बाड़ के बाहर स्पष्ट रूप से है, इसलिए यह डेटा "निश्चित रूप से" एक प्रमुख बाहरी है।
चरण 9. यह निर्धारित करने के लिए गुणात्मक निर्णय का उपयोग करें कि बाहरी डेटा को "त्याग" करना है या नहीं।
ऊपर वर्णित विधि का उपयोग करके, यह निर्धारित किया जा सकता है कि कोई डेटा एक मामूली डेटाम है, एक प्रमुख डेटाम है, या बिल्कुल बाहरी नहीं है। हालांकि, कोई गलती न करें- किसी डेटा को बाहरी के रूप में ढूंढना केवल उस डेटा को "उम्मीदवार" के रूप में चिह्नित करता है जिसे डेटा सेट से हटाया जाना चाहिए, न कि उस डेटा के रूप में जिसे "छोड़ दिया जाना चाहिए"। "कारण" जिसके कारण एक बाहरी डेटा एक डेटम सेट में अन्य डेटा से विचलित हो जाता है, यह निर्धारित करने में बहुत महत्वपूर्ण है कि इसे त्यागना है या नहीं। सामान्य तौर पर, उदाहरण के लिए, माप, रिकॉर्डिंग, या प्रयोगात्मक योजना में त्रुटि के कारण एक बाहरी को त्याग दिया जा सकता है। दूसरी ओर, आउटलेयर जो त्रुटि के कारण नहीं होते हैं और जो नई जानकारी या प्रवृत्तियों को इंगित करते हैं जिनकी पहले भविष्यवाणी नहीं की गई थी, उन्हें आमतौर पर "नहीं" छोड़ दिया जाता है।
- विचार करने के लिए एक और मानदंड यह है कि क्या आउटलेयर का डेटा सेट के माध्य पर बड़ा प्रभाव पड़ता है, यानी क्या बाहरी इसे भ्रमित करता है या इसे गलत दिखाता है। यह विचार करना बहुत महत्वपूर्ण है कि क्या आप अपने डेटा सेट के औसत से निष्कर्ष निकालना चाहते हैं।
-
आइए हमारे उदाहरण का अध्ययन करें। इस उदाहरण में, चूंकि यह "अत्यधिक" असंभव लगता है कि अप्रत्याशित प्राकृतिक ताकतों के माध्यम से ओवन 300 फ़ारेनहाइट तक पहुंच गया, हम लगभग निश्चितता के साथ निष्कर्ष निकाल सकते हैं कि ओवन गलती से छोड़ दिया गया था, जिसके परिणामस्वरूप उच्च तापमान की डेटम असामान्यता थी। साथ ही, यदि हम आउटलेर्स को नहीं हटाते हैं, तो हमारा डेटा सेट माध्य (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 फ़ारेनहाइट (32 डिग्री सेल्सियस) है।), जबकि अगर हम आउटलेर्स को हटाते हैं तो औसत (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 फ़ारेनहाइट (21 डिग्री सेल्सियस) है।
चूंकि ये आउटलेयर मानवीय त्रुटि के कारण हुए थे और क्योंकि यह कहना गलत होगा कि औसत कमरे का तापमान लगभग 90 फ़ारेनहाइट (32 डिग्री सेल्सियस) तक पहुँच जाता है, हम अपने आउटलेर्स को "फेंकने" के लिए चुनना बेहतर समझते हैं।
चरण 10. आउटलेर्स को बनाए रखने के महत्व (कभी-कभी) को जानें।
हालांकि कुछ आउटलेर्स को डेटम सेट से हटा दिया जाना चाहिए क्योंकि वे त्रुटियां पैदा करते हैं और/या परिणाम गलत या गलत बनाते हैं, कुछ आउटलेर्स को बनाए रखा जाना चाहिए। यदि, उदाहरण के लिए, एक बाहरी को स्वाभाविक रूप से प्राप्त किया गया प्रतीत होता है (अर्थात, किसी त्रुटि का परिणाम नहीं) और/या अध्ययन के तहत घटना पर एक नया दृष्टिकोण प्रदान करता है, तो आउटलेयर को डेटम सेट से नहीं हटाया जाना चाहिए। जब आउटलेयर की बात आती है तो वैज्ञानिक अनुसंधान आमतौर पर एक बहुत ही संवेदनशील स्थिति होती है - गलत तरीके से आउटलेर्स को हटाने का मतलब उस जानकारी को छोड़ना हो सकता है जो एक नई प्रवृत्ति या खोज को इंगित करती है।