आउटलेर्स का पता कैसे लगाएं: 10 कदम (चित्रों के साथ)

विषयसूची:

आउटलेर्स का पता कैसे लगाएं: 10 कदम (चित्रों के साथ)
आउटलेर्स का पता कैसे लगाएं: 10 कदम (चित्रों के साथ)

वीडियो: आउटलेर्स का पता कैसे लगाएं: 10 कदम (चित्रों के साथ)

वीडियो: आउटलेर्स का पता कैसे लगाएं: 10 कदम (चित्रों के साथ)
वीडियो: जूतों में फीता डालने का शानदार तरीका गजब 2024, दिसंबर
Anonim

आँकड़ों में, एक बाहरी या "बाहरी" एक ऐसा डेटा होता है जो किसी नमूने या डेटा के सेट के भीतर किसी भी अन्य डेटा से बहुत दूर होता है (डेटा के सेट को डेटा कहा जाता है)। अक्सर, एक डेटम सेट में एक आउटलेयर एक असामान्यता या लिए गए माप में प्रयोगात्मक त्रुटि के सांख्यिकीविद् के लिए एक चेतावनी के रूप में काम कर सकता है, जो सांख्यिकीविद् को डेटम सेट से बाहरी को हटाने के लिए प्रेरित कर सकता है। यदि सांख्यिकीविद आउटलेयर को डेटम सेट से हटा देता है, तो अध्ययन से निकाले गए निष्कर्ष बहुत भिन्न हो सकते हैं। इसलिए, सांख्यिकीय डेटा सेट की सही समझ सुनिश्चित करने के लिए आउटलेर्स की गणना और विश्लेषण करना जानना बहुत महत्वपूर्ण है।

कदम

आउटलेर्स चरण 1 की गणना करें
आउटलेर्स चरण 1 की गणना करें

चरण १. संभावित बाहरी डेटा की पहचान करना सीखें।

इससे पहले कि हम यह तय करें कि डेटम सेट से बाहरी डेटा को हटाया जाए या नहीं, निश्चित रूप से हमें यह पहचानना होगा कि कौन से डेटा आउटलेयर बनने की क्षमता रखते हैं। सामान्य तौर पर, एक आउटलेयर एक डेटम होता है जो एक डेटम सेट में अन्य डेटम से बहुत दूर होता है - दूसरे शब्दों में, एक आउटलेयर दूसरे डेटम का "बाहरी" होता है। डेटा तालिका या (विशेष रूप से) ग्राफ़ में आउटलेर्स का पता लगाना आमतौर पर आसान होता है। यदि डेटा के एक सेट को ग्राफ़ के साथ नेत्रहीन रूप से वर्णित किया जाता है, तो बाहरी डेटा अन्य डेटा से "बहुत दूर" दिखाई देगा। यदि, उदाहरण के लिए, किसी डेटम सेट में अधिकांश डेटा एक सीधी रेखा बनाते हैं, तो बाहरी डेटा को उचित रूप से उस रेखा को बनाने के रूप में व्याख्या नहीं किया जाएगा।

आइए एक कमरे में 12 विभिन्न वस्तुओं के तापमान का प्रतिनिधित्व करने वाले डेटाम के एक सेट को देखें। यदि 11 वस्तुओं का तापमान लगभग 70 फ़ारेनहाइट (21 डिग्री सेल्सियस) है, लेकिन 12वीं वस्तु, ओवन का तापमान 300 फ़ारेनहाइट (150 डिग्री सेल्सियस) है, तो यह तुरंत देखा जा सकता है कि ओवन का तापमान बहुत अधिक होने की संभावना है एक बाहरी।

आउटलेर्स चरण 2 की गणना करें
आउटलेर्स चरण 2 की गणना करें

चरण 2. डेटा को निम्नतम से उच्चतम तक डेटा के सेट में व्यवस्थित करें।

डेटम सेट में आउटलेर्स की गणना करने के लिए पहला कदम उस डेटम सेट के माध्यिका (मध्य मान) को खोजना है। यह कार्य बहुत सरल हो जाता है यदि डेटा के सेट में डेटा को सबसे छोटे से सबसे बड़े तक व्यवस्थित किया जाता है। इसलिए, जारी रखने से पहले, डेटा को ऐसे ही एक डेटा सेट में व्यवस्थित करें।

आइए ऊपर दिए गए उदाहरण को जारी रखें। यह एक कमरे में कई वस्तुओं के तापमान का प्रतिनिधित्व करने वाले डेटा का हमारा सेट है: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। यदि हम डेटा को निम्नतम से उच्चतम तक व्यवस्थित करते हैं, तो डेटा का क्रम बन जाता है: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}।

आउटलेर्स चरण 3 की गणना करें
आउटलेर्स चरण 3 की गणना करें

चरण 3. डेटा सेट के माध्यिका की गणना करें।

डेटम सेट का माध्यिका एक डेटम होता है जहां डेटम का दूसरा आधा हिस्सा उस डेटम के ऊपर होता है और शेष आधा उसके नीचे होता है- मूल रूप से, वह डेटम वह डेटम होता है जो डेटम सेट के "मध्य" में होता है। यदि किसी डेटम सेट में डेटा की संख्या विषम है, तो इसे खोजना बहुत आसान है-माध्यिका वह डेटाम है जिसके ऊपर और नीचे समान संख्या होती है। हालाँकि, यदि डेटम के सेट में डेटम की संख्या सम है, तो, क्योंकि कोई भी डेटम बीच में फिट नहीं होता है, बीच में 2 डेटा को माध्यिका खोजने के लिए औसत किया जाता है। यह ध्यान दिया जाना चाहिए कि, आउटलेर्स की गणना करते समय, माध्यिका को आमतौर पर चर Q2-ni सौंपा जाता है क्योंकि Q2 Q1 और Q3 के बीच होता है, निचला और ऊपरी चतुर्थक, जिसके बारे में हम बाद में चर्चा करेंगे।

  • डेटा सेट के साथ भ्रमित होने की नहीं, जहां डेटम की संख्या सम है-२ मध्य डेटा का औसत अक्सर एक नंबर लौटाएगा जो डेटा सेट में ही नहीं है-यह ठीक है। हालाँकि, यदि 2 मध्य डेटा समान संख्या हैं, तो निश्चित रूप से, औसत भी वही संख्या होगी, जो ठीक भी है।
  • ऊपर के उदाहरण में, हमारे पास 12 डेटम हैं। 2 मध्य डेटा क्रमशः 6 वें और 7 वें डेटाम -70 और 71 हैं। इसलिए, हमारे डेटा के सेट का औसत इन 2 संख्याओं का औसत है: ((70 + 71)/2), = 70.5.
आउटलेर्स चरण 4 की गणना करें
आउटलेर्स चरण 4 की गणना करें

चरण 4. निम्न चतुर्थक की गणना करें।

यह मान, जिसे हम वेरिएबल Q1 देते हैं, वह डेटम है जो डेटम के 25 प्रतिशत (या एक चौथाई) का प्रतिनिधित्व करता है। दूसरे शब्दों में, यह डेटम है जो माध्यिका से नीचे के डेटा को द्विभाजित करता है। यदि माध्यिका के नीचे के डेटा की संख्या सम है, तो आपको Q1 को खोजने के लिए फिर से बीच में 2 डेटा का औसत निकालना होगा, जैसे कि आप स्वयं माध्यिका को खोजना चाहते हैं।

हमारे उदाहरण में, 6 डेटम हैं जो माध्यिका से ऊपर हैं, और 6 डेटम हैं जो माध्यिका के नीचे हैं। इसका मतलब यह है कि, निम्न चतुर्थक को खोजने के लिए, हमें माध्यिका से नीचे 6 डेटा के मध्य में 2 डेटाम औसत करने की आवश्यकता होगी। माध्यिका से नीचे के 6 आंकड़ों के तीसरे और चौथे आंकड़े दोनों 70 हैं। तो, औसत ((70 + 70)/2) है, = 70. 70 हमारा Q1 बन जाता है।

आउटलेर्स चरण 5 की गणना करें
आउटलेर्स चरण 5 की गणना करें

चरण 5. ऊपरी चतुर्थक की गणना करें।

यह मान, जिसे हम वेरिएबल Q3 देते हैं, वह डेटम है जिस पर डेटम सेट में 25 प्रतिशत डेटम होते हैं। Q3 का पता लगाना Q1 को खोजने के समान ही है, सिवाय इसके कि, इस मामले में, हम माध्यिका के ऊपर के डेटा को देख रहे हैं, न कि माध्यिका के नीचे।

ऊपर हमारे उदाहरण को जारी रखते हुए, माध्यिका के ऊपर 6 डेटा के मध्य में 2 डेटाम 71 और 72 हैं। इन 2 डेटा का औसत ((71 + 72)/2) है, = 71, 5. 71, 5 हमारा Q3 है।

आउटलेर्स चरण 6 की गणना करें
आउटलेर्स चरण 6 की गणना करें

चरण 6. अंतरचतुर्थक दूरी ज्ञात कीजिए।

अब जब हमें Q1 और Q3 मिल गए हैं, तो हमें इन दो चरों के बीच की दूरी की गणना करने की आवश्यकता है। Q1 से Q3 तक की दूरी Q1 को Q3 से घटाकर ज्ञात की जाती है। इंटरक्वेर्टाइल दूरियों के लिए आपको मिलने वाले मान आपके डेटा सेट में गैर-बाहरी डेटा की सीमाओं को परिभाषित करने के लिए बहुत महत्वपूर्ण हैं।

  • हमारे उदाहरण में, Q1 और Q3 के हमारे मान 70 और 71, 5 हैं। इंटरक्वेर्टाइल दूरी ज्ञात करने के लिए, हम Q3 - Q1 = 71.5 - 70 = घटाते हैं। 1, 5.
  • यह ध्यान दिया जाना चाहिए कि यह भी सच है, भले ही Q1, Q3, या दोनों ऋणात्मक संख्याएं हों। उदाहरण के लिए, यदि हमारा Q1 मान -70 था, तो हमारी सही अंतर-चतुर्थक दूरी 71.5 - (-70) = 141, 5 होगी।
आउटलेर्स चरण 7 की गणना करें
आउटलेर्स चरण 7 की गणना करें

चरण 7. डेटम सेट में "आंतरिक बाड़" खोजें।

आउटलेयर यह जाँच कर पाया जाता है कि क्या डेटम "आंतरिक बाड़" और "बाहरी बाड़" नामक संख्या सीमाओं के भीतर आता है। डेटम सेट की आंतरिक बाड़ के बाहर गिरने वाले डेटा को "मामूली बाहरी" के रूप में जाना जाता है, जबकि बाहरी बाड़ के बाहर गिरने वाले डेटा को "प्रमुख बाहरी" कहा जाता है। अपने डेटा सेट में आंतरिक बाड़ को खोजने के लिए, पहले इंटरक्वेर्टाइल दूरी को 1, 5 से गुणा करें। फिर, परिणाम को Q3 से जोड़ें और इसे Q1 से घटाएं। आपको जो दो मान मिलते हैं, वे आपके डेटम सेट की आंतरिक बाड़ की सीमाएँ हैं।

  • हमारे उदाहरण में, इंटरक्वेर्टाइल दूरी (71.5 - 70), या 1.5 है। 1.5 को 1.5 से गुणा करें जिसके परिणामस्वरूप 2.25 होता है। हम इस संख्या को Q3 में जोड़ते हैं और हम आंतरिक बाड़ की सीमाओं को खोजने के लिए Q1 को इस संख्या से घटाते हैं:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • तो, हमारे आंतरिक बाड़ की सीमाएं हैं 67, 75 और 73, 75.
  • हमारे डेटा के सेट में, केवल ओवन तापमान, 300 फ़ारेनहाइट - इन सीमाओं से बाहर है और इसलिए यह डेटा एक मामूली बाहरी है। हालाँकि, हमने अभी भी गणना नहीं की है कि क्या यह तापमान एक प्रमुख बाहरी है, इसलिए जब तक हम अपनी गणना नहीं कर लेते, तब तक किसी निष्कर्ष पर न पहुँचें।

    आउटलेर्स चरण 7Bullet2. की गणना करें
    आउटलेर्स चरण 7Bullet2. की गणना करें
आउटलेर्स चरण 8 की गणना करें
आउटलेर्स चरण 8 की गणना करें

चरण 8. डेटम सेट में "बाहरी बाड़" खोजें।

यह उसी तरह से किया जाता है जैसे आंतरिक बाड़ को खोजने के लिए, सिवाय इसके कि इंटरक्वेर्टाइल दूरी को 1.5 के बजाय 3 से गुणा किया जाता है। फिर परिणाम को Q3 में जोड़ा जाता है और बाहरी बाड़ की ऊपरी और निचली सीमा को खोजने के लिए Q1 से घटाया जाता है।

  • हमारे उदाहरण में, अंतःचतुर्थक दूरी को 3 से गुणा करने पर (1, 5 x 3), या 4, 5 प्राप्त होता है। हम बाहरी बाड़ की सीमाओं को पहले की तरह ही पाते हैं:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • बाहरी बाड़ की सीमाएं हैं 65.5 और 76.
  • बाहरी बाड़ की सीमा के बाहर स्थित डेटा को प्रमुख आउटलेयर के रूप में जाना जाता है। इस उदाहरण में, ओवन का तापमान, 300 फ़ारेनहाइट, बाहरी बाड़ के बाहर स्पष्ट रूप से है, इसलिए यह डेटा "निश्चित रूप से" एक प्रमुख बाहरी है।

    आउटलेर्स की गणना करें चरण 8बुलेट2
    आउटलेर्स की गणना करें चरण 8बुलेट2
आउटलेर्स चरण 9 की गणना करें
आउटलेर्स चरण 9 की गणना करें

चरण 9. यह निर्धारित करने के लिए गुणात्मक निर्णय का उपयोग करें कि बाहरी डेटा को "त्याग" करना है या नहीं।

ऊपर वर्णित विधि का उपयोग करके, यह निर्धारित किया जा सकता है कि कोई डेटा एक मामूली डेटाम है, एक प्रमुख डेटाम है, या बिल्कुल बाहरी नहीं है। हालांकि, कोई गलती न करें- किसी डेटा को बाहरी के रूप में ढूंढना केवल उस डेटा को "उम्मीदवार" के रूप में चिह्नित करता है जिसे डेटा सेट से हटाया जाना चाहिए, न कि उस डेटा के रूप में जिसे "छोड़ दिया जाना चाहिए"। "कारण" जिसके कारण एक बाहरी डेटा एक डेटम सेट में अन्य डेटा से विचलित हो जाता है, यह निर्धारित करने में बहुत महत्वपूर्ण है कि इसे त्यागना है या नहीं। सामान्य तौर पर, उदाहरण के लिए, माप, रिकॉर्डिंग, या प्रयोगात्मक योजना में त्रुटि के कारण एक बाहरी को त्याग दिया जा सकता है। दूसरी ओर, आउटलेयर जो त्रुटि के कारण नहीं होते हैं और जो नई जानकारी या प्रवृत्तियों को इंगित करते हैं जिनकी पहले भविष्यवाणी नहीं की गई थी, उन्हें आमतौर पर "नहीं" छोड़ दिया जाता है।

  • विचार करने के लिए एक और मानदंड यह है कि क्या आउटलेयर का डेटा सेट के माध्य पर बड़ा प्रभाव पड़ता है, यानी क्या बाहरी इसे भ्रमित करता है या इसे गलत दिखाता है। यह विचार करना बहुत महत्वपूर्ण है कि क्या आप अपने डेटा सेट के औसत से निष्कर्ष निकालना चाहते हैं।
  • आइए हमारे उदाहरण का अध्ययन करें। इस उदाहरण में, चूंकि यह "अत्यधिक" असंभव लगता है कि अप्रत्याशित प्राकृतिक ताकतों के माध्यम से ओवन 300 फ़ारेनहाइट तक पहुंच गया, हम लगभग निश्चितता के साथ निष्कर्ष निकाल सकते हैं कि ओवन गलती से छोड़ दिया गया था, जिसके परिणामस्वरूप उच्च तापमान की डेटम असामान्यता थी। साथ ही, यदि हम आउटलेर्स को नहीं हटाते हैं, तो हमारा डेटा सेट माध्य (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 फ़ारेनहाइट (32 डिग्री सेल्सियस) है।), जबकि अगर हम आउटलेर्स को हटाते हैं तो औसत (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 फ़ारेनहाइट (21 डिग्री सेल्सियस) है।

    चूंकि ये आउटलेयर मानवीय त्रुटि के कारण हुए थे और क्योंकि यह कहना गलत होगा कि औसत कमरे का तापमान लगभग 90 फ़ारेनहाइट (32 डिग्री सेल्सियस) तक पहुँच जाता है, हम अपने आउटलेर्स को "फेंकने" के लिए चुनना बेहतर समझते हैं।

आउटलेर्स चरण 10 की गणना करें
आउटलेर्स चरण 10 की गणना करें

चरण 10. आउटलेर्स को बनाए रखने के महत्व (कभी-कभी) को जानें।

हालांकि कुछ आउटलेर्स को डेटम सेट से हटा दिया जाना चाहिए क्योंकि वे त्रुटियां पैदा करते हैं और/या परिणाम गलत या गलत बनाते हैं, कुछ आउटलेर्स को बनाए रखा जाना चाहिए। यदि, उदाहरण के लिए, एक बाहरी को स्वाभाविक रूप से प्राप्त किया गया प्रतीत होता है (अर्थात, किसी त्रुटि का परिणाम नहीं) और/या अध्ययन के तहत घटना पर एक नया दृष्टिकोण प्रदान करता है, तो आउटलेयर को डेटम सेट से नहीं हटाया जाना चाहिए। जब आउटलेयर की बात आती है तो वैज्ञानिक अनुसंधान आमतौर पर एक बहुत ही संवेदनशील स्थिति होती है - गलत तरीके से आउटलेर्स को हटाने का मतलब उस जानकारी को छोड़ना हो सकता है जो एक नई प्रवृत्ति या खोज को इंगित करती है।

उदाहरण के लिए, मान लें कि हम मछली के तालाब में मछली का आकार बढ़ाने के लिए एक नई दवा तैयार कर रहे हैं। हम अपने पुराने डेटा सेट ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) का उपयोग करेंगे, सिवाय इस बार, प्रत्येक डेटा एक मछली के वजन का प्रतिनिधित्व करेगा (ग्राम में) जन्म से एक अलग प्रायोगिक दवा दिए जाने के बाद। दूसरे शब्दों में, पहली दवा के कारण एक मछली का वजन 71 ग्राम होता है, दूसरी दवा के कारण दूसरी मछली का वजन 70 ग्राम होता है, और इसी तरह। इस मामले में, 300 "अभी भी" एक बड़ा बाहरी है, लेकिन हमें इस आंकड़े को नहीं छोड़ना चाहिए क्योंकि यह मानते हुए कि यह बिना किसी त्रुटि के प्राप्त किया गया था, यह अध्ययन में सफलता का प्रतिनिधित्व करता है। मछली का वजन 300 ग्राम बनाने वाली दवा अन्य सभी दवाओं से बेहतर काम करती है, इसलिए यह डेटा वास्तव में हमारे डेटा सेट में "सबसे महत्वपूर्ण" है, न कि "कम से कम महत्वपूर्ण"।

सिफारिश की: