ডেটা সেটে আউটলারের সবচেয়ে সাধারণ কারণ: পরিমাপ ত্রুটি (যন্ত্রের ত্রুটি) পরীক্ষামূলক ত্রুটি (ডেটা নিষ্কাশন বা পরীক্ষা পরিকল্পনা/নির্দেশিত ত্রুটি) ইচ্ছাকৃত (পরীক্ষার জন্য ডামি আউটলার তৈরি করা হয়েছে) সনাক্তকরণ পদ্ধতি) ডেটা প্রক্রিয়াকরণ ত্রুটি (ডেটা ম্যানিপুলেশন বা ডেটা সেট অনিচ্ছাকৃত মিউটেশন)
আউটলাইয়ারের সম্ভাব্য কারণ কী?
আউটলারের জন্য তিনটি কারণ রয়েছে - ডেটা এন্ট্রি/একটি পরীক্ষা পরিমাপের ত্রুটি, নমুনা সমস্যা এবং প্রাকৃতিক পরিবর্তন। ডেটা পরীক্ষা/প্রবেশ করার সময় একটি ত্রুটি ঘটতে পারে। ডেটা এন্ট্রির সময়, একটি টাইপো ভুল করে ভুল মান টাইপ করতে পারে।
আউটলারদের দ্বারা কোনটি সবচেয়ে বেশি প্রভাবিত হয়?
মান, মধ্যমা এবং মোড হল কেন্দ্রীয় প্রবণতার পরিমাপ। গড় হল কেন্দ্রীয় প্রবণতার একমাত্র পরিমাপ যা সর্বদা একটি বহিরাগত দ্বারা প্রভাবিত হয়। গড়, গড় হল কেন্দ্রীয় প্রবণতার সবচেয়ে জনপ্রিয় পরিমাপ।
সীমা কি আউটলারদের দ্বারা সবচেয়ে বেশি প্রভাবিত হয়?
সুতরাং আমাদের যদি {52, 54, 56, 58, 60} এর একটি সেট থাকে তবে আমরা r=60−52=8 পাই, তাই পরিসীমা 8। এখন আমরা যা জানি, তা সঠিক বলুন যে একটি outlier দৌড়কে সবচেয়ে বেশি প্রভাবিত করবে।
আউটলারদের কি ডেটা থেকে সরানো উচিত?
Outliers অপসারণ শুধুমাত্র নির্দিষ্ট কারণে বৈধ বহিরাগতরা বিষয়-ক্ষেত্র এবং ডেটা সংগ্রহ প্রক্রিয়া সম্পর্কে খুব তথ্যপূর্ণ হতে পারে। … বহিরাগতরা আপনার ডেটার পরিবর্তনশীলতা বাড়ায়, যা পরিসংখ্যানগত শক্তি হ্রাস করে। ফলস্বরূপ, বহিরাগতদের বাদ দিলে আপনার ফলাফল পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হয়ে উঠতে পারে।