মিনের সাথে অনুপস্থিত মানগুলিকে বোঝানোর ত্রুটিগুলি কী কী?

সুচিপত্র:

মিনের সাথে অনুপস্থিত মানগুলিকে বোঝানোর ত্রুটিগুলি কী কী?
মিনের সাথে অনুপস্থিত মানগুলিকে বোঝানোর ত্রুটিগুলি কী কী?

ভিডিও: মিনের সাথে অনুপস্থিত মানগুলিকে বোঝানোর ত্রুটিগুলি কী কী?

ভিডিও: মিনের সাথে অনুপস্থিত মানগুলিকে বোঝানোর ত্রুটিগুলি কী কী?
ভিডিও: কিভাবে... R#77-এ মিসিং ইমপুটেশন মেথড দিয়ে অনুপস্থিত মান প্রতিস্থাপন করুন 2024, ডিসেম্বর
Anonim

মান অভিযোজন ভেরিয়েবলের মধ্যে সম্পর্ককে বিকৃত করে কিন্তু মানে অভিযোজন বহুমুখী সম্পর্ককেও বিকৃত করে এবং পারস্পরিক সম্পর্কের মতো পরিসংখ্যানকে প্রভাবিত করে। উদাহরণস্বরূপ, PROC CORR-এ নিম্নলিখিত কলটি Orig_Height ভেরিয়েবল এবং ওজন এবং বয়স ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক গণনা করে৷

কেন ডেটা হারিয়ে যাওয়ার জন্য একটি মাধ্যম ব্যবহার করা একটি খারাপ ধারণা?

মান ডেটার বৈচিত্র্য হ্রাস করে গণিতের আরও গভীরে গেলে, একটি ছোট পার্থক্য সম্ভাব্যতা বণ্টনে আত্মবিশ্বাসের ব্যবধানকে সংকীর্ণ করে দেয়[3]। এটি আমাদের মডেলের প্রতি পক্ষপাতিত্ব প্রবর্তন করা ছাড়া আর কিছুই করে না৷

কেন অনুপস্থিত মান একটি সমস্যা?

অনুপস্থিত ডেটা বিভিন্ন সমস্যা দেখায়। প্রথমত, ডেটার অনুপস্থিতি পরিসংখ্যানগত শক্তিকে কমিয়ে দেয়, যেটি সম্ভাব্যতা বোঝায় যে পরীক্ষাটি শূন্য অনুমানকে মিথ্যা হলে তা প্রত্যাখ্যান করবে। দ্বিতীয়ত, হারিয়ে যাওয়া ডেটা পরামিতিগুলির অনুমানে পক্ষপাত ঘটাতে পারে। তৃতীয়ত, এটি নমুনার প্রতিনিধিত্ব কমাতে পারে৷

মান অভিহিত করা খারাপ কেন?

সমস্যা 1: মানে অভিযোগ ভেরিয়েবলের মধ্যে সম্পর্ক রক্ষা করে না। সত্য, গড়কে অভিহিত করা পর্যবেক্ষণ করা ডেটার গড় সংরক্ষণ করে। তাই যদি ডেটা এলোমেলোভাবে সম্পূর্ণ অনুপস্থিত হয়, তাহলে গড় অনুমান নিরপেক্ষ থেকে যায়।

আপনি কি মিসিং ডেটা প্রতিস্থাপন করবেন?

Outliers ডেটা পয়েন্টগুলি গড় উপর একটি উল্লেখযোগ্য প্রভাব ফেলবে এবং তাই, এই ধরনের ক্ষেত্রে, অনুপস্থিত মান প্রতিস্থাপনের জন্য গড় ব্যবহার করার পরামর্শ দেওয়া হয় না। অনুপস্থিত মানগুলি প্রতিস্থাপনের জন্য গড় মান ব্যবহার করা একটি দুর্দান্ত মডেল তৈরি করতে পারে না এবং তাই এটি বাতিল হয়ে যায়৷

প্রস্তাবিত: