এটি একটি ডেটা মাইনিং কৌশল যা কাঁচা ডেটাকে একটি বোধগম্য বিন্যাসে রূপান্তরিত করে। কাঁচা ডেটা (বাস্তব বিশ্বের ডেটা) সর্বদা অসম্পূর্ণ এবং সেই ডেটা একটি মডেলের মাধ্যমে পাঠানো যায় না। এটি নির্দিষ্ট ত্রুটির কারণ হবে. এজন্য আমাদের একটি মডেলের মাধ্যমে পাঠানোর আগে ডেটা প্রিপ্রসেস করতে হবে
আমাদের ডেটা প্রিপ্রসেস করতে হবে কেন?
এটি একটি ডেটা মাইনিং কৌশল যা কাঁচা ডেটাকে একটি বোধগম্য ফর্ম্যাটে রূপান্তরিত করে কাঁচা ডেটা (বাস্তব বিশ্বের ডেটা) সর্বদা অসম্পূর্ণ থাকে এবং সেই ডেটা কোনও মডেলের মাধ্যমে পাঠানো যায় না। এটি নির্দিষ্ট ত্রুটির কারণ হবে. তাই মডেলের মাধ্যমে পাঠানোর আগে আমাদের ডেটা প্রিপ্রসেস করতে হবে।
আমার কি পরীক্ষার ডেটা প্রিপ্রসেস করা উচিত?
এর মূল সারমর্ম হল: পরীক্ষা বা ট্রেনের ডেটা রূপান্তর করতে আপনার পুরো ডেটাসেটে লাগানো একটি প্রিপ্রসেসিং পদ্ধতি ব্যবহার করা উচিত নয়। আপনি যদি তা করেন তবে আপনি অসাবধানতাবশত ট্রেন সেট থেকে পরীক্ষা সেটে তথ্য বহন করছেন।
ডেটা ফাঁসের সমস্যা কী?
ডেটা লিকেজ হল একটি প্রতিষ্ঠানের মধ্যে থেকে একটি বাহ্যিক গন্তব্য বা প্রাপকের কাছে ডেটার অননুমোদিত ট্রান্সমিশন … ডেটা লিকেজ, যা কম এবং ধীরগতির ডেটা চুরি নামেও পরিচিত, এটি একটি বিশাল সমস্যা ডেটা সুরক্ষার জন্য, এবং আকার বা শিল্প নির্বিশেষে যে কোনও সংস্থার ক্ষতি গুরুতর হতে পারে৷
আপনি কীভাবে পরীক্ষার ডেটা রূপান্তর করবেন?
ট্রান্সফর্ম গড় বিয়োগ করে এবং প্রকরণ দ্বারা ভাগ করে সমস্ত বৈশিষ্ট্যকে রূপান্তরিত করবে। সুবিধার জন্য, এই দুটি ফাংশন কল fit_transform ব্যবহার করে এক ধাপে করা যেতে পারে।