پاورپوینت پیش پردازش داده ها (pptx) 64 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 64 اسلاید
قسمتی از متن PowerPoint (.pptx) :
فصل 3: پیش پردازش داده ها
پیش پردازش داده ها: مقدمه
کیفیت داده ها
وظایف اصلی پیش پردازش داده ها
پاکسازی داده ها
یکپارچه سازی داده ها
تقلیل داده ها
تغییر شکل داده و گسسته کردن داده
خلاصه فصل
کیفیت داده: چرا پیش پردازش داده؟
عوامل مؤثر در کیفیت داده ها ( معیارهای باکیفیت بودن داده ها):
صحت(Accuracy) : درست یا غلط، دقیق یا غیردقیق
تمامیت(Completeness): داده های ثبت نشده، دسترس ناپذیر و ...
سازگاری(Consistency): برخی اصلاح شده برخی نه، …
مناسب و بجا بودن(Timeliness): به روز رسانی شده؟
باور پذیر بودن(Believability): میزان اعتماد به درست بودن داده
قابل توجیه و تفسیر بودن (Interprtability): میزان سادگی درک داده ها
وظایف اصلی پیش پردازش داده ها
پاک سازی داده
پرکردن مقادیر مفقوده، برطرف کردن نویز داده، شناسایی یا حذف پرت ها و برطرف کردن تناقض ها
یکپارچه سازی داده
یکپارچه سازی (تجمیع) چندین پایگاه داده، مکعب های داده یا فایل
کاهش داده
کاهش بعد
کاهش تکثر
فشرده سازی داده
تغییرشکل و گسسته سازی داده
نرمال سازی
مفهوم تولید سلسله مراتب
نمونه هایی از پیش پردازش داده ها
فصل 3: پیش پردازش داده ها
پیش پردازش داده ها: مقدمه
کیفیت داده ها
وظایف اصلی پیش پردازش داده ها
پاکسازی داده ها
یکپارچه سازی داده ها
تقلیل داده ها
تغییر شکل داده و گسسته کردن داده
خلاصه فصل
پاکسازی داده ها
داده ها در دنیای واقعی کثیف هستند: به دلیل وجود داده های غلط بسیار که به طور مثال از دستگاه های خراب، خطاهای انسانی یا کامپیوتری و یا خطاهای انتقال ناشی می شوند.
داده ها تمایل به کامل نبودن، نویزی بودن و متناقض بودن دارند.
کامل نبودن: فقدان مقادیر صفت، فقدان برخی صفات مطلوب
مثلاً : شغل = “ “ (داده مفقود)
نویزی بودن: داده شامل نویز، خطا یا مقادیرپرت
مثلاً : حقوق = “-10”(خطا)
متناقض بودن: وجود اختلاف در کدها یا اسامی برای مثال:
سن = “42” و تاریخ تولد =“2010/07/03”
رتبه بندی قبلی “1,2,3” ، رتبه بندی جدید “A,B,C”
اختلاف بین رکورد های تکراری
گاهی داده مفقود به طور عمدی به شکل دیگری تبدیل شده
مثلاً : اول فروردین به عنوان روز تولد همه
داده ناقص (مفقود)
داده ها همیشه دردسترس نیستند
مثلاً اغلب تاپل ها برای برخی صفات مقدار ندارند مثل درآمد مشتری در داده های فروش
دلیل وجود داده مفقود
خرابی دستگاه
ناسازگاری با دیگر داده های ثبت شده و در نتیجه حذف آنها
وارد نکردن داده به دلیل نامفهوم بودن آن
مهم نبودن برخی داده ها در زمان ورود آنها
چگونه با مقادیر مفقوده برخورد کنیم؟
نادیده گرفتن تاپل: معمولاً زمانی انجام میشود که عنوان یا برچسب کلاس مفقود باشد ( زمان انجام رده بندی) - اگر درصد مقادیر مفقوده در هر صفت به طور قابل ملاحظه ای اختلاف داشته باشند عملکرد ضعیف خواهد بود.
پرکردن دستی داده مفقوده: زمان بر و غیرکاربردی
پرکردن اتوماتیک با
یک ثابت سراسری: مثلاً برچسب “unknown” - یک کلاس جدید به وجود میآورد که ممکن است منجر به نتایج داده کاوی اشتباه شود
میانگین یا میانه صفت
میانگین یا میانه برای تمام نمونه های متعلق به کلاس مشابه
محتمل ترین مقدار: با استفاده از ابزارهای استنتاج مثل فرمول بیز یا درخت تصمیم
داده مزاحم
نویز یا مزاحمت: یک خطای تصادفی یا اختلاف در سنجش متغیر
دلایل وجود مقادیر غلط صفات:
دستگاه های خطادار جمع آوری داده
مشکلات ورود داده
مشکلات انتقال داده
محدودیت تکنولوژی
ناسازگاری در قوانین نام گذاری
دیگر مشکلاتی که به پاکسازی داده ها نیاز دارند:
رکوردهای تکراری
رکوردهای ناقص
رکوردهای ناسازگار