TP

رویگردان

TN

FN

غیر رویگردان

با توجه به ماتریس آشفتگی سه معیار زیر برای دقت دسته‌بند قابل محاسبه است:

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در این پروژه ما دقت Total Accuracy را به عنوان مقدار تابع برازندگی در نظر گرفته‌ایم.
معیار توقف: الگوریتم به تعداد مشخص ۵۰ مرتبه تکرار می‌شود.
دیگر پارامترهای الگوریتم ژنتیک بر مبنی روش آزمون و خطا تنظیم شدند که به قرار زیر است:

  • اندازه جمعیت: ۵۰ عضو
  • تعداد تکرار: ۵۰ مرتبه
  • احتمال تقاطع: ۸۰ درصد
  • احتمال جهش: ۲۰ درصد
  • انتخاب والدین: تصادفی
  • انتخاب جمعیت اولیه: تصادفی

الگوریتم ژنتیک فوق برای بهینه‌سازی ساختار مدل پیشنهادی فاز اول برای پیش‌بینی رویگردانی مشتری در صنعت مخابرات، بر روی دو مجموعه داده متفاوت اعمال شد. در ادامه توضیحی از داده‌های استفاده شده در مسئله آورده شده است.
داده‌ها
در این تحقیق برای پیش‌بینی رویگردانی مشتریان در صنعت مخابرات از دو مجموعه داده متفاوت استفاده کرده‌ایم. مجموعه اول، داده‌های مربوط به شرکت تالیا یکی از اپراتورهای تلفن همراه داخل کشور است؛ در حالی که مجموعه دیگر داده‌های مسابقات مدل‌سازی رویگردانی است که در سال ۲۰۰۳ در دانشگاه دوک در دورهام برگذار شده است. اگرچه هر دو پایگاه داده مربوط به مشتریان تلفن همراه در صنعت مخابرات هستند ولی تفاوت‌هایی دارند که پس از معرفی هر دو مجموعه داده نمایان می‌شوند.
داده‌های اپراتور تالیا
این مجموعه داده شامل اطلاعات مربوط به ۳۱۵۰ مشتری است که در یک دوره زمانی ۱۲ ماهه از آغاز شهریور ۱۳۸۶ تا پایان مرداد ۱۳۸۷ به تفکیک ماه جمع‌ آوری شده است. این مشتریان از میان گروهی انتخاب شده‌اند که حداقل در ۲ ماه اول دوره مورد بررسی اقدام به رویگردانی نکرده باشند؛ بدین ترتیب این مجموعه داده فاقد مقادیر گمشده خواهد بود. پایگاه داده بدست آمده دارای ۱۱ ویژگی با شرح زیر است:

  • Call Failure: تعداد تماس‌های بی‌نتیجه.
  • Complains: شکایات داشتن مشترک از اپراتور.
  • Subscription Length: طول دوره ارتباط با اپراتور.
  • Charge Amount: میزان اعتبار شارژ شده توسط مشترک.
  • Seconds of Use: طول زمان مکالمات انجام شده.
  • Frequency of Use: تعداد تماس‌های گرفته شده توسط مشترک.
  • Frequency of SMS: تعداد پیامک‌های ارسالی.
  • Distinct Called Numbers: تعداد شماره‌های متفاوتی که مشترک با آنها تماس گرفته است.
  • Age Group: گروه سنی (۱= کمتر از ۱۵ سال، ۲= بین ۱۵ و ۳۰ سال، ۳= بین ۳۰ و ۴۵ سال، ۴= بین ۴۵ و ۶۰ سال، ۵= بالاتر از ۶۰ سال).
  • Tariff Plan: نوع طرح خدماتی مورد استفاده (۱= دارای اینترنت، ۰= فاقد اینترنت)
  • Status: وضعیت مشترک (۱= فعال، ۲= غیر فعال).

این مجموعه داده همچنین دارای برچسب رویگردانی برای تمامی متشریان مورد بررسی است. منظور از مشتری رویگردان کسی است که در طول دوره مورد بررسی به فروش و واگذاری سیم‌کارت خود به شخص دیگر مبادرت ورزیده است.
داده‌های مسابقات مدل‌سازی رویگردانی دانشگاه دوک
دانشگاه دوک در سال ۲۰۰۳ مسابقه‌ای را در بخش CRM خود تحت عنوان مسابقات مدل‌سازی رویگردانی[۱۷۹] تدارک می‌بیند. داده‌های این مسابقه به صنعت بی‌سیم شرکت مخابرات مربوط می‌شود و شامل حجم بالایی از اطلاعات جامعی در مورد تعداد زیادی از مشتریان است. این اطلاعات جامع شامل ۱۷۱ ویژگی برای هر مشترک است. در این مجموعه داده نیز مشتریان از میان کسانی انتخاب شده‌اند که حداقل ۶ ماه در شرکت بوده‌اند. مشتریان در طول ماه‌های جولای، سپتامبر و نوامبر سال ۲۰۰۱ و ژانویه سال ۲۰۰۲ نمونه‌برداری شده‌اند. برای هر مشتری، ویژگی‌ها و یا به عبارت دیگر متغیرهای پیشگو بر مبنای ۴ ماه گذشته محاسبه شده‌اند. در این مجموعه داده، مشتری رویگردان به کسی گفته می‌شود که در دوره ۳۱ تا ۶۰ روز پس از انتخاب شرکت را ترک کرده باشد.
به دلیل تعداد بسیار زیاد ویژگی‌ها و نمونه‌ها و همچنین وجود مقادیر گم شده در میان داده‌ها لازم است قبل از استفاده از داده‌ها، اقدامات پیش‌پردازش بر روی داده‌ها انجام شود.
پیش‌پردازش
اقداماتی که در مرحله پیش‌پردازش برای آماده‌سازی داده‌ها لازم است انجام شود به قرار زیر است:

  • انتخاب نمونه[۱۸۰]: به دلیل تعداد بیش از اندازه نمونه‌ها در این پایگاه داده و برای جلوگیری از بیش‌برازش[۱۸۱]، عمل انتخاب نمونه را به گونه‌ای انجام می‌دهیم که تقریبا توزیع یکسانی از نمونه‌های هر دو کلاس در نمونه انتخاب شده وجود داشته باشد. بنابراین، از میان داده‌های اصلی با در نظر گرفتن معیار ذکر شده تعداد ۱۵۰۰ نمونه به تصادف انتخاب کردیم.
  • انتخاب ویژگی[۱۸۲]: اگرچه فرایند انتخاب ویژگی در ساختار مدل پیشنهادی این تحقیق قرار دارد ولی از آن جایی که از میان ۱۷۱ ویژگی موجود در این پایگاه داده تعدادی از آنها بالای ۷۰% دارای مقادیر گم شده‌اند و همچنین تعدادی نیز دارای مقادیری یکنواخت و یا با پراکندگی بسیار بالا هستند، لازم است با انتخاب ویژگی اولیه در مرحله پیش‌پردازش این ویژگی‌ها شناسایی و حذف شوند. برای انجام این کار از نرم‌افزار داده‌کاوی SPSS Clementine استفاده کردیم؛ نحوه پیاده‌سازی پیش‌پردازش در این نرم‌افزار و نتیجه بدست آمده در شکل ۳-۵ قابل مشاهده است. چنانچه در شکل نیز مشخص است، خروجی فرایند انتخاب ویژگی لیست مرتب شده‌ای از ویژگی‌هاست که به ترتیب اهمیت قرار گرفته‌اند. همچنین ویژگی‌های دارای مقادیر گمشده زیاد به همراه آن ویژگی‌های دسته‌ای که تقریبا در یک دسته توزیع شده‌اند و یا دارای پراکندگی بالایی هستند در بخش مجزایی نشان داده شده‌اند.
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...