شکل۵-۱ .مثالی از چگونگی اعمال مراحل گردآمدگی با سایز۱۵=s و استخراج بردار ویژگی با سایز ۴۰.

 

به بیانی دقیق‌تر، برای اعمال گردآمدگی با سایز ۱۵=s بر روی یک پنجره ۳۰-دقیقه‌ای، رکوردهای ۱ تا ۱۵ ( مربوط به ۲۰ مسیر) و رکوردهای ۱۶ تا ۳۰ ( مربوط به ۲۰ مسیر) با هم جمع بسته می­شوند و ۲ بردار ۲۰ مقداری تولید می­ کنند که با کنار هم قرار دادن آن­ها یک بردار ویژگی ۴۰-مقداری برای پنجره مربوطه بدست خواهد آمد. اعمال سایزهای مختلف گردآمدگی، نتایج متفاوتی را در میزان خطا ایجاد می‌کند. شکل (۵-۲) نیز روند تغییرات میانگین RMSE را با توجه به سایزهای مختلف گردآمدگی نشان می‌دهد. همانطور که در شکل (۵-۲) مشخص است، کمترین خطا مربوط به اعمال سایز گردآمدگی ۱۰-دقیقه‌ای است. هرچند که کمترین خطا در روش RF Ensemble of با سطح گردآمدگی s=15 بدست آمده است.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

 
 

شکل ۵-۲٫ مقایسه میانگین RMSE روش پیشنهادی و روش Of RF Ensemble با اعمال سایزهای گردآمدگی متفاوت. سایز گردآمدگی از ۳ تا ۳۰ دقیقه، متغیر است.

 

در راستای توجیه بهترین نتیجه که حاصل اعمال سایز گردآمدگی ۱۰=s است، می‌توان گفت که در واقع با اعمال این سایز، مقادیر بردار ویژگی هم Horizen با بردارهای هدف است. به بیانی دقیق‌تر، چون قرار است بردار­های هدف، جمع نرخ ترافیکی مسیر­ها در بازه‌ی زمانی ۴۱-۵۰ (۱۰-دقیقه‌ای) باشند، پس در نظر گرفتن نرخ­های ترافیکی مربوط به جمع ۱۰-دقیقه‌ای در بردارهای ویژگی، تطابق بیشتری با بردارهای هدف داشته و منجر به یادگیری بهتر و خطای کمتر می­ شود.

استخراج مجموعه‌های نمونه‌های آموزشی

نظر به حجم بالای داده ترافیکی ، مقیاس پذیری متد­های ارائه شده ، از مسائل مطرح در این حوزه است . در روش [۱۸]، مجموعه نمونه‌های آموزشی (ماتریس‌های ویژگی) با سایز­های متفاوتی، از فایل پایگاه داده استخراج شد . این مجموعه‌ها با عنوان A ، B وC به ترتیب شامل ۱۰۰۰ ،۱۱۰۰۰ و ۵۵۰۰۰ نمونه‌ی آموزشی هستند. همانطور که مشخص است، یادگیری با بهره گرفتن از هر کدام از مجموعه‌ها، مقیاس‌پذیری متفاوتی را در اختیار می‌گذارد. از آنجا که در نهایت، قرار است تکنیک پیشنهادی با این الگوریتم مقایسه شود، بنابراین ما نیز این مجموعه‌های آموزشی را استخراج و برای یادگیری بکار گرفتیم. در این زیر فصل، به بیان چگونگی استخراج این مجموعه‌های آموزشی می‌پردازیم.
در بخش پایگاه داده توضیح داده شد که داده‌ی ارائه شده بعنوان داده‌ی آموزشی، شامل ۶۰۰۰۰ رکورد یعنی ۱۰۰ سایکل ۱۰- ساعته می­باشد . با توجه به این که قرار است با داشتن نیم ساعت اول هر پنجره ، نیم ساعت بعدی را پیش ­بینی کرد ، بنابراین از هر پنجره ۶۰- دقیقه­ای باید یک نمونه استخراج کرد. اگر پنجره­های استخراج نمونه را بدون overlap در نظر بگیریم و از هر ۶۰-دقیقه، یک نمونه (یک بردار ویژگی) مطابق با روش توضیح داده شده در بخش ۴ ، استخراج کنیم، در نهایت به ازای ۶۰۰۰۰ رکورد (دقیقه) (کل داده آموزشی)، ۱۰۰۰ نمونه‌ی آموزشی خواهیم داشت که بعنوان مجموعه نمونه‌های آموزشیA (یا Set A) در نظر گرفته می­ شود.
با حرکت دادن پنجره‌ی استخراج نمونه و تغییر نقطه‌ی شروع و پایان این پنجره می­توان تعداد نمونه‌های آموزشی متفاوتی را از فایل داده های آموزشی استخراج کرد. واضح است که در این صورت پنجره­های استخراج نمونه با هم overlap خواهند داشت. برای بدست آوردن مجموعه نمونه‌های آموزشی B یا (Set B) ، به جای استخراج یک نمونه از یک بازه ۶۰-دقیقه‌ای، پنجره‌ی استخراج ویژگی را روی این بازه حرکت می­دهیم که در این صورت ۱۱ نمونه‌ی آموزشی از هر یک ساعت استخراج خواهند شد. بدین ترتیب، برای ۱۰۰۰ بازه‌ی یک ساعته، ۱۱۰۰۰=۱۰۰۰ₓ۱۱ نمونه بدست خواهد آمد. به منظور درک بیشتر نحوه‌ی ساخت مجموعه‌های نمونه آموزشی، مرحله‌ی استخراج نمونه مجموعه آموزشی B بطور مثال در شکل (۵-۳) بصورت نمادین آمده است.

 
 

شکل ۵-۳- مراحل نمادین استخراج مجموعه نمونهی آموزشی B.

 

در حالتی دیگر اگر پنجره استخراج ویژگی را روی بازه‌ی مربوط به یک سایکل که ۶۰۰ دقیقه است، حرکت دهیم (با شیفت ۱-دقیقه‌ای پنجره استخراج ویژگی)، به ازای هر سایکل ۵۵۰ نمونه‌ی آموزشی و در نهایت به ازای ۱۰۰ سایکل ۵۵۰۰۰=۱۰۰۰ₓ۵۵ نمونه‌ی آموزشی خواهیم داشت که مجموعه‌ی نمونه‌های آموزشی C را تشکیل می‌دهند[۱۸]. در زیر فصل بعد، نتایج یادگیری الگوریتم‌های متفاوت بر روی این مجموعه‌ها آورده شده است.

نتایج یادگیری الگوریتم بر روی مجموعه‌های نمونه‌های آموزشیA,B,C

در شکل (۵-۴) کارایی تکنیک پیشنهادی بر روی داده‌ی آزمایشی در مقایسه با نتایج پیاده سازی ما از روش Ensemble Rf را می‌بینیم.

 

شکل ۵-۴- مقایسه خطای RMSE مربوط به تکنیک پیشنهادی و روش Ensemble RF، که برای مجموعه نمونه‌های آموزشی A,Bو C که به‌ترتیب شامل ۱۰۰۰, ۱۱۰۰۰ و ۵۵۰۰۰ نمونه‌ی آموزشی هستند. تکنیک پیشنهادی کاهش خطای چشمگیری بر روی مقیاس‌پذیرترین مجموعه یعنی مجموعه A داشته است.

 

لازم به ذکر است که روش Ensemble RF در مسابقه ICDM سال ۲۰۱۰ مقام سوم را کسب کرد. همانطور که در شکل واضح است، تکنیک پیشنهادی قادر به کاهش خطای چشمگیری، خصوصا بر روی مجموعه‌ی A شده است که کوچکترین سایز را در مقایسه با دیگر مجموعه‌های B و C دارد. اهمیت این نتیجه بدین دلیل است که سایز مجموعه‌های B و C، همانطور که در [۱۸] مورد نقد و اشاره قرار گرفته، از جمله محدودیت‌های آن روش بحساب می‌آید، چرا که با افزایش تعداد مسیرها (ATRs) احتمالا متد ارائه شده در [۱۸] مقیاس‌پذیری مناسبی نخواهد داشت. با این حال، برای رسیدن به کارایی بالاتر، تکنیک پیشنهادی بر روی مجموعه‌های B و C و ترکیب B و C اعمال شد که نتایج آن را در شکل (۵-۴) می‌بینیم. واضح است که بر روی ۴ مجموعه، تکنیک پیشنهادی، کاهش خطای قابل ملاحظه‌ای دارد. هرچند بهترین نتایج هر دو روش از اعمال الگوریتم بر روی ترکیب مجموعه (B & C) می‌باشد. لازم به ذکر است که این میزان خطا در مقایسه با برترین نتایج مربوط به مسابقه ICDM(2010)، نتایج قابل مقایسه‌ای دارد.
فصل ششم

خلاصه و نتیجه گیری

  •  
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...