If ( FeatureVector.Contain(tj) )
OutputFile.Add( tj )

اعمال الگوریتم انتخاب خصیصه
برای انتخاب سودمندترین خصیصه‌ها از الگوریتم نرخ سودمندی اطلاعات[۲۸] بهره گرفته ایم، که یک روش تک متغیره است. الگوریتم نرخ سودمندی اطلاعات تغییر یافته الگوریتم سودمندی اطلاعات[۲۹] است. الگوریتم نرخ سودمندی اطلاعات هر خصیصه‌ای که اطلاعات سودمندی را برای طبقه‌بندی در خود داشته‌باشد وزنی مخالف صفر می‌دهد. وزنی که الگوریتم سودمندی اطلاعات به هر خصیصه می‌دهد از معادله ۳-۴ بدست می‌آید.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

۳-۴
p(Cj) کسری از اسناد است که به کلاس Cj تعلق دارند. p(w) کسری از اسناد است که کلمه w در آنها وجود دارد. p(Cj|w) کسری از اسناد متعلق به کلاس Cj می‌باشد که کلمه w در آنها رخ داده‌است. حال خصیصه‌هایی که وزن بیشتری دارا باشند را به عنوان سودمندترین خصیصه‌ها انتخاب می‌کنیم.
نرخ سودمندی اطلاعات با نرمال‌سازی سودمندی اطلاعات، وزنی را به هر خصیصه اختصاص می‌دهد (معادله ۳-۶ ). این وزن بیان کننده اهمیت آن خصیصه می‌باشد.
۳-۵
۳-۶
نرمال‌سازی سودمندی اطلاعات این امکان را به ما می‌دهد که بتوانیم با دقت بیشتری خصیصه‌ها را از همدیگر تمیز دهیم، لذا بهتر است بجای الگوریتم سودمندی اطلاعات از الگوریتم نرخ سودمندی اطلاعات استفاده کنیم. خصیصه‌هایی که InfoGainRation بیشتری دارند را برای طبقه‌بندی انتخاب می‌کنیم. در این روش نیز خصیصه‌ها با وزن بیشتر خصیصه‌های سودمنتر هستند.
روش پیشنهادی دوم
روش اول قصد دارد مجموعه خصیصه‌هایی را برای مدل‌سازی اسناد ارئه دهد، به گونه ای که این مجموعه خصیصه‌ها اطلاعات مفیدی از محتوای اسناد برای فرایند تحلیل احساسات و عقاید مهیا کرده و دقت طبقه‌بندی را افزایش دهند. مجموعه خصیصه‌های پیشنهادی در شکل ۳-۵ قابل مشاهده هستند. در اغلب تحقیقات گذشته برای مدل‌سازی متن تنها از خصیصه‌های unigram استفاده شده است و گاهی ترکیبی از Unigram و bigram را بکار برده‌اند. به این دلیل که خصیصه‌های bigram به تنهایی عملکرد بدتری نسبت به unigram دارند به طور کلی خصیصه‌های N-gram با n بزرگتر عملکرد بدتری نسبت به خصیصه‌های با n کوچکتر دارند. این عملکرد بد به دلیل غیر مرتبط بودن و غیر مفید بودن این مجموعه خصیصه‌های نیست، بلکه دلیل پراکندگی آنها است، با بزرگتر شدن n پراکندگی این خصیصه‌ها نیز بیشتر می‌شود که خود عاملی بر زیاد شدن تعداد خصیصه‌ها، کاهش دقت طبقه‌بندی و افزایش زمان اجرا خواهد بود. زبان طبیعی ما کلمات هم معنای زیادی در خود دارد که قابلیت استفاده بجای یکدیگر را دارند، استفاده از کلمات هم معنا در عبارات باعث ایجاد این پراکندگی می‌شود. این پراکندگی نه تنها برای خصیصه‌های N-gram با n > 1 مطرح است بلکه برای خصیصه‌های ۱-gram نیز مطرح است. جدول ۳-۳ مثالی را از پراکندگی خصیصه‌های unigram نشان می‌دهد. همانطور که در جدول ۳-۳ می‌بینیم برای کلمه great_JJ (کلمه great با ادات سخن صفت) ۱۵ کلمه هم معنا قابل استفاده است
جدول ۳-۳ کلمات هم معنای great : این کلمات از Wordnet استخراج شده‌اند. این کلمات در یکی از ۷ معنای متفاوت great در نقش صفت با آن هم معنا هستند.

Great_JJ

Smashing

slap-up

Peachy

Not bad

Nifty

neat

keen

groovy

swell

dandy

dandy

cracking

corking

bully

bang-up

کاربران متفاوت بجای استفاده از کلمه great از هر کدام از معادل‌های معنایی آن نیز می‌توانند استفاده کنند، این امر باعث ایجاد پراکندگی در خصیصه‌های unigram می‌شود.
در روش پیشنهادی دوم پراکندگی خصیصه‌های unigram مورد توجه قرار گرفته است و تلاش کردیم راه حلی برای این مشکل ارائه دهیم. شکل ۳-۶ شمای کلی روش دوم را نشان می‌دهد. برای حل کردن مشکل پراکندگی در کلمات unigram الگوریتم Document_to_Model تغییراتی را ایجاد کردیم.
Algorithm 2 Documents_To_model2

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...