پروژه های پژوهشی درباره ارائه یک مدل مبتنی بر ... |
If ( FeatureVector.Contain(tj) )
OutputFile.Add( tj )
اعمال الگوریتم انتخاب خصیصه
برای انتخاب سودمندترین خصیصهها از الگوریتم نرخ سودمندی اطلاعات[۲۸] بهره گرفته ایم، که یک روش تک متغیره است. الگوریتم نرخ سودمندی اطلاعات تغییر یافته الگوریتم سودمندی اطلاعات[۲۹] است. الگوریتم نرخ سودمندی اطلاعات هر خصیصهای که اطلاعات سودمندی را برای طبقهبندی در خود داشتهباشد وزنی مخالف صفر میدهد. وزنی که الگوریتم سودمندی اطلاعات به هر خصیصه میدهد از معادله ۳-۴ بدست میآید.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۳-۴
p(Cj) کسری از اسناد است که به کلاس Cj تعلق دارند. p(w) کسری از اسناد است که کلمه w در آنها وجود دارد. p(Cj|w) کسری از اسناد متعلق به کلاس Cj میباشد که کلمه w در آنها رخ دادهاست. حال خصیصههایی که وزن بیشتری دارا باشند را به عنوان سودمندترین خصیصهها انتخاب میکنیم.
نرخ سودمندی اطلاعات با نرمالسازی سودمندی اطلاعات، وزنی را به هر خصیصه اختصاص میدهد (معادله ۳-۶ ). این وزن بیان کننده اهمیت آن خصیصه میباشد.
۳-۵
۳-۶
نرمالسازی سودمندی اطلاعات این امکان را به ما میدهد که بتوانیم با دقت بیشتری خصیصهها را از همدیگر تمیز دهیم، لذا بهتر است بجای الگوریتم سودمندی اطلاعات از الگوریتم نرخ سودمندی اطلاعات استفاده کنیم. خصیصههایی که InfoGainRation بیشتری دارند را برای طبقهبندی انتخاب میکنیم. در این روش نیز خصیصهها با وزن بیشتر خصیصههای سودمنتر هستند.
روش پیشنهادی دوم
روش اول قصد دارد مجموعه خصیصههایی را برای مدلسازی اسناد ارئه دهد، به گونه ای که این مجموعه خصیصهها اطلاعات مفیدی از محتوای اسناد برای فرایند تحلیل احساسات و عقاید مهیا کرده و دقت طبقهبندی را افزایش دهند. مجموعه خصیصههای پیشنهادی در شکل ۳-۵ قابل مشاهده هستند. در اغلب تحقیقات گذشته برای مدلسازی متن تنها از خصیصههای unigram استفاده شده است و گاهی ترکیبی از Unigram و bigram را بکار بردهاند. به این دلیل که خصیصههای bigram به تنهایی عملکرد بدتری نسبت به unigram دارند به طور کلی خصیصههای N-gram با n بزرگتر عملکرد بدتری نسبت به خصیصههای با n کوچکتر دارند. این عملکرد بد به دلیل غیر مرتبط بودن و غیر مفید بودن این مجموعه خصیصههای نیست، بلکه دلیل پراکندگی آنها است، با بزرگتر شدن n پراکندگی این خصیصهها نیز بیشتر میشود که خود عاملی بر زیاد شدن تعداد خصیصهها، کاهش دقت طبقهبندی و افزایش زمان اجرا خواهد بود. زبان طبیعی ما کلمات هم معنای زیادی در خود دارد که قابلیت استفاده بجای یکدیگر را دارند، استفاده از کلمات هم معنا در عبارات باعث ایجاد این پراکندگی میشود. این پراکندگی نه تنها برای خصیصههای N-gram با n > 1 مطرح است بلکه برای خصیصههای ۱-gram نیز مطرح است. جدول ۳-۳ مثالی را از پراکندگی خصیصههای unigram نشان میدهد. همانطور که در جدول ۳-۳ میبینیم برای کلمه great_JJ (کلمه great با ادات سخن صفت) ۱۵ کلمه هم معنا قابل استفاده است
جدول ۳-۳ کلمات هم معنای great : این کلمات از Wordnet استخراج شدهاند. این کلمات در یکی از ۷ معنای متفاوت great در نقش صفت با آن هم معنا هستند.
Great_JJ
Smashing
slap-up
Peachy
Not bad
Nifty
neat
keen
groovy
swell
dandy
dandy
cracking
corking
bully
bang-up
کاربران متفاوت بجای استفاده از کلمه great از هر کدام از معادلهای معنایی آن نیز میتوانند استفاده کنند، این امر باعث ایجاد پراکندگی در خصیصههای unigram میشود.
در روش پیشنهادی دوم پراکندگی خصیصههای unigram مورد توجه قرار گرفته است و تلاش کردیم راه حلی برای این مشکل ارائه دهیم. شکل ۳-۶ شمای کلی روش دوم را نشان میدهد. برای حل کردن مشکل پراکندگی در کلمات unigram الگوریتم Document_to_Model تغییراتی را ایجاد کردیم.
Algorithm 2 Documents_To_model2
فرم در حال بارگذاری ...
[پنجشنبه 1400-09-25] [ 03:03:00 ق.ظ ]
|