مطالب در رابطه با : استخراج ویژگی زمانی- فرکانسی ... |
فصل سوم : روش های استخراج ناحیه دهان و سیستمهای تشخیص
۳-۱ مقدمه
طبق آنچه که در قسمت های قبل بیان کردیم روشهای مختلفی برای استخراج ویژگی وجود دارد. ویژگیهایی چون پهنای دهان، ارتفاع دهان، ارتفاع و پهنای لب بالایی و لب پایینی، گشودگی افقی و یا عمودی دهان، زوایههای گشودگی عمودی و افقی، زاویه بین نقاط گوشه چپ و راست لب، فاصله عمودی نقاط روی مرز لب، ویژگیهای حرکت لب، ضرایب تبدیل کسینوسی گسسته، هیستوگرام، فواصل شعاعی یا همان فاصله نقاط روی مرز از مرکز دهان و همچنین، ویژگیهایی که همیشه قابل رؤیت نیستند همچون ارتفاع زبان زیر لب بالایی، ارتفاع زبان بالای لب پایینی، ارتفاع زبان بین دندانها، ارتفاع دندانهای بالایی و پایینی را میتوان نام برد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
دقت استخراج ویژگیهای لب برای شناسایی مهم میباشد. یکی از عمومیترین روشها برای استخراج ویژگی استفاده از مقادیر سطح خاکستری و آشکارسازی لبه است. اما این روشها به دلایلی همچون وجود سبیل و ریش ضعیف کار می کنند. روش دیگر استفاده از لبههای افقی است که توسط کانوال[۷۱] تصویر با عملگر لبه Dy میباشد چون ناحیه دهان در جهت افقی مقدار لبه بزرگتری دارد. سپس تصویر نتیجه آستانهگذاری می شود که این روش نیز نتایج قابل قبولی نخواهد داشت. به همین دلیل به سراغ طیف رنگی رفته و با مولفههای رنگی به شناسایی ناحیه لب پرداخته شده است.
رابطه (۳-۱)
۳-۲ آشکارسازی ناحیه لب
۳-۲-۱ آنالیز ترکیب رنگ لب وپوست
در فضای رنگی[۷۲] RGB ، پیکسلهای پوست و لب مؤلفه های کاملاً متفاوتی دارند. برای هردو مؤلفه قرمز یکسان است، در ترکیب رنگ پوست مؤلفه سبز نسبت به آبی بزرگتر است و برای لبها این دو مؤلفه تقریباً یکسان میباشد. اختلاف بین مؤلفه قرمز و سبز برای لبها نسبت به پوست بزرگتر میباشد. در [۲۹] یک تعریف شبه رنگی بیان شده که این اختلاف را نشان میدهد و به صورت زیر محاسبه می شود.
رابطه (۳-۲ )
R ,G به ترتیب مؤلفه های سبز و قرمز هستند.
در [۳۰] از معادله زیر برای شناسایی پیکسلهای لب استفاده شده است.
رابطه (۳-۳)
Llim , Ulim بیشترین و کمترین آستانهای هستند که مقدار مؤلفه قرمز به سبز از پیکسلهای لب را تعریف می کنند. بعد از حذف برخی از پیکسلهای نادرست و انجام عملیات شکلی[۷۳] (گشودن[۷۴] و بستن[۷۵]) تصویر نتیجه به صورت زیر به دست آمده است. در این روش گوشههای افقی لب شناسایی شده است.
شکل ۳-۱ نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب
۳-۲-۲ رنگ[۷۶] و اشباع[۷۷] و شدت روشنایی[۷۸] (HSV)
فضای رنگی (HSV) روشنایی را از رنگ جدا میسازد بطوریکه تغییرات در روشنایی سبب تغییر زیادی در رنگ نخواهد شد. در [۳۲],[۳۱] مقادیر رنگ (Hue) برای محاسبه پیکسلهای لب استفاده شده است. هردو الگوریتم مشابهی را برای محاسبه احتمال اینکه پیکسل مربوط به لب باشد استفاده کرده اند که به صورت زیر بیان شده است.
رابطه (۳-۴)
که این روش در شرایط ایدهآل مناسب است و به خوبی برای تصاویر متفاوت و در شرایط مختلف عمل نمیکند.
۳-۲-۳ حذف مؤلفه قرمز
این روش از مقادیر رنگ سبز و آبی استفاده و از نسبت مؤلفه سبز به آبی، ناحیه لب یافت شده است. برای این کار ابتدا تصویر با یک فیلتر گوسی[۷۹] برای حذف نویز کانوال و سپس لگاریتم نسبت رنگ سبز به آبی محاسبه می شود.
رابطه (۳- ۵)
در واقع برقرار بودن نامساوی رابطه (۳- ۵) تعلق یا عدم تعلق هر پیکسل از تصویر را به لب تعیین می کند. در [۳۳] از این روش استفاده شده است که مقدار (σ-۱٫۰۵*μ)= β تعریف شده است که σ انحراف استاندارد و μ میانگین مطابق با دادهی آماری هستند.
از تبدیلات رنگی دیگری نیز برای یافتن ناحیه لب استفاده شده است که در [۲۹] , [۳۳] به ترتیب از روابط زیر استفاده شده است.
رابطه (۳-۶)
رابطه (۳- ۷) که L(x,y) مقدار روشنایی است و (a,b) = (0.4,0.8) در نظر گرفته شده است.
۳-۲-۴ الگوریتم کا- مینز
این الگوریتم در سال ۱۹۶۷ توسط مک کوئین[۸۰] معرفی شد که داده ها را به k خوشه مجزا با مقدار متوسط Cj تقسیم بندی می کند و به صورت زیر بیان می شود:
k مرکز اولیه C1 , C2 ,……., CK برای k خوشه از میان داده های ورودی (x) بر اساس قاعده دلخواهی انتخاب می شود. که می تواند تصادفی یا بر اساس توزیع دادهها باشد.
در n امین مرحله معین می شود که هر داده متعلق به کدام خوشه است که بر اساس معیار نزدیک بودن داده به مرکز خوشه میباشد.
مقدار متوسط داده های اختصاص یافته به هر خوشه در مرحله n محاسبه شده و مقدار به دست آمده به عنوان مرکز جدید خوشه در مرحله n+1 در نظر گرفته می شود.
دو مرحله قبل آنقدر تکرار می شود تا دیگر محل همه مراکز خوشه ها نسبت به مرحله قبل تغییر چندانی نکند. در نهایت کیفیت خوشهبندی توسط تابع خطایی محاسبه میگردد. که مقدار این خطا برابر مجموع مربع خطای هر داده تا مرکز خوشه خود میباشد که میران خطا به تعداد خوشه ها بستگی دارد. مهمترین مسئله در این روش تعیین بهینه تعداد خوشه ها و مقدار اولیه مراکز خوشه ها میباشد. در [۲۷] از این روش برای جداسازی ناحیه دهان استفاده شده است.
۳-۲-۴-۱ پیاده سازی الگوریتم
در این روش با توجه به اینکه هدف جداسازی ناحیه دهان از ناحیه غیر دهان میباشد تعداد خوشه ها برابر با ۲ و مقادیر اولیهای برای مرکز این دو خوشه در نظر گرفته می شود. روند ناحیهبندی بدین صورت انجام گرفته که از پیکسل (۱و۱) تصویر شروع به بررسی شده و فاصله هر پیکسل تا دو مرکز انتخاب شده محاسبه می شود. اگر فضای رنگ انتخابی سطح خاکستری باشد داده به مرکزی تعلق دارد که فاصله سطح خاکستری آن پیکسل تا سطح خاکستری مرکز نسبت به سطح خاکستری مرکز دیگر، کمتر باشد. این روند برای تمامی پیکسلهای تصویر انجام میگیرد و سپس با متوسطگیری روی سطح خاکستری پیکسلهای تخصیص یافته روی هر خوشه، مراکز جدید دو خوشه محاسبه میگردد و روند فوق آنقدر تکرار شده تا شرایط پایانی کا- مینز برقرار شود.
۳-۲-۵ شدت روشنایی و باینری کردن
یکی از سادهترین روشها برای جداسازی لب از سایر قسمت ها استفاده از آستانهای مناسب است که با این روش میتوان به تصاویری باینری شده دست یافت. در این صورت با تعیین مقدار آستانه مشخص میتوان مقدار پیکسلهایی که شدت روشنایی آنها از مقدار آستانه بیشتر است را برابر یک و آنهایی که شدت روشنایی آن ها از این آستانه کمتر است را برابر صفر قرار دهیم. البته باید توجه داشت که این روش به طور کامل قادر به جداسازی لب نخواهد بود.
۳-۲-۶ روشهای ترکیبی
یکی دیگر از کارهایی که برای جداسازی لب از سایر قسمت های صورت میتوان انجام داد استفاده از ادغام روشهای بیان شده در قسمت های قبل است. در [۲۷] روشی ترکیبی برای جداسازی ناحیه لب ارئه شده است. در این تحقیق از سه روش الگوریتم حذف قرمز و کا- مینز و روش باینری کردن استفاده شده و بعد برای ترکیب نتایج حاصل بین نواحی تشخیص داده شده توسط این الگوریتمها دو به دو اجتماع گرفته شده و سپس نتایج حاصل از این عمل برچسبگذاری شده و در نهایت با مقایسه مساحتها خروجی تعیین می شود.
شکل ۳-۲ الگوریتم جداسازی ناحیه لب
برای شناسایی دیداری از ویژگیهایی همچون ارتفاع و پهنای دهان و زاویه گشودگی افقی و عمودی دهان استفاده شده است. عملکرد هریک از این ویژگیها به صورت مستقل و ترکیبی بررسی شده و مشخص شده که استفاده همزمان از مؤلفه زاویه گشودگی افقی دهان به همراه ارتفاع و پهنای دهان بهترین امکان جداسازی بین سیلابها را ایجاد کرده و بنابراین بعد از جداسازی سیلابها به تشخیص مصوت پرداخته شده است. شبکه عصبی دو لایه با ۲۵ نرون میانی و ۶ نرون خروجی متناظر با تعداد کلاسها به کار گرفته شده و برای آموزش از روش [۸۱]RPROP استفاده شده است. یک بار آموزش و تست فقط بر روی زاویه های گشودگی افقی و بار دوم همزمان بر روی زاویه های گشودگی افقی و عمودی انجام شده و پس از انجام این مرحله و وزندهی خروجیها و تعیین ماکزیمم به عنوان خروجی، مصوت موجود در سیلاب تعیین گردیده است.
استفاده از هر یک از این روشها و استخراج ناحیه لب باعث کاهش ابعاد و پیچیدگیها و عملکرد بهتر ویژگیها و در نتیجه افزایش دقت شناسایی خواهد شد بنایراین بعد از استخراج این ناحیه بهتر است ویژگیهای مد نظر از آن استخراج شوند.
۳-۳ روشهای کلاسهبندی و شناسایی
برای شناسایی دیداری صحبت روشهای مختلفی همچون مدل مخفی مارکوف( HMM) ، شبکه های عصبی (NN) [۸۲] و نزدیکترین همسایگی (K-NN) [۸۳] ، آنالیز مجزاساز خطی (LDA) [۸۴]را میتوان نام برد. در [۵] ترکیبی از مدل مخفی مارکوف و MLP استفاده شده است. [۹] ، [۱۰] ، [۱۱] ، [۱۲]،[۱۸] ، [۲۰] و [۲۱] مدل مخفی مارکوف، [۱۶] و [۳۴] ,[۲۷] شبکه عصبی و در [۳۵] از ماشین بردار پشتیبان[۸۵] استفاده شده است.
۳-۳-۱ شبکه عصبی
فرم در حال بارگذاری ...
[چهارشنبه 1400-09-24] [ 10:56:00 ب.ظ ]
|