فصل سوم : روش های استخراج ناحیه دهان و سیستم­های تشخیص
۳-۱ مقدمه
طبق آن­­چه که در قسمت­ های قبل بیان کردیم روش­های مختلفی برای استخراج ویژگی وجود دارد. ویژگی­هایی چون پهنای دهان، ارتفاع دهان، ارتفاع و پهنای لب بالایی و لب پایینی، گشودگی افقی و یا عمودی دهان، زوایه­های گشودگی عمودی و افقی، زاویه بین نقاط گوشه چپ و راست لب، فاصله عمودی نقاط روی مرز لب، ویژگی­های حرکت لب، ضرایب تبدیل کسینوسی گسسته، هیستوگرام، فواصل شعاعی یا همان فاصله نقاط روی مرز از مرکز دهان و همچنین، ویژگی­هایی که همیشه قابل رؤیت نیستند همچون ارتفاع زبان زیر لب بالایی، ارتفاع زبان بالای لب پایینی، ارتفاع زبان بین دندان­ها، ارتفاع دندان­های بالایی و پایینی را می­توان نام برد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

دقت استخراج ویژگی­های لب برای شناسایی مهم می­باشد. یکی از عمومی­ترین روش­ها برای استخراج ویژگی استفاده از مقادیر سطح خاکستری و آشکارسازی لبه است. اما این روش­ها به دلایلی همچون وجود سبیل و ریش ضعیف کار می­ کنند. روش دیگر استفاده از لبه­های افقی است که توسط کانوال[۷۱] تصویر با عملگر لبه Dy می­باشد چون ناحیه دهان در جهت افقی مقدار لبه بزرگتری دارد. سپس تصویر نتیجه آستانه­گذاری می­ شود که این روش نیز نتایج قابل قبولی نخواهد داشت. به همین دلیل به سراغ طیف رنگی رفته و با مولفه­های رنگی به شناسایی ناحیه لب پرداخته شده است.
رابطه (۳-۱)
۳-۲ آشکارسازی ناحیه لب
۳-۲-۱ آنالیز ترکیب رنگ لب وپوست
در فضای رنگی[۷۲] RGB ، پیکسل­های پوست و لب مؤلفه­ های کاملاً متفاوتی دارند. برای هردو مؤلفه قرمز یکسان است، در ترکیب رنگ پوست مؤلفه سبز نسبت به آبی بزرگتر است و برای لب­ها این دو مؤلفه تقریباً یکسان می­باشد. اختلاف بین مؤلفه قرمز و سبز برای لب­ها نسبت به پوست بزرگتر می­باشد. در [۲۹] یک تعریف شبه رنگی بیان شده که این اختلاف را نشان می­دهد و به صورت زیر محاسبه می­ شود.
رابطه (۳-۲ )
R ,G به ترتیب مؤلفه­ های سبز و قرمز هستند.
در [۳۰] از معادله زیر برای شناسایی پیکسل­های لب استفاده شده است.
رابطه (۳-۳)
Llim , Ulim بیشترین و کمترین آستانه­ای هستند که مقدار مؤلفه قرمز به سبز از پیکسل­های لب را تعریف می­ کنند. بعد از حذف برخی از پیکسل­های نادرست و انجام عملیات شکلی[۷۳] (گشودن[۷۴] و بستن[۷۵]) تصویر نتیجه به صورت زیر به دست آمده است. در این روش گوشه­های افقی لب شناسایی شده است.

شکل ۳-۱ نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب
۳-۲-۲ رنگ[۷۶] و اشباع[۷۷] و شدت روشنایی[۷۸] (HSV)
فضای رنگی (HSV) روشنایی را از رنگ جدا می­سازد بطوریکه تغییرات در روشنایی سبب تغییر زیادی در رنگ نخواهد شد. در [۳۲],[۳۱] مقادیر رنگ (Hue) برای محاسبه پیکسل­های لب استفاده شده است. هردو الگوریتم مشابهی را برای محاسبه احتمال اینکه پیکسل مربوط به لب باشد استفاده کرده ­اند که به صورت زیر بیان شده است.

رابطه (۳-۴)
که این روش در شرایط ایده­آل مناسب است و به خوبی برای تصاویر متفاوت و در شرایط مختلف عمل نمی­کند.
۳-۲-۳ حذف مؤلفه قرمز
این روش از مقادیر رنگ سبز و آبی استفاده و از نسبت مؤلفه سبز به آبی، ناحیه لب یافت شده است. برای این کار ابتدا تصویر با یک فیلتر گوسی[۷۹] برای حذف نویز کانوال و سپس لگاریتم نسبت رنگ سبز به آبی محاسبه می­ شود.
رابطه (۳- ۵)
در واقع برقرار بودن نامساوی رابطه (۳- ۵) تعلق یا عدم تعلق هر پیکسل از تصویر را به لب تعیین می­ کند. در [۳۳] از این روش استفاده شده است که مقدار (σ-۱٫۰۵*μ)= β تعریف شده است که σ انحراف استاندارد و μ میانگین مطابق با داده­ی آماری هستند.
از تبدیلات رنگی دیگری نیز برای یافتن ناحیه لب استفاده شده است که در [۲۹] , [۳۳] به ترتیب از روابط زیر استفاده شده است.
رابطه (۳-۶)
رابطه (۳- ۷) که L(x,y) مقدار روشنایی است و (a,b) = (0.4,0.8) در نظر گرفته شده است.
۳-۲-۴ الگوریتم کا- مینز
این الگوریتم در سال ۱۹۶۷ توسط مک کوئین[۸۰] معرفی شد که داده ها را به k خوشه مجزا با مقدار متوسط Cتقسیم ­بندی می کند و به صورت زیر بیان می­ شود:
k مرکز اولیه C1 , C2 ,……., CK برای k خوشه از میان داده ­های ورودی (x) بر اساس قاعده دلخواهی انتخاب می­ شود. که می تواند تصادفی یا بر اساس توزیع داده­ها باشد.
در n امین مرحله معین می­ شود که هر داده متعلق به کدام خوشه است که بر اساس معیار نزدیک بودن داده به مرکز خوشه می­باشد.
مقدار متوسط داده ­های اختصاص یافته به هر خوشه در مرحله n محاسبه شده و مقدار به دست آمده به عنوان مرکز جدید خوشه در مرحله n+1 در نظر گرفته می­ شود.
دو مرحله قبل آنقدر تکرار می­ شود تا دیگر محل همه مراکز خوشه ­ها نسبت به مرحله قبل تغییر چندانی نکند. در نهایت کیفیت خوشه­بندی توسط تابع خطایی محاسبه می­گردد. که مقدار این خطا برابر مجموع مربع خطای هر داده تا مرکز خوشه خود می­باشد که میران خطا به تعداد خوشه ­ها بستگی دارد. مهم­ترین مسئله در این روش تعیین بهینه تعداد خوشه ­ها و مقدار اولیه مراکز خوشه ­ها می­باشد. در [۲۷] از این روش برای جداسازی ناحیه دهان استفاده شده است.
۳-۲-۴-۱ پیاده سازی الگوریتم
در این روش با توجه به اینکه هدف جداسازی ناحیه دهان از ناحیه غیر دهان می­باشد تعداد خوشه ­ها برابر با ۲ و مقادیر اولیه­ای برای مرکز این دو خوشه در نظر گرفته می­ شود. روند ناحیه­بندی بدین صورت انجام گرفته که از پیکسل (۱و۱) تصویر شروع به بررسی شده و فاصله هر پیکسل تا دو مرکز انتخاب شده محاسبه می­ شود. اگر فضای رنگ انتخابی سطح خاکستری باشد داده به مرکزی تعلق دارد که فاصله سطح خاکستری آن پیکسل تا سطح خاکستری مرکز نسبت به سطح خاکستری مرکز دیگر، کمتر باشد. این روند برای تمامی پیکسل­های تصویر انجام می­گیرد و سپس با متوسط­گیری روی سطح خاکستری پیکسل­های تخصیص یافته روی هر خوشه، مراکز جدید دو خوشه محاسبه می­گردد و روند فوق آنقدر تکرار شده تا شرایط پایانی کا- مینز برقرار شود.
۳-۲-۵ شدت روشنایی و باینری کردن
یکی از ساده­ترین روش­ها برای جداسازی لب از سایر قسمت ­ها استفاده از آستانه­ای مناسب است که با این روش می­توان به تصاویری باینری شده دست یافت. در این صورت با تعیین مقدار آستانه مشخص می­توان مقدار پیکسل­هایی که شدت روشنایی آن­ها از مقدار آستانه بیشتر است را برابر یک و آن­هایی که شدت روشنایی آن ها از این آستانه کمتر است را برابر صفر قرار دهیم. البته باید توجه داشت که این روش به طور کامل قادر به جداسازی لب نخواهد بود.
۳-۲-۶ روش­های ترکیبی
یکی دیگر از کارهایی که برای جداسازی لب از سایر قسمت­ های صورت می­توان انجام داد استفاده از ادغام روش­های بیان شده در قسمت­ های قبل است. در [۲۷] روشی ترکیبی برای جداسازی ناحیه لب ارئه شده است. در این تحقیق از سه روش الگوریتم حذف قرمز و کا- مینز و روش باینری کردن استفاده شده و بعد برای ترکیب نتایج حاصل بین نواحی تشخیص داده شده توسط این الگوریتم­ها دو به دو اجتماع گرفته شده و سپس نتایج حاصل از این عمل برچسب­­گذاری شده و در نهایت با مقایسه مساحت­ها خروجی تعیین می­ شود.

شکل ۳-۲ الگوریتم جداسازی ناحیه لب
برای شناسایی دیداری از ویژگی­هایی همچون ارتفاع و پهنای دهان و زاویه گشودگی افقی و عمودی دهان استفاده شده است. عملکرد هریک از این ویژگی­ها به صورت مستقل و ترکیبی بررسی شده و مشخص شده که استفاده همزمان از مؤلفه زاویه گشودگی افقی دهان به همراه ارتفاع و پهنای دهان بهترین امکان جداسازی بین سیلاب­ها را ایجاد کرده و بنابراین بعد از جداسازی سیلاب­ها به تشخیص مصوت پرداخته شده است. شبکه عصبی دو لایه با ۲۵ نرون میانی و ۶ نرون خروجی متناظر با تعداد کلاس­ها به کار گرفته شده و برای آموزش از روش [۸۱]RPROP استفاده شده است. یک بار آموزش و تست فقط بر روی زاویه­ های گشودگی افقی و بار دوم همزمان بر روی زاویه­ های گشودگی افقی و عمودی انجام شده و پس از انجام این مرحله و وزن­دهی خروجی­ها و تعیین ماکزیمم به عنوان خروجی، مصوت موجود در سیلاب تعیین گردیده است.
استفاده از هر یک از این روش­ها و استخراج ناحیه لب باعث کاهش ابعاد و پیچیدگی­ها و عملکرد بهتر ویژگی­ها و در نتیجه افزایش دقت شناسایی خواهد شد بنایراین بعد از استخراج این ناحیه بهتر است ویژگی­های مد نظر از آن استخراج شوند.
۳-۳ روش­های کلاسه­بندی و شناسایی
برای شناسایی دیداری صحبت روش­های مختلفی همچون مدل مخفی مارکوف( HMM) ، شبکه ­های عصبی (NN) [۸۲] و نزدیک­ترین همسایگی (K-NN) [۸۳] ، آنالیز مجزاساز خطی (LDA) [۸۴]را می­توان نام برد. در [۵] ترکیبی از مدل مخفی مارکوف و MLP استفاده شده است. [۹] ، [۱۰] ، [۱۱] ، [۱۲]،[۱۸] ، [۲۰] و [۲۱] مدل مخفی مارکوف، [۱۶] و [۳۴] ,[۲۷] شبکه عصبی و در [۳۵] از ماشین بردار پشتیبان[۸۵] استفاده شده است.
۳-۳-۱ شبکه عصبی

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...