پاورپوینت بازشناسي گفتار (Speech Recognition) (pptx) 28 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 28 اسلاید
قسمتی از متن PowerPoint (.pptx) :
بنام خدا
بازشناسي گفتار (Speech Recognition)
بازشناسي گفتار (Speech Recognition)
تشخيص گفتار انسان توسط ماشين و تبديل آن به متن يا دستورالعمل معادل
نكات مطرح در بازشناسي گفتار
تعداد كلمات مورد بازشناسي
پيوسته يا گسسته بودن اداي كلمات
وابستگي يا استقلال از گوينده
بازشناسي گفتار
يک سيستم بازشناسي کامل :
قادر به بازشناسي گفتار پيوسته و محاورهاي باشد.
گفتار افراد مختلف، حتي با لهجههاي متفاوت را بازشناسي نمايد.
در محيطهاي شلوغ و نويزي هم جوابگو باشد.
بصورت بلادرنگ عمل کند.
قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد.
سيستمهاي کاربردي امروزي:
گفتار بايستي به صورت کتابي باشد.
گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجهها منجر به کاهش کارايي ميشود.
استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها ميشود.
اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند.
سيستمهاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده ميکنند.
بازشناسي گفتار
انواع سيستم هاي بازشناسي گفتار بر اساس تعداد كلمات
واژگان کوچک(Small Vocabulary): 1 تا 100 کلمه
واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه
واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه
واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000 کلمه
انواع سيستم هاي بازشناسي گفتار بر اساس وابستگي يا استقلال از گوينده
وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده خاص پاسخ ميدهد.
مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ ميدهد.
بازشناسي گفتار
انواع بازشناسي گفتار بر اساس پيوسته يا گسسته بودن كلمات
بازشناسي کلمات مجزا (IWR: Isolated Word Recognition)
گفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه
بازشناسي گفتار متصل (Connected Word Recognition)
دنبالهاي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل شامل چند کلمه با سکوت در بين کلمات
بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition)
گفتار به صورت ديکته کتابي و روان
بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech Recognition)
گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکثهاي طولاني و ... است.
بازشناسي گفتار: واحد آوايي
واحد آوايي: واحدي از زبان كه در بازشناسي گفتار مورد مدلسازي قرار مي گيرد مانند كلمه (word)، واج (phoneme)، هجا (syllable)، واحدهاي وابسته به بافت (context dependent) و ...
در بازشناسي گفتار براي هر واحد آوايي يك مدل (آوايي) آكوستيك تشكيل مي شود.
واحد آوايي بسته به نوع بازشناسي گفتار (پيوسته يا گسسته، با واژگان كوچك يا بزرگ) انتخاب مي گردد.
واحد آوايي براي بازشناسي گفتار با واژگان كوچك معمولاً كلمه است.
براي بازشناسي گفتار پيوسته با واژگان بزرگ معمولاً واج ها به عنوان واحد آوايي انتخاب مي گردند.
بازشناسي گفتار
بازشناسي گفتار با رويکرد تشخيص الگو
با فرض داشتن دنباله آكوستيك A، دنباله كلمات W را طوري پيدا كنيد كه P(W|A) ماكزيمم شود.
با استفاده از قانون بيز:
P(A|W): احتمال مشاهده دنباله آكوستيك A به شرط مشاهده دنباله كلمات W ← با استفاده از مدل آوايي (آكوستيك) محاسبه مي شود.
P(W): احتمال رخداد دنباله كلمات W در زبان ← با استفاده از مدل زباني به دست مي آيد.
بازشناسي گفتار
بازشناسي گفتار داراي دو فاز آموزش (Train) و آزمون (Test) مي باشد.
آموزش: مدل هاي آكوستيك و زباني با استفاده از داده هاي آموزشي تشكيل مي شوند.
آموزش مدل آكوستيك: با استفاده از مجموعه اي از داده هاي گفتاري، الگوهاي مربوط به واحدهاي آوايي (مانند کلمه، واج و ...) مدلسازي ميشوند.
آموزش مدل زباني: با استفاده از مجموعه اي از داده هاي متني، پارامترهاي مدل زباني (مثلاً احتمالات n-gram) استخراج مي شود.
آزمون (استفاده): مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود در گفتار ورودي