۱۳۸۹ اردیبهشت ۲۵, شنبه

تكنولوژي تشخيص گفتار Speech Recognition

مزيت استفاده از تكنولوژي تشخيص گفتار ( Speech recognition ) اينست كه سد ارتباطي ما بين آدمي و ماشينها را ميشكند گذشته از  dراحتي بيان گفتار زواياي ديگري در ارتباط با كامپيوتر به ارمغان مي آورد . يكي از مزايا سرعت مي باشد گفتار همچنين مي تواند بعضي از محدوديت ها ي ويزيكي ارتباط با كامپيوترها را از ميان بردارد به وسيله ي گفتار مي توان كامپيوتر را در تاريكي و يا بدون نشستن در جلوي صفحه ي كليد كنترل كرد .
حدود 40 سال از زمان در دسترس بودن سخت افزاري كه بتواند تحليل طيفي سيگنال هارا انجام دهد مي گذرد تحقيقات اوليه بر روي سيستم تشخيص گفتار براي تحقق دو هدف انجام گرفت : يكي از آنها تبديل سيگنال هاي صدا به كركترهاي نوشتاري (typewriter مبتني بر صدا) و ديگري انجام دستور العمل هاي ماشيني به وسيله ي صدا .كامپيوتر ها همچنين وسيلهي راحتي براي اعمال تكنيك هاي پردازش سيگنال هاي ديجيتالي و اجراي الگوريتم هاي تشخيص فراهم كرده اند .
در طي دو دهه تحقيق و ترقي ابعاد مهم زير در مورد مشخصات سيستم هاي تشخيص گفتار به ثبت :
1-وابستگي به گوينده در برابر مستقل بودن از گوينده(dependence vs.speaker-independence speaker) يك سيستم وابسته به گوينده براي تشخيص صداي يك شخص تعليم داده مي شود.
2-لغات براي گفتار پيوسته (descrete speech-word vs.continous-) يك سيستم گسسته (جدا از هم isolated-word) براي تشخيص به توافق در بين لغات احتياج دارد.اولين تشخيص دهنده گفتار بر اساس لغات جدا از هم با استفاده از كامپيوتر ديجيتالي در اوائل سال 1960 ساخته شد. تكمولوژي كنوني به سطحي رسيده است كه سيستم هاي تشخيص گفتار با استفاده از تكنيكهاي تطابق براساس لغتهاي جدا از هم و وابسته به گوينده براي تعداد لغات محدود در حال حاضر در فروشگا هها ،صنايع و ادارات مورد استفاده واقع مي شود.
از سيستم هاي تشخيص گفتار در زمينه هاي مختلف استفاده مي شود كخ چند نمونه از آن را ذكر مي كنيم:
كاربرد هاي جالب شامل ادغام تكنولوژي صدا با تلفن ، رابطههاي تصويري ،پست صدايي و مانند اينها. كاربرد موفق ديگر ارتباط صوتي در كنترل سيستمهاي روباتيك مي باشد. و در بعضي كاربردها ، مانند ديكته گفتن ، شماره گرفتن از طريق صدا ، و وارد كرد ن اطلاعات كافي است . سيستم عملياتي كه از قبيل تععين شده است را انجام دهد. ( مثلاً در مورد ديكته گفتن فقط كافي است كلمات تشخيص داده شده را تايپ كند).
1.4-سيگنالهاي صوتي
سيگنالهاي صوتي حاوي اطلاعات مي باشند و آنچه كه ما در پردازش كامپيوتري گفتار به آن علاقه منديم انتقال اين اطلاعات مي باشد. اين مهم آنطور كه بنظر مي رسد ساده نيست. زيرا سيگنال صوتي حداقل سه نوع مختلف از اطلاعات را در بر دارد. مهمترين اينها اطلاعات مربوط به زبان مي باشد.اين نوعي از اطلاعات است كه عموماً به عنوان معني كلمه ادا شده تلقي مي شود. در عين حال نبايد اين حقيقت را ناديده گرفت كه اداي يك كلمه اطلاعات اجتماعي –زباني را هم در بردارد و به اطلاعاتي راجع به ناحيه و طبقه اجتماعي گوينده مي دهد.گذشته از اين موارد،اداي يك كلمه اطلاعات شخصيتي در مورد گوينده را نيز در بر دارد.
اين سه نوع اطلاعات بطور خيلي پيچيده اي در سيگنال صوتي با هم ادغام شده اند.
سيگنالهاي صوتي بر اساس شكل حنجره و شكل داخلي دهان ، از نظر دامنه و فركانس متغيير بوده و به پارامتر هايي نظير مساحت دهانه لب در هنگام اداي كلمه ، مينيمم مساحت در اداي دو كلمه “father” و “head” در اولين كلمه فاصله دهانه حنجره تا نقطه مينيمم مساحت كمتر است.
منبع توان در تقريباً همه صداها فشار هماي خارج شده از ششها توسط سسيستم تلفني مي باشد . جريان همادي خارج شده از ششها از ميان تارهاي صوتي( كه دو ماهيچه كوچك تابيده شده واقع در حنجره در بالاي ناي مي باشد) عبور مي كند.فاصله بين تارهاي صوتي ، دهانه حنجره ناميده مي شود.
تارهاي صوتي بطور طبيعي جدا از هم مي باشند (منظور زمان بازدم است) در اين حالت هواي خارج شده از ششها عبور نسبتاً آزادي به داخل حلق و دهان خواهد داشت.زماني كه تارهاي صوتي به گونه اي قرار گيرند كه محل عبور باريكي بين آنها بوجود آيد.جريان هوا باعث مي شود كه به طرف يكديگر مكيده شوند.هنگامي كه تارها ي صوتي به يكديگر مي چسبند.جريان هوا ديگر وجود نخواهد داشت و فشارهواي پايين آنها تا موقعي كه دوباره به طرف هم مكيده شوند و سيكل ارتعاشات تكرار مي شود. صداهاي توليد شده در زمان نوسان تارهاي صوتي،اصوات با صا گفته مي شوند.
در مقابل اصوات با صدا، صداهايي وجود دارند كه در آنها تارهاي صوتي جدا از هم مي باشند و به اصوات بي صدا معروفند. در تشكيل حروف بي صدا(consonants) جريان هواي عبوري از ميان تارهاي صوتي بطريقي مسدود مي شوند.
حروف بيصدا بر اساس محل و حالت لين مسدوديت طبقه بندي مي شوند. برخي از محلهاي ممكن براي اين مسدوديت در شكل زير بصورت فلشهايي نمايش داده شده است. اين نقاط در زبانهاي مختلف كمي جابجا مي شوند.
مدل زير بر اساس طرز عمل سيستم صوتي انسان پيشنهاد مي شود:





















بر اساس اين مدل براي اصوات با صدا و بي صدا دو منبع صوتي جداگانه در نضر گرفته شده است . براي اصوات با صدا منبع صوتي پريوديك كه قركانس آن بر حسب نوع حرف با صدا تنظيم مي شود، در نظر گرفته مي شود و براي اصوات بي صدا منبع نويز سفيد بكار مي رود. مجموعه سيستم صوتي انسان ، شامل حنجره ، ناي ، زبان و غيره فيلتر ميان گذر بافركانس قطع متغيري را تشكيل مي دهد كه اصوات توليد شده توسط منابع صوتي را فيلتر مي كند.
2.4- طيف صوتي
بررسي طيف انسانها نشان داده است كه طيف صوتي جنس مذكر از نظر چگالي طيفي توان سگنالها ي صوتي با طيف جنس مؤنث اختلاف دارد و اين اختلاف در حروف با صدا مشهودتر است.
4 .3پهناي باند و نمونه برداري از سيگنالهاي صوتي
يك پارامتر مهم در تحليل گفتار (SPEECH ANALYSIS) رديف (RANGE) فركانسي يا پهناي باند گفتار مي باشد. پهناي باند در حدود 20 كيلو هرتز بهترين پاسخ را به ما مي دهد.در پرداطش گفتار اغلب پهناي باندي در حدود 4 تا 5 كيلو هرتزتحميل مي شود.اين پهناي باند براي هجا هاي با صدا كاملاً مناسب و براي هجا هاي بي صدا در حد معقولي مي باشد.
4 .4 –سرعت نمونه برداري
پارامتر مهم ديگر مربوط به پردازش گفتار (SPEECH PROCESSING) سرعت نمونه برداري مي باشد.در هر پردازش ديجيتالي شكل موج اوليه مانند صوت ، يك كميت آنالوگ پيوسته مانند (T) X مي باشد ، اما از آنجايي كه يك كامپيوتر عملياتش را بر روي كميت هاي گسسته انجام مي دهد ، كميت آنالوگ بايد بوسيله يك مبدل آنالوگ به ديجيتال (ADC) نمونه برداري شده و به كميت هاي گسسته تبديل شود. بدين صورت كه سيگنال آنالوگ X(T) به مجموعه اي از مقادير گسسته X(2T) ،X(T) ، X(0) و... با سرعت 1/T نمونه در هر ثانيه نمونه برداري مي شود.

عموماً T را حذف كرده و اين مجموعه را بصورت ...،X(N) ،... ،X(2) ،X(1) ،X(0) با دامنه هاي X(N) توصيف مي كنند .
بين سرعت نمونه براري و پهناي باند سيگنال ، ارتباط مهمي و جود دارد .اگر يك سيگنال باند محدود كه مؤلفه هاي فركانسي آن در بالاي فركانس صفر مي باشند. با سرعت نمونه برداري شود ، اثبات مي شود كه طيف سيگنال نمونه برداري شده ، پريود يك با فركانس مي باشد.
در نمونه برداري با سرعت زياد ، مؤلفه هاي پريود يك طيف جدا از هم مجزا و جدا مي شوند .در حالي كه به ازاي اين مؤلفه ها به يكديگر مي چسبند .
در سرعت هاي پائين نمونه برداري .اين طيف ها روي هم مي افتند . سرعت بحراني نمونه برداري به فركانس نايكوئيست معروف مي باشند.

يك نتيجه ي مهم اين است كه در سرعتهاي نمونه برداري بالاتر يا برابر فراكانس نايكوئيست ،سيگنال آنالوگ اوليه مي تواند با استفاده از مقادير نمونه برداري شده بطور دقيق باز سازي شود. (اين اثرAliasing سيگنال را باعث مي شود .) بنابر اين زماني كه قرار است صوت با پهناي باند مؤثر 5 كيلو هرتز نمونه برداري شود ميبايست اول بوسياهي فيلتر آنالوگ ، مؤلفه هاي فركانس بالاي آن حذف شده، به پهناي باند 5 كيلو هرتز محدود و سپس با سرعت حد اقل 10 كيلو هرتز نمونه برداري شود.
5،4- كوانتيزه كردن
پارامتر مهم ديگر در نمونه برداري از سيگنال هاي صوتي ، كوانتيزه كردن دامنه هاي نمونه برداري شده بوسيله ي يك مبدل A/D با دقت محدوتش ميباشد . يكADC8 بيتي ميتواند يك سيگنال ورودي را به يكي از 256 حالت ممكن تبديل كند ، اين عمل به اندازه گيري ما نويز اضافه مي كند . نويزي كه در اثر كوانتيزه كردن به سيستم وارد مي شود ، بوسيله افزايش دقت ADC كاهش داده شود . براي پردازش سيگنال صوتي استفاده از يك ADC با حد اقل 10 بيت كه دقت يك در 1024 به ما مي دهد ، متداول است.

برخي از دلائل اينكه گفتار به حالت ديجيتالي تبديل شود به قرار زير است:
1- مالتي پلكس كردن : وقتي تعدادي سيگنال بايد در طول يك مدار مشترك انتقال داده شوند ، متدوال ترين روشهاي مالتي پلكس كردن ، استفاده از روشهاي ديجيتالي بمنظور بدست آوردن مينيمم اغتشاش در سيگنالهاي اطلاعاتي مي باشد.
2- سوئيچينگ: وقتي سيگنالي به فرم ديجيتالي است ، مي توان انرا از ميان تعراد زيادي گره هاي سوئيچينگ بدون ايجاد هيچ اغتشاش و يا تنزلي در سيگنال عبور داده سوئيچهاي مدار ( در مركز تلفني ) در زماني كه سيگنالها ديجيتالي هستند مي توانند خيلي كوچك و جمع و جور ساخته شوند .
3- ذخيره سازي : بطور كلي ، بواسطه در دسترس بودن رنج وسيعي از حافظه ها و ديگر وسايل ذخيره ديجيتالي ، اطلاعات ديجيتالي خيلي ساده تر از مشابه آنالوگ آنها ذخيره مي شوند.
4- انتقال به صورت بسته اي : سيستم هاي مدرن انتقال بسته اي ، تكنيك هاي سوئيچينگ ، مالتي پلكس كردن و ذخيره سازي را براي استفاده بهتر لز منابع انتقالي با يكديگر تركيب مي كند . همه ي اين تكنيك ها براحتي با سيگنال هاي ديجيتايز شده به اجرا در مي آيند.
5- به رمز در آوردن : به منظور جلو گيري از دستيابي به پيغام هاو اطلاعات ، بدون اجازه ، تنها تكنيك كد گذاري واقعاً مطمئن ، توليد اعداد اتفاقي از پيغام هاي ديجيتالي مي باشد.
6- انتقال طيف گسترده: گسترده كردن طيف يك سيگنال مي تواند در برابر رنج وسيعي از اغتشاشات و اندازه گيري هاي نادرست الكترونيكي ، حفاظت با ارزشي را فراهم نمايد . بهرحال اگر سيگنال درحالت ديجيتالي باشد، اصلاحاتي كه براي گسترده كرده اغتشاش اضافي حذف شود . عيب اصلي سيستم هاي ديجيتالي اينست كه آنها اغلب به پهناي باند هاي وسيعتري نسبت به سيستم آنالوگ مشابه ، نياز دارند.
6،4- انواع سيستمهاي تشخيص گفتار
سيستم هاي تشخيص گفتار به دو نوع اصلي زير تقسيم مي شوند :
1- سيستم تشخيص گفتار وابسته به گوينده ( گوينده ثابت SPEAKER DEPENDENT)
2- سيستم تشخيص گفتار مستقل از گوينده ( SPEAKER INDEPENDENT)
در سيستم نوع اول، سيستم فقط براي تشخيص صداي يك نفر تعليم داده مي شود ولي در سيستم ديگر سيستم طوري طراحي شده است كه صداي افراد مختلفي را تشخيص مي دهد.
تشخيص سخنان يك گوينده ثابت و معين از شناسايي چند گوينده مختلف ساده تر است، چرا كه در پارامتر ي كردن مكالمات براي كامپيوتر ، استفاده از يك گوينده ثابت مي تواند حساسيت سيستم را افزايش دهد . به اين ترتيب مي توان الگوها و قابليت هاي تطلبق را در حافظه فقطبراي گوينده ذخيره كرد ، كه اين الگوها خود به خود در مورد گوينده هاي غريبهعملكرد بسيار ضعيف تري ارائه مي دهد. به همين خاطر هم در بسياري از سيستم هاي موجود ، گوينده منحصر به فرد است و سيستم گوينده اي خاص تنظيم شده است. البته تعداد نسبتاً معدودي از سيستم هاي تشخيص گفتار را مي توان براي گوينده هاي مختلف تنظيم كرد . ولي بسياري از پژوهشگران به تجربه معتقدند كه براي انجام يك وظيفه ي ثابت سيستم هاي مستقل از گوينده خطايي معادل 3تا5 برابر بيشتر از سيستم هاي با گوينده ثابت ارائه مي دهند . براي دستيابي به سيستم هاي مستق از گوينده كافي است بطور خيلي ساده قالب هاي گفتاري اشخاص زيادي را در حافظه ذخيره كرد. در روش ديگر كه پيچيده تر نيز هست مي تولن وجوه مشترك بين اصوات گوينده هاي مختلف را ( كه نسبتاً ثابت است) به عنوان الگوي تشخيص پذيرقت .
هر يك از سيستم هاي بالا به دو نوع كلي ديگر تقسيم مي شوند :
الف-سيستم تشخيص گفتار بر اساس لغات جدا از هم
(isrs) Isclated word speech recognition
ب- سيستم تشخيص گفتار بر اساس لغات پيوسته
(csrs) Continues word speech recognition system
از آنجايي كه در مكالمات پشت سر هم و پيوسته امكان تشخيص مرز بين كلمات مشكل تر است، لذا مكالمات كلمه به كلمه ( افزودن سكوت هاي كوتاه بين كلمات ) مي تواند راحت تر تشخيص داده شود . از سوي ديگر در مكالمات بدو مكث بسته به موقعيت كلمه نسبت به كلمات ديگر ممكن است تلفظ كلمه عوض شود براي مثال تلفظ تو چطوري ؟ با تو سكوت چطوري ؟ يكسان نخواهد بود . همچنين در مكالمات بدون مكث و سريع بعضي از حروف خود به خود بوسيله ي گوينده جويده مي شوند . مثلاً مي خواهم كه بصورت مي خوام كه ادا ميشود.اگر استفاده كننده ملزم به مكث بين كلمات شود ، اين خطاي سرعت نيز به مقدار زيادي كاهش مي يابد . براي مثال در آزمايشات بعمل آمده خطاي 9 درصد حاصل از مكالمات بدون مكث به 3 درصد در حالت مكالمه كلمه به كلمه كاهش يافته است. اما اين نوع مكالمات مكث دار علاوه بر ايجاد خستگي براي گوينده ، سرعت انتقال اطلاعات را از 150 تا 250 در دقيقه به 20 تا 100 كلمه كاهش مي دهد.

7.4- شماي كلي سيستمهاي تشخيص گفتار
شماي كلي سيستم ها ي SRS بصورت ز ير است:
شكل7 . 4 :
چنانچه ديده مي شود، يك سيستم ارتباط صوتي از يه بخش اصلي تشكيل شده است:
1- بخش پردازش گفتار:اين بخش كلمات تلفظ شده را بوسيله يك مبدل A/D و تكنيك هاي پردازش سيگنال (آنالوگ يا ديجيتال) به فرم ديجيتالي تبديل مي كند.
2- بخش تشخيص گفتار: اين بخش خروجي بخش پردازش گفتار را با مدل هاي از قبل ذخيره شده در سيستم مقايسه مي كند.محدود يتهاي گرامر و فرهنگ لغات تفسير هاي ديگر را حذف مي كند.
3- بخش فهم گقتار : اين بخش يك تابع سطح بالاتر است كه سعي مي كند ورودي را بفهمد.
8 . 4 طرز كار سيستم هاي تشخيص گفتار
تجزيه و تحليل گفتار(SPEECH ANALYSIS) يك سري تبديلات مي باشد كه يك سيگنال آنالوگ گفتار را به يك سري اطلاعات ديجيتال متراكم شده مشخص كننده گفتار تبديل مي كند.يك مسكروفن تغييرات فشار حاصله از گفتار را به تغييرات ولتاژ تبديل مي كند.
سيستم از اين تغييرات نم.نه برداري كرده و آنها را با استفاده از يك مبدل A/D ديجيتاليز ميكند. بطور نمونه يك سيتم از ورودي صدا 6000 تا 2000 بار در ثانيه نمونه برداري مي كند.هر يك از اين نمونه ها، بمنظور اطمينان از نمايش كامل صدا، حدود 12 بيت ميباشد. شري اعداد توليد شده توسط نمونه برداري ، شكل موج ديجيتالي ناميده مي شود.در واقع ، ما بايد سعي كنيم كه موج ديجيتالي را تشخيص دهيم. ولي چون اداي كلمه اي 5 ثانيه اي ممكن است تا 100000 عدد توليد كند، چنين پردازشي بطور قابل توجهي گران مي باشد.همچنين ، سگنال صدا شامل اطلاعات اضافي و غير ضروري مي باشد. براي رفع اين مشكلات سيستم هاي گفتاري، از تكنيك هاي پردازش سيگنال ديجيتالي براي كاهش اضافات و افزايش مشخصه هاي برجسته گفتار استفاده ميكنند.
اين تكنيك ها نوعاً يك بردار توصيفي از حدود 8 تا 20 عدد اعشاري براي هر 10 ميلي ثانيه از گفتار توليد مي كنند.تكنيكهاي كاهش متداول شامل مجموعه اي از فيلتر ها و تبديل فوريه هاي سريع FFT مي باشد كه براي هر 10 ميلي ثانيه از گفتار سطح انرژي را در مجموعه هاي فركانسي مختلف( كه معمولاً بصورت لگاريتمي مقياس بندي شده اند) مشخص مي كنند. اين تكنيكها همچنين LPC را كه برداري از ضرائب يك معادله خطي است كه طيف اين 10 ميلي ثانيه گفتار را بر اساس نمونه هاي قبلي پيش بيني ميكند،مشخص مي كنند.اين تكنيك ها حدود 1000 تا 2000 عدد اعشاري در يك ثانيه گفتار توليد مي كنند كه نسبت به قبل كاهش قابل توجهي دارد.اصولاً بدليل اينكه صدا هاي گفتاري دوباره سنتز شده تقريباً شبيه صداي اصلي مي باشد، هيچگونه اطلاعاتي از اين طرز نمايش از دست داده نمي شود. براي بدست آوردن راندمان بهتر با يك دقت بالا ، بعضي از سيستمها صدا را در حدود 200 بايت بر ثانيه فشرده مي كنند.
عموماً سيگنالهاي گفتار در حوزه فركانس بر اساس طيف توانشان كه تابعب از زمان است توصيف مي شوند.( با سرعت نمونه بر داري 10 كيلو هرتز متناظر با پهناي باند حدود 5 كيلو هرتز) . از آنجا كه اطلاعات طيفي براي فرق گذاشتن بين لغات مختلف براي حداقل يك شنونده انساني كافي مي باشد، الگوريتم هاي تطبيق ساده بمنظور تفكيك يك لغت از ديگر لغات بر اساس توالي طيف هاي كوتاه مدت كه نشان دهنده لغت مي باشد ، بايد كافي باشد.
مزيت اين زمينه اين است كه هيچ نيازي به اطلاع مشخصي درباره طبيعت سگنالهاي گفتاري ندارد و جدا كردن لغت به واحد هاي كوچكتر مانند سيلاب ها و هجا ها لازم نيست كه اين از بوجود آمدن مسائلبغرنج در تشخيص جلوگيري مي كند.
نتايج اين مفروضات به شرح زير است:
1- انتخاب كلمه به عنوان يك واحد تشخيص احتياج به سيستمي دارد كه يك الگوي مرجع ذخيره شده بر اساس هر يك از كلمات فرهنگ لغت داشته باشد.تقريباً همه سيستمهاي تشخيص گفتار با لغات جدا از هم (ISRS) از الگوهايي استفاده مي كنند كه بايد بوسيله سيستم ياد گرفته شوند، در طي جلسه يادگيري، لغت موردنظر يك يا چند بار بوسيله گوينده مشخص ادا مي شود.سيستم الگوي آكوستيكي كه توالي زماني از مشخصه هاي آكوستيكي مربوط به آن لغت ( يا الگوي ميانگين در مورد چندين تكرار لغت) است را براي مراجعه آينده در حافظه ذخيره مي كند. براي تشخيص يك لغت، سيستم پترن ورودي را با هر يك از الگو هاي مرجع مقايسه مي كند و مجموعه اي از امتيازات بهترين تطابق براي كل فرهنگ را توليد مي كند . لغت مرجع با بيشترين امتياز به عنوان شبيه ترين كانديد براي تشخيص در نظر گرفته مي شود .
2- سيگنال ورودي و الگوي از قبل ذخيره شده ي مربوط به آن مي بايست از نظر آكوستيكي به اندازه ي كافي به هم نزديك باشند تا اختلاف آكوستيكي شان كم شود. همچنانكه بخوبي مي دانيم ، به هر حال يك لغت خاص به وسيله ي گوينده هاي مختلف بطور مختلفي ادا مي شود و الگوهاي آكوستيكي متفاوتي دارد ، بر اين اساس هر الگو از نظر تئوري فقط براي يك گوينده مشخص معتبر است . يكي از مسائل اصلي يك چنين سيستمي اين است كه طول جلسه ياددهي مستقيماً وابسته به طول فرهنگ است .
9.4- تطابق و روش هاي آن
تشخيص گفتار شامل مقايسه ي اداي كلمه ( كه در حال حاضر توالي از بردارها مي باشد ) با مدلهاي گفتاري از قبل ذخيره شده بر طبق محدوديتهاي گرامري و لغتي خاص مي باشد . در تمام حالات ، بايد قبل از آنكه بتوان از سيستم براي تشخيص استفاده كرد ، مدلهاي گفتاري ، بر اساس منظور ما مي باشند. بعضي از آنها شامل كلمات يا عبارات ، سيلاب ها و اصوات كامل مي باشند .
بعضي از تكنيكهاي مدل سازي متداول به قرار زير مي باشد :
1- انحراف زماني ديناميكي : ( DTW) Dynamic time warping
اين تكنيك پترن هاي گفتاري را با الگوهاي از قبل ذخيره شده بوسيله ي تنظيم موقت آنها با استفاده از الگوريتمهاي برنامه نويسي ديناميك مطابقت مي دهد. مدل هاي DTW بوسيله ي ميانگين گيري از چندين نمونه از هر لغت در فرهنگ لغات تعليم داده مي شوند. تكنيك DTW بطور خيلي فراگيري در تشخيص دهنده هاي گفتاري تجاري استفاده مي شود.
2- مدل هيدن ماركوف : ( hmm) Hidden markov model
در اين روش ، خواص گفتار بر روش آماري بدست آورده مي شود. سيستم به وسيله ي الگوريتمهاي اتوماتيك ، احتمال وقوع تغييرات گفتاري و دوام آنها را ياد مي گيرد . سيستمهاي hmm توانايي عموميت دهندگي عالي دارند و براي فرهنگهاي بزرگ و گفتار پيوسته و همچنين كاربردهاي مستقل از گوينده مناسب مي باشند.
سيستمهاي hmm تكنولوژي غالب در اكثر سيستمهاي تحقيقاتي و بعضي سيستمهاي تجاري مي باشند.
3- شبكه هاي عصبي : (nn) neural networks
اين روش شامل تكنو لوژي جديدي است كه خواص گفتار را بصورت يك نمايش گسترده كد مي كند . يكي از خواص شبكه هاي عصبي عموميت پذيري آنها مي باشد. هر چند هيچ نوع سيستم تشخيص گفتار بر اساس شبكه عصبي بزرگ وجود ندارد و آنها اغلب به عنوان اجزاء سيستمهاي تحقيقاتي و بعضي سيستمهاي تجاري استفاده شده اند . توالي مدلهايي كه بوسيله ي سيستم تشخيص گفتار توليد مي شوند شامل بهترين حدس سيستم براي ورودي مي باشد.
بوسيله ي تكنولوژي جاري تطابق همه ي صداها با ورودي ، عملكرد آهسته غير قابل قبولي را ايحاب مي كند . بنابر اين تشخيص دهنده هاي گفتار از محدوديتهاي لغوي براي در نظر گرفتن فقط توالي اصوات كه لغات را نمايش مي دهند استفاده مي كنند . اين تشخيص دهنده ها همچنين محدوديت هاي زباني را باي اطمينان از اينكه فقط توالي لغات قانوني را در نظر بگيرند ، بكار مي برند . ( در نتيجه تعداد لغتهاي آزمايش شده فعال در طول تشخيص گفتار كاهش مي يابد) .
ارزيابي مدل و بكار بردن محدوديتهاي زباني و لغوي ، نوعاً در يك فرايند جستجوي يك مرحله اي تركيب مي شوند. بيشتر توليد كننده هاي برنامه هاي كابردي براي بدست آوردن بهترين عملكرد ممكن هم در زبان پاسخ و هم در دقت ، براي سيستمهاي خود گرامرهاي خيلي فشرده شده اي را مي سازند.
تكنولوژي تشخيص گفتار در حال سازگاري با انواع كامپيوترهاي موجود است و در آينده در انتظار استفاده هاي گسترده تري از سيستمهاي تشخيص گفتار و گوينده هستيم. در حال حاضر با ساده سازيها و قبول بعضي محدوديتها مشكلات موجود بر سر راه سيستمهاي تشخيص را كاهش داده اند و اين يعني اينكه هنوز قادر به ارتباطي راحت و طبيعي با كامپيوتر از طريق مكالمه نيستيم. سيستمهاي تشخيص موجود در بازار فقط متنهاي مشخصي را درك مي كنند و سيستمهاي مستقل از متن با دقت زياد هنوز يك آرزو هستند.
پيشرفتهاي حاصله در زمينه تشخيص صوت و شناسايي گوينده توسط كامپيوتر اين واقعيت را روشن ساخت كه قبل از رسيدن به مكالمه اي راحت و طبيعي بايد در جستوجوي زباني تعريف شده و معين باشيم . زباني مشترك ما بين يك انسان و كامپيوترش .
10.4- تشريح نحوه ي عملكرد سيستم
1.10.4- قسمت پردازش گفتار
سيستم هاي موجود در بازار سيگنال ورودي صوتي را ابتداء ديجيتالي مرده و سپس توسط يك مدار پردازش كننده ديجيتالي (DSP) پترني از سيگنال هاي صوتي ديجيتالي بمنظور تشخيص مي سازند . اين سيستمها احتياج به مدارات مجتمع پردازش كننده سيگنال دارند. در اين آي سي ها ، بر اساس برنامه ريزي قبلي ، بر روي سيگنال ديجيتالي ورودي پردازش صورت مي گيرد. بدين ترتيب خروجي آي سي ها نمايشي از سيگنال ورودي بر اساس پردازش انجام شده مي باشد. ( مثلاً در بعضي از كاربرد ها ، آي سي را بصورت تبديل فوريه سريع FFT برنامه ريزي مي كنند. بدين ترتيب خروجي تبديل فوريه سيگنال ورودي مي باشد.)
در اكثر سيستمهاي تشخيص گفتار (SRS) ، آي سي هاي DSP را بصورت FFT برنامه ريزي مي نمايند و اين بدليل بدست آوردن مؤلفه هاي فركانسي سيگنال مورد ( طيف فركانسي و يا چگالي توان) مي باشد.در بعضي موارد بدليل كمياب و گران بودن اين گونه آي سي ها ، بجاي استفاده از پردازش ديجيتالي ، از پردازش آنالوگ استفاده شده است.بدين ترتيب كه رنج فركانسي سيگتال صوتي (20-0) به چند ناحيه تقسيم شده و مقدار متوسط سيگنال در اين ناحيه ها اندازه گيري مي شود.اين مقادير سپس توسط يك مبدل آنالوگ به ديجيتال به فرم ديجيتالي در ميآيند.عمل تقسيم بندي توسط فيلتر ها ي ميانگذر آنالوگ انجام مي گيرد.چون مؤلفه هاي فركانسي سيگنال صوتي انسان در ناحيه 5-0 بيشتر مي باشد ، حد بالاي فركانس سيگنال صوتي را 5 كيلو هرتز در نظر مي گيريم.اين محدوديت باعث از بين رفتن اطلاعات سيگنال صوتي نمي گردد مثلاً در تلفن محدوديت فوق بدون اينكه ما متوجه تغيير چنداني در اصوات رسيده شويم، اعمال مي شود. با عنايت به اينكه در اكثر افراد بيشتر ين مؤلفه هاي فركانسي در فركانس هاي حدود 300 و 600 و 1200 و 2400 هرتز كه ضريب (Q) هر يك از آنها طوري در نظر گرفته شده است كه رنج 5-0 را بطور كامل بپوشاند ، استفاده مي شود.
4 . 10 . 2 ـــ قسمت تشخيص گفتار
وروديهاي به اين قسمت ، با الگوهاي از قبل ذخيره شده ، مقايسه شده و با اعمال گرامر و فرهنگ لغت از قبل تعريف شده ، تشخيص داده مي شوند.
الگو هاي از قبل ذخيره شده در يك جلسه يادگيري به سيستم آموخته مي شوند.در اين جلسه ، هر لغت چندين بار ادا شده و ميانگين الگوهاي ياد گرفته شده ، بعنوان الگوي كلمه مورد نظر ذخيره مي شود. ذكر اين نكته ضروري است كه سيستمهاي موجود در بازار بر اساس نحوه عملكرد به چهار گونه : گوينده ثابت لغات جدا از هم ، گوينده ثابت گفتار پيوسته ، مستقل از گوينده جدا از هم و مستقل از گوينده گفتار پيوسته تقسيم مي شوند.
سيستمهاي گفتار پيوسته بايد به گونه اي عمل كنند كه بطور اتوماتيك كلمات را از هم جدا كرده و انتهاي جمله را ت شخيصدهند كه براي رسيدن به اين هدف احتياج به الگوريتمهاي پيچيده و مدلهاي DSP بسيار قوي مي باشند. به اين خاطر اكثر سيستمهاي موجود در بازار از نوع لغات جدا از هم مي باشند. لازم به ذكر است كه در جلسه يادگيري به هر الگوي ذخيره شده پس از تشخيص صداي اپراتور دو رشته كاراكتر اول اجراء شده و بقيه آنها فقط نمايش داده مي شوند.
4 . 10 . 3 ــــ بلوك دياگرام مدار
بلوك دياگرام كلي مدار بصورت زير مي باشد:
امواج صوتي توسط ميكروفن به سيگنالهاي الكتريكي تبديل شده و توسط يك تقويت كننده به دامنه مناسبي تقويت مي شود ، سيگنال صوتي تقويت توسط فيلتر هاي ميان گذر به باند هاي فركانسي محدود و مشخص ، فيلتر مي شود و سپس بوسيله طبقه يكسو ساز و صافي ، مولفه DC اين باند ها ي فركانسي (متناسب با توان سيگنال در اين باند ها) جدا مي شود.خروجيهاي طبقه ميانگين گير بوسيله يك مالتي پلكسر روي يك خط ، MUX شده و از طريق يك مبدل آنالوگ به ديجيتال به صورت ديجيتالي در آمده و به DATA BUS كامپيوتر انتقال داده مي شود.در تمام اين مراحل طبقه كنترل وظيفه انتخاب فركانسي مورد نظر و دكود كردن آدرس براي سيستم را بر عهده دارد.

۱ نظر:

maryama گفت...

سلام
از شما خواهشمندم اطلاعات بیشتری درباره نحوه نمایش که بصورت فریم است در تشخيص گفتارو اطلاعات طرح اولیه گفتار و nspeech و چگونگی تطبیق دادن را ارسال کنید .با تشکر فراوان