بازشناسی گفتار و مشکلات آن
در بسیاری از متون از کلمه تشخیص گفتار به جای بازشناسی گفتار استفاده میشود. البته ترجمه تخصصی کلمه Speech Recognition به فارسی، بازشناسی گفتار است. بازشناسی گفتار (تشخیص گفتار) به عنوان یکی از مهمترین دستههای پردازش گفتار میباشد.
بازشناسی گفتار به طور خلاصه یعنی تبدیل یک فایل صوتی حاوی گفتار به متن توسط ماشین. در این روند تبدیل گفتار به متن توسط ماشین، مشکلاتی مطرح میباشد که در این مقاله به آنها میپردازیم. دانستن مشکلات بازشناسی گفتار (تشخیص گفتار)، میزان عملی بودن راهحلهای مختلف را برای ما آشکار میکند.
مشکلات بازشناسی گفتار (تشخیص گفتار) عبارتند از:
- امکان از بین رفتن سیگنال تا ٪۷۰ در حین انتقال از گوینده تا ماشین. با توجه به اینکه در مقالات قبلی اشاره شد، سیگنال گفتار یک سیگنال پیوسته است و مغز انسان با استفاده از این ویژگی مهم سیگنالهای گفتار قابلیت پر کردن بخشهای از دست رفته سیگنال گفتار را دارا میباشد. ایجاد چنین توانایی پیچیدهای برای ماشین مستلزم استفاده از برنامههای پیچیده است.
مغز انسان با درک پیوستگی میان لغات و بافت جملات، اطلاعات زیادی را به دست میآورد که به آن در ترمیم سیگنالهای تخریب شده بسیار کمک میکند. - پیوستگی گفتار علاوه بر ایجاد وابستگی میان کلمات مختلف برای انتقال یک مفهوم مشکلات دیگری را نیز برای بازشناسی گفتار (تشخیص گفتار) به همراه دارد. بیان کلمات در کنار یکدیگر باعث میشود که هجای آخر یک کلمه بر ابتدای کلمه بعد تاثیر داشته باشد. میتوان این مشکل را چنین بیان کرد که بیان هر کلمه یکسان بعد از دو هجای متفاوت کاملا میتواند متفاوت باشد. همچنین این اتفاق برای بیان انتها هر کلمه نیز رخ میدهد.
در این مورد انتهای هر کلمه میتواند از هجای ابتدایی کلمه بعدی تاثیر بپذیرد و مشکلات را دوچندان کند.
- در بسیاری از کاربردها، کانال ارتباطی میان گوینده و ماشین پهنای باند ارتباطی محدودی دارد که این امر موجب میشود بخشی از اطلاعات موجود طیف سیگنال گفتار دور ریخته شود. به طور مثال میتوان به پهنای باند محدود خطوط تلفی اشاره کرد که حداکثر تا فرکانس 4kHz را پوشش میدهند.
- برگشت صدا از مشکلات بازشناسی گفتار (تشخیص گفتار) در بسیاری از محیطها میباشد. یک سیگنال با برخورد به دیوار، سقف، کوه و … برگشت داده میشود. این اتفاق میتواند به صورت برگشت کامل صدا (Echo) یا برگشت محدود صدا (Reverberate) صورت گیرد. این رخداد باعث میشود که شنونده یا ماشین به عنوان شنونده، علاوه بر سیگنال اصلی گفتار، یک یا چند تکرار از آن را نیز با انرژی کمتر دریافت کند.
-
از معضلات مهم برای بازشناسی گفتار (تشخیص گفتار) تغییرات در سیگنال گفتار است. یک گوینده میتواند یک کلمه را با سرعتهای متفاوتی ادا کند. این امر تطبیق مستقیم دو سیگنال حاوی گفتار را با سختیهایی همراه میکند. همچنین شرایط روحی یک گوینده در لحن بیان بسیار موثر است.مورد دیگری که آن را نیز میتوان از این دسته از مشکلات تلقی کرد. بلند یا آرام صحبت کردن یک فرد بسته به شرایط مختلف است. سرعت، احساس و بلندی صدا بسته به شرایط برای یک گوینده ثابت میتواند متفاوت باشد.
این دسته از مشکلات بازشناسیگفتار (تشخیص گفتار) جلوی تطبیق یک به یک فریمهای حاوی گفتار را برای بازشناسی آن کلمه میگیرد.
-
هر سیستم بازشناسیگفتار براساس یک سری اطلاعات اولیه، آموزش میبیند که چه کلماتی چگونه ادا میشوند. البته سیستمهای بازشناسی گفتار میتوانند به جای بازشناسی بر روی واحد کلمه بر روی بازشناسی واحدهای دیگر مثل هجاها یا حروف استوار باشند، ولی با توجه به معنادار بودن واحد کلمه، عمدتا بر روی واحد کلمه متمرکز هستند.حال در صورتیکه یک کلمه خارج از اطلاعات اولیه موجود برای آموزش به سیستم وارد شود، سیستم خروجی مناسبی برای آن نخواهد داشت.
- در موارد ساده، سیستم بازشناسی گفتار برای یک گوینده آموزش داده میشود.
چنین سیستمی در برخورد با افراد جدید نتیجه ضعیفتری از خود ارائه میدهد. - تغییر جنسیت گوینده برای سیستمهای بازشناسی گفتار (تشخیص گفتار) میتواند ایجاد اختلال کند. گرچه روشهای مختلفی برای غلبه بر این مشکل پیشنهاد شده است. صدای گفتار زن و مرد به دلیل تفاوت در ساختار حنجره و طول لوله صوتی ویژگیهای فرکانسی متفاوتی دارد که در یک مقاله مجزا به آن میپردازیم.
- زبانهای مختلف در مکانهای متفاوت با لهجههای متنوعی صحبت میشوند. این تنوع در لهجهها میتواند مشکلات جدی را برای سیستم ایجاد کند.
در این مقاله مشکلات بازشناسی گفتار (تشخیص گفتار) مطرح شد. هدف از این پست آشنایی شما دوستان با مشکلات موجود برای الگورتیمهای متفاوتی است که در آینده در بخش روش های بازشناسی گفتار (تشخیص گفتار) مطرح خواهد شد.
کپی و نشر این پست با ذکر منبع بلامانع است.
سلام، آموزش پردازش گفتار رو فقط یک جلسه شو توی آپارات آپلود کردین جلسات دیگه ای نداره؟
با سلام
در حال تکمیل یک مجموعه آموزشی هستیم که بعد از اتمام آن، بر روی سایت قرار خواهد گرفت
سلام عذر میخوام ویدئو پردازش گفتار رو از کجا تهیه کنیم؟
باسلام ممنون از شما
در حال حاضر مجموعهی ما به دلیل مشغله کاری فراوان مجموعه ویدیوهایی آموزشی پردازش گفتار کامل نشده است
سلام میخواستم بدونم چطوری میشه یکی از عکسهای موجود درdscماژول لبویوو را ویزیبل یا اینوزیبل کرد .مثلا میخوام حرکت یک گاز را در طول یک لوله بازسازی کنم ویا حرکت یک شیئی را در یک مسیری نشون بدم که در میره جلو .مثل فلش ایی که پشت سر هم هی خاموش روشن بشن و مسیر را نشون بدن منتها …المانها را میشه اینکار را باهاشون کرد ولی عکسها را نمیتونم .مثل غکس یک فلش را