بازشناسی گفتار (تشخیص گفتار) و مشکلات آن چیست

بازشناسی گفتار و مشکلات آن

در بسیاری از متون از کلمه تشخیص گفتار به جای بازشناسی گفتار استفاده می‌شود. البته ترجمه تخصصی کلمه Speech Recognition به فارسی، بازشناسی گفتار است. بازشناسی گفتار (تشخیص گفتار) به عنوان یکی از مهم‌ترین دسته‌های پردازش گفتار می‌باشد.

بازشناسی گفتار به طور خلاصه یعنی تبدیل یک فایل صوتی حاوی گفتار به متن توسط ماشین. در این روند تبدیل گفتار به متن توسط ماشین، مشکلاتی مطرح می‌باشد که در این مقاله به آن‌ها می‌پردازیم. دانستن مشکلات بازشناسی گفتار (تشخیص گفتار)، میزان عملی بودن راه‌حل‌های مختلف را برای ما آشکار می‌کند.

مشکلات بازشناسی گفتار (تشخیص گفتار) عبارتند از:

  1. امکان از بین رفتن سیگنال تا ٪۷۰ در حین انتقال از گوینده تا ماشین. با توجه به اینکه در مقالات قبلی اشاره شد، سیگنال گفتار یک سیگنال پیوسته است و مغز انسان با استفاده از این ویژگی مهم سیگنال‌های گفتار قابلیت پر کردن بخش‌های از دست رفته سیگنال گفتار را دارا می‌باشد. ایجاد چنین توانایی پیچیده‌ای برای ماشین مستلزم استفاده از برنامه‌های پیچیده است.
    مغز انسان با درک پیوستگی میان لغات و بافت جملات، اطلاعات زیادی را به دست می‌آورد که به آن در ترمیم سیگنال‌های تخریب شده بسیار کمک می‌کند.

  2. پیوستگی گفتار علاوه بر ایجاد وابستگی میان کلمات مختلف برای انتقال یک مفهوم مشکلات دیگری را نیز برای بازشناسی گفتار (تشخیص گفتار) به همراه دارد. بیان کلمات در کنار یکدیگر باعث می‌شود که هجای آخر یک کلمه بر ابتدای کلمه بعد تاثیر داشته باشد.‌ می‌توان این مشکل را چنین بیان کرد که بیان هر کلمه یکسان بعد از دو هجای متفاوت کاملا می‌تواند متفاوت باشد. همچنین این اتفاق برای بیان انتها هر کلمه نیز رخ می‌دهد.

    در این مورد انتهای هر کلمه می‌تواند از هجای ابتدایی کلمه بعدی تاثیر بپذیرد و مشکلات را دوچندان کند.

  3. در بسیاری از کاربردها، کانال ارتباطی میان گوینده و ماشین پهنای باند ارتباطی محدودی دارد که این امر موجب می‌شود بخشی از اطلاعات موجود طیف سیگنال گفتار دور ریخته شود. به طور مثال می‌توان به پهنای باند محدود خطوط تلفی اشاره کرد که حداکثر تا فرکانس 4kHz را پوشش می‌دهند.

  4. برگشت صدا از مشکلات بازشناسی گفتار (تشخیص گفتار) در بسیاری از محیط‌ها می‌باشد. یک سیگنال با برخورد به دیوار، سقف، کوه‌ و … برگشت داده می‌شود. این اتفاق می‌تواند به صورت برگشت کامل صدا (Echo) یا برگشت محدود صدا (Reverberate) صورت گیرد. این رخداد باعث می‌شود که شنونده یا ماشین به عنوان شنونده، علاوه بر سیگنال اصلی گفتار، یک یا چند تکرار از آن را نیز با انرژی کمتر دریافت کند.
  5. از معضلات مهم برای بازشناسی گفتار (تشخیص گفتار) تغییرات در سیگنال گفتار است. یک گوینده می‌تواند یک کلمه را با سرعت‌های متفاوتی ادا کند. این امر تطبیق مستقیم دو سیگنال حاوی گفتار را با سختی‌هایی همراه می‌کند. همچنین شرایط روحی یک گوینده در لحن بیان بسیار موثر است.مورد دیگری که آن را نیز می‌توان از این دسته از مشکلات تلقی کرد. بلند یا آرام صحبت کردن یک فرد بسته به شرایط مختلف است. سرعت، احساس و بلندی صدا بسته به شرایط برای یک گوینده ثابت می‌تواند متفاوت باشد.

    این دسته از مشکلات بازشناسی‌گفتار (تشخیص گفتار) جلوی تطبیق یک به یک فریم‌های حاوی گفتار را برای بازشناسی آن کلمه می‌گیرد.

  6. هر سیستم بازشناسی‌گفتار براساس یک سری اطلاعات اولیه، آموزش می‌بیند که چه کلماتی چگونه ادا می‌شوند. البته سیستم‌های بازشناسی گفتار می‌توانند به جای بازشناسی بر روی واحد کلمه بر روی بازشناسی واحدهای دیگر مثل هجاها یا حروف استوار باشند، ولی با توجه به معنادار بودن واحد کلمه، عمدتا بر روی واحد کلمه متمرکز هستند.حال در صورتیکه یک کلمه خارج از اطلاعات اولیه موجود برای آموزش به سیستم وارد شود، سیستم خروجی مناسبی برای آن نخواهد داشت.

  7. در موارد ساده، سیستم بازشناسی گفتار برای یک گوینده آموزش داده می‌شود.
    چنین سیستمی در برخورد با افراد جدید نتیجه ضعیف‌تری از خود ارائه می‌دهد.

  8. تغییر جنسیت گوینده برای سیستم‌های بازشناسی گفتار (تشخیص گفتار) می‌تواند ایجاد اختلال کند. گرچه روش‌های مختلفی برای غلبه بر این مشکل پیشنهاد شده است. صدای گفتار زن و مرد به دلیل تفاوت در ساختار حنجره و طول لوله صوتی ویژگی‌های فرکانسی متفاوتی دارد که در یک مقاله مجزا به آن می‌پردازیم.

  9. زبان‌های مختلف در مکان‌های متفاوت با لهجه‌های متنوعی صحبت می‌شوند. این تنوع در لهجه‌ها می‌تواند مشکلات جدی را برای سیستم ایجاد کند.

در این مقاله مشکلات بازشناسی گفتار (تشخیص گفتار) مطرح شد. هدف از این پست آشنایی شما دوستان با مشکلات موجود برای الگورتیم‌های متفاوتی است که در آینده در بخش روش های بازشناسی گفتار (تشخیص گفتار) مطرح خواهد شد.

کپی و نشر این پست با ذکر منبع بلامانع است.

INeee.ir

کانال تلگرام

درباره ی ایمان شهریاری

ایمان
ایمان شهریاری دانش‌آموخته‌ی کارشناسی ارشد الکترونیک دیجیتال از دانشگاه امیرکبیر و عضو قطب علمی الکترونیک (سامانه‏‌های پردازش دیجیتال) و آزمایشگاه تحقیقاتی پردازش گفتار ِاین دانشگاه می‌باشد. وی هم‌اکنون در دو حوزه‌ی پردازش سیگنال‌های دیجیتال و هوشمندسازی فعالیت دارد. زمینه‌های تحقیقاتی مورد علاقه‌اش، پردازش سیگنال‏‌های گفتار، یادگیری ماشین و پیاده‌سازی الگوریتم‏‌های بهینه‏ است.

همچنین ببینید

پردارش گفتار - انتقال گفتار

پردازش گفتار چیست؟ اهداف و انواع پردازش گفتار چه می باشد؟

این مقاله در مورد مفاهیم اولیه‌ی پردازش گفتار، اهداف و انوع آن و نیز در …

عضویت
اطلاع رسانی کن از
guest

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.

5 نظرات
جدیدترین
قدیمی‌ترین بیشترین رای
بازخورد درون خطی
مشاهده همه نظرات
شیوا
شیوا
3 years ago

سلام، آموزش پردازش گفتار رو فقط یک جلسه شو توی آپارات آپلود کردین جلسات دیگه ای نداره؟

حنیف
Admin
3 years ago
پاسخ به   شیوا

با سلام
در حال تکمیل یک مجموعه آموزشی هستیم که بعد از اتمام آن، بر روی سایت قرار خواهد گرفت

سجاذ
سجاذ
2 years ago
پاسخ به   حنیف

سلام عذر میخوام ویدئو پردازش گفتار رو از کجا تهیه کنیم؟

حنیف
Admin
2 years ago
پاسخ به   سجاذ

باسلام ممنون از شما
در حال حاضر مجموعه‌ی ما به دلیل مشغله کاری فراوان مجموعه ویدیوهایی آموزشی پردازش گفتار کامل نشده است

umix
مظفر
4 years ago

سلام میخواستم بدونم چطوری میشه یکی از عکسهای موجود درdscماژول لبویوو را ویزیبل یا اینوزیبل کرد .مثلا میخوام حرکت یک گاز را در طول یک لوله بازسازی کنم ویا حرکت یک شیئی را در یک مسیری نشون بدم که در میره جلو .مثل فلش ایی که پشت سر هم هی خاموش روشن بشن و مسیر را نشون بدن منتها …المانها را میشه اینکار را باهاشون کرد ولی عکسها را نمیتونم .مثل غکس یک فلش را

5
0
سوال یا پیشنهادی دارید؟ لطفاً کلیک کنید.x