پیش به سوی بازسازی گفتار قابل فهم با استفاده از سیگنال های شنوایی مغز انسان

گروهی از پژوهشگران ایرانی و خارجی در یک پژوهش جذاب تلاش کردند به بازسازی اصوات و گفتارهای قابل فهم با کمک بازسازی و بررسی فعالیت های قشر شنوایی مغز انسان بپردازند.

پایگاه خبری تحلیلی انتخاب (Entekhab.ir) :

به گزارش سرویس آی تی و فناوری انتخاب، این پژوهش با همکاری نیما مسگرانی، حسن اکبری، بهار خلیقی نژاد، ال هررو و آشش دی مهتا انجام شده است. در بخش چکیده این پژوهش که در قالب یک مقاله علمی منتشر شده است، می خوانیم؛ بازسازی محرکهای شنوایی یک روش جدید است که بهترین تقریب محرک های صوتی را از جمعیت فعالیت های عصبی ایجاد شده در قشر مغز انسان پیدا می کند. بازسازی سخنرانی از قشر شنوایی شنوایی باعث ایجاد یک پروتئین برای ایجاد ارتباط مستقیم با مغز می شود و در هر دو حالت آشکار و پنهان امکان پذیر است.

با این حال، کیفیت پایین سخنرانی های بازسازی شده استفاده از این روش را برای برنامه های رابط مغز و کامپیوتر بسیار محدود کرده است. پیشرفت های اخیر در یادگیری عمیق با آخرین نوآوری ها در فناوری های سنتز گفتاری، فضا را برای بازسازی گفتار قابل فهم از قشر شنوایی انسان فراهم ساخته است . ما با دقت اقدام به بازسازی در روشهای رگرسیون خطی و غیر خطی (شبکه عصبی عمیق) و نمایش آکوستیک کرده ایم که به عنوان هدف بازسازی از جمله طیف سنج شنوایی و پارامترهای سنتز گفتار مورد استفاده قرار گرفته است.

علاوه بر این، ما دقت بازسازی را از محدوده فرکانس عصبی کم و زیاد مقایسه کردیم. نتایج ما نشان می دهد که یک مدل شبکه عصبی عمیق که مستقیما براورد پارامترهای گفتار را از همه فرکانس های عصبی به دست می آورد، بالاترین امتیاز های ذهنی و هدف را به دست می آورد. این نتایج، اثربخشی الگوریتم های یادگیری عمیق و سنتز سخنرانی را برای طراحی نسل بعدی سیستم های BCI گفتار نشان می دهد که نه تنها می توانند ارتباطات گفتاری را برای بیماران فلج شده بازگردانند، بلکه توانایی تغییر تکنولوژی های ارتباطی انسان و کامپیوتر را نیز دارند.

در بخشی دیگر از این مقاله و در بخش توضیحات می خوانیم: بازسازی محرک شنوایی یک روش نقشه برداری معکوس است که بهترین محدوده محرک آکوستیک را از جمعیت فعالیت های عصبی ایجاد شده در مغز انسان پیدا می کند. بازسازی تحریک کننده قشر شنوایی در ابتدا به عنوان یک روش برای مطالعه خواص نمایشی جمعیت عصبی پیشنهاد شد، به این دلیل که این روش تفسیر بصری پاسخ های عصبی در حوزه محرک را امکان پذیر می سازد. با این حال، بازسازی سخنرانی از پاسخ های عصبی ضبط شده از قشر شنوایی انسان امکان استفاده از این تکنیک را به عنوان یک رابط بین کامپیوتر مغز و کامپیوتر (BCI ) برای بازگرداندن گفتار در بیماران شدیدا فلج شده را امکان پذیر می کند.

فایده این فرایند چیست؟

هدف نهایی این پروژه این است که یک مسیر ارتباط مستقیم به مغز ایجاد کند تا بتواند به نفع بیماران که توانایی صحبت کردن را از دست داده اند، عمل کند. این موضوع می تواند از انواع اختلالات بالینی که منجر به شرایطی نظیر سندرم قفل شدگی(مانند مشکلی که استیون هاوکینگ داشت)پیشگیری کند و این شرایط را با شرایطی که بیمار به راحتی با محیط پیرامون خود ارتباط برقرار می کند عوض کند.

در حالی که مطالعات قبلی امکان استخراج صدا از داده های عصبی را ممکن کرده است، کیفیت صدای بازسازی شده تا کنون برای ارزیابی ذهنی بسیار پایین بوده است. به همین دلیل، صداهای بازسازی شده در مطالعات قبلی تنها با استفاده از معیارهای عینی مانند همبستگی یا دقت تشخیص ارزیابی شده است . کیفیت پایین صدا بازسازی شده در حال حاضر یکی از محدود کننده های عمده در سیستم های رسمی BCI است

نگاهی به روش اجرای این پژوهش

بررسی تأثیر سه عامل بر دقت بازسازی با کمک 3 روش اجرایی شده است:

_روش رگرسیون (رگرسیون خطی در مقابل شبکه عصبی عمیق غیر خطی)

_نمایندگی از گفتار در نظر گرفته شده برای بازسازی (طیف سنجی شنوایی در مقابل پارامترهای واکنش گفتار)

_ محدوده فرکانس عصبی مورد استفاده برای رگرسیون (فرکانس پایین نسبت به پوشش گامای بالا)

پژوهشگران با استفاده از الکتروکورتیکوگرافی مهاجم (ECoG) برای اندازه گیری فعالیت عصبی از پنج بیمار که جراحی مغز شده بودند یا تحت درمان صرع بودند اقداماتی پژوهشی را انجام دادند. در جریان این آزمون دو زن به مدت 30 دقیقه از روی یک متن برای آن ها خواندند و سپس مدل های شنوایی آن ها بر اساس داده های عددی بررسی شد.

داده های آزمایشی شامل جملات سخنرانی مداوم و صداهای مبتنی بر عدد به شکل جداگانه بود. در مجموع از هشت جمله (مجموع 40 ثانیه) برای ارزیابی کیفیت هدف مدل های بازسازی استفاده شد. این صداهای تصادفی شش بار تکرار شد و برای ارزیابی ذهنی و ارزیابی کیفی مورد استفاده قرار گرفت.حتی به عنوان داده متغیر و مزاحم از صداهای به عنوان نویز برای پرت کردن حواس آزمودنی ها استفاده شد تا رمزگشایی در طول آزمون ها بر اساس ویژگی هایی دقیق تر انجام گیرد.

در بخشی دیگر از این آزمون با استفاده از آزمونهای ذهنی و عینی، قابلیت تشخیص گفتار بازسازی را مورد بررسی قرار گرفت. برای ارزیابی ذهنی، 11 شرکت کننده با شنیدن صدای خود واکنش نشان دادند و در بخشی دیگر نیز با استفاده از هدفون در محیط ی آرام قرار گرفتند. هر شرکت کننده به 160 نشانه شامل 10 رقم، چهار بلندگوی ویژه و چهار مدل صدا گوش داده است. از شرکت کنندگان خواسته شد که صداها را گزارش کنند . در نهایت این نتایج می تواند برای بررسی تکمیلی پروژه هایی استفاده شود که در تلاشند با ترکیب تکنولوژی اسکن مغز، هوش مصنوعی و برنامه‌های تبدیل متن به گفتار روش جدیدی برای تبدیل امواج مغزی به گفتار قابل فهم پیدا کنند.

لینک کوتاه

ارسال به تلگرام

نظرات بینندگان