چینی‌ها ماشین ذهن‌خوانی ساختند

پژوهشگران چینی موفق به ساخت دستگاهی شده‌اند که قادر است نشانه‌های عصبی را به گفتار صوتی تبدیل کند.

به گزارش صبح ساحل و به نوشته ایسنا، گروهی از پژوهشگران چینی با استفاده از نشانه‌هایی از فعالیت مغزی عصبی، راهی برای تولید مصنوعی گفتار که به عنوان «ترکیب گفتار» نیز شناخته می‌شود، ابداع کرده‌اند.

به گزارش رسانه دولتی ساوث چاینا مورنینگ پست، این پژوهشگران چینی ادعا می‌کنند که یک دستگاه ذهن‌خوان دارند که قادر است افکار انسان را به گفتار تبدیل کند.

آنها برای رسیدن به این هدف از روشی به نام الکتروکورتیکوگرافی (ECoG) استفاده کردند که برای اندازه‌گیری سیگنال‌های مستقیم مغز از قشر مغز با استفاده از الکترودهایی که در حین جراحی در مغز کاشته می‌شوند، استفاده می‌شود.

چالش‌های لحن

زبان‌های آهنگین از لحن و تلفظ همراه با هم برای انتقال معنا استفاده می‌کنند. در زبان‌هایی مانند ماندارین، ویتنامی، پنجابی، تایلندی، لائوسی و کانتونی، کلمه‌ها علاوه بر حروف صدادار و صامت، می‌توانند از نظر لحن نیز متفاوت باشند.

پژوهشگران در مقاله خود توضیح دادند: با توجه به اینکه یک هجای آهنگی را می‌توان به هجای لحن و پایه که مستقل از یکدیگر هستند، تقسیم کرد، ما یک چارچوب تقسیم و تحلیل را پیشنهاد کردیم. فرض کردیم که لحن و هجای پایه را می‌توان جدا از فعالیت عصبی رمزگشایی کرد و سپس گفتار آهنگین را می‌توان با استفاده از ترکیب لحن رمزگشایی شده و هجای پایه ترکیب کرد.

نقشه‌برداری زبان

این پژوهش شامل پنج شرکت کننده بود که طی عمل جراحی تومور مغزی در چین تحت نقشه‌برداری زبان بیدار قرار گرفتند. در طول عمل جراحی، دو الکترود روی سطح جانبی مغز آنها قرار داده شد تا فعالیت عصبی مز آنها را در طول جراحی ثبت کنند.

به شرکت‌کننده گفته شد که هجای ma را با هشت لحن مختلف پس از شنیدن یک نشانه صوتی بیان کند. هر شرکت کننده 160 آزمایش انجام داد. هجای ma در زبان ماندارین دارای چهار لحن مختلف است که می‌تواند به ترتیب به معنای مادر، حشیش، اسب و سرزنش باشد.

پژوهشگران برای تولید و شناسایی دقیق لحن و آهنگ‌ها در زبان‌های آهنگین، الگوریتم‌هایی را که فعالیت‌های عصبی را مشاهده می‌کنند، تقویت کردند.

ضبط صداها در هماهنگی با ضبط‌های ECoG از طریق یک میکروفون نصب شده انجام شد.

طبق این مطالعه، پژوهشگران یک مدل شبکه عصبی ماژولار چند جریانی طراحی کردند که می‌تواند لحن و هجای پایه را به صورت موازی رمزگشایی کند و سپس با ترکیب خروجی‌های ماژول‌های لحن و هجا، گفتار را ترکیب کند.

چندین مطالعه اخیر امکان ترکیب جملات کوتاه و چند کلمه خاص در زبان‌های غیر آهنگین مانند انگلیسی و ژاپنی را از ضبط عصبی نشان داده‌اند. این پیشرفت‌ها نه تنها روش‌هایی را برای درمان آنارتری(از دست دادن کامل گفتار) ارائه می‌کنند، بلکه کارایی ارتباطی رابط‌های گفتاری مغز و رایانه را نیز افزایش می‌دهند.

به گفته پژوهشگران، مدل ما برای سایر لهجه‌های چینی مانند «کانتونی» و «چینی وو» نیز قابل استفاده است.

نتایج این مطالعه در مجله Science Advances منتشر شده است.