طراحی سیستم تشخیص گفتاری که به اندازه انسان دقیق است

به گزارش ایسنا و به نقل از گیزمگ، محققان “مایکروسافت” طی ۲۵ سال در ساختن این سیستم یک نقطه عطف ایجاد کرده‌اند. سیستم تشخیص گفتار و مکالمه این شرکت در نهایت به میزان اشتباه تنها ۵٫۱ درصد رسید و این اولین بار است که چنین سیستمی با این دقت حرفه‌ای انسانی همراه شده است.

یک سال پیش، گروه تحقیق گفتار و گفتمان “مایکروسافت” سیستم خود را برای رسیدن به میزان خطای کلمه‌ای ۵٫۹ درصد بهبود بخشید.

این به طور کلی به عنوان میانگین خطای انسانی در نظر گرفته می‌شود، اما تحقیقات بیشتر محققان نشان داد که ۵٫۱ درصد خطا، به درصد واقعی خطای شنیداری انسانی نزدیکتر است.

برای بیش از ۲۰ سال، مجموعه‌ای از مکالمات تلفنی ضبط شده به نام “Switchboard” مورد استفاده قرار گرفته است تا سیستم تشخیص گفتار برای دقت‌سنجی تست شود.

برای کاهش حدود ۱۲ درصدی میزان خطای سیستم نسبت به نتایج سال گذشته، این گروه تعدادی پیشرفت را در مدل‌های صوتی و زبانی مبتنی بر شبکه عصبی سیستم انجام داد.

در کنار ارتقای کلی تمام اجزای سیستم، میزان مدل واژگان سیستم از حدود ۳۰ هزار کلمه به ۱۶۵ هزار کلمه افزایش یافت.

مهمتر از همه، محققان آنچه را که “حافظه طولانی مدت و کوتاه مدت مبتنی بر محاوره” نامیده‌اند، تعویض کردند. به عبارت ساده، به این معناست که مدل جدید زبان به سیستم اجازه می‌دهد تا از کل مکالمات پیشین به عنوان سابقه در هنگام تلاش برای شناسایی دقیق عبارات خاص استفاده کند.

برای مثال، این امر به سیستم اجازه می‌دهد تا در صورت صحبت کردن در مورد ورزش، آن را به راحتی تشخیص دهد و خود را برای ترجمه و شناسایی عبارات تخصصی در مکالمات در حال انجام آماده کند.

این تیم یادآور می‌شود که در زمینه شناسایی گفتار هنوز کارهای زیادی برای انجام هست؛ چرا که این سیستم طراحی‌شده هنوز کارهای پیچیده مانند تشخیص گفتار در محیط‌های شلوغ و پر سر و صدا یا رمزگشایی سخنان با لهجه‌های غلیظ و مختلف را شامل نمی‌شود.

“ژیدونگ هوانگ”، تکنسین “مایکروسافت” می‌نویسد: علاوه بر این، ما باید کارهای زیادی را در آموزش کامپیوترها انجام دهیم که فقط گفت‌وگو را رونویسی نکنند، بلکه معنا و محتوای آنها را نیز درک کنند. حرکت از تشخیص گفتار به سمت درک گفتار، گام مهم بعدی برای فناوری تشخیص گفتار است.

سیستم‌های تشخیص گفتار “مایکروسافت” در حال حاضر در سرویس‌هایی مانند “Cortana” و “Speech Translator” استفاده می‌شود.

انتهای پیام

منبع: ایسنا