حدود 7000 زبان در جهان وجود دارد، اما مدلهای تشخیص گفتار موجود تنها حدود 100 زبان را به طور جامع پوشش میدهند. این به این دلیل است که این نوع مدلها به مقادیر عظیمی از دادههای آموزشی برچسبگذاری شده نیاز دارند که فقط برای تعداد کمی از زبانها از جمله انگلیسی، اسپانیایی و چینی در دسترس است.
محققان متا با آموزش مجدد یک مدل هوش مصنوعی موجود که توسط این شرکت در سال 2020 توسعه یافته بود، این مشکل را حل کردند و قادر به یادگیری الگوهای گفتار از طریق صدا بدون نیاز به مقادیر زیادی داده برچسبدار، مانند رونوشتها بود.
آنها آن را بر روی دو مجموعه داده جدید آموزش دادند: یکی شامل ضبط های صوتی انجیل عهد جدید و متن مربوط به آن که از اینترنت به 1107 زبان گرفته شده است، و دیگری حاوی ضبط های صوتی بدون برچسب عهد جدید به 3809 زبان. این تیم قبل از اجرای الگوریتمی که برای تراز کردن ضبطهای صوتی با متن همراه طراحی شده بود، صدای گفتار و دادههای متن را برای بهبود کیفیت آن پردازش کرد. سپس این فرآیند را با الگوریتم دوم آموزش داده شده بر روی داده های تازه تراز شده تکرار کردند. با استفاده از این روش، محققان توانستند به الگوریتم یاد بگیرند تا زبان جدید را آسان تر، حتی بدون متن همراه، یاد بگیرند.
مایکل اولی، دانشمند پژوهشی در متا که روی این پروژه کار میکرد، میگوید: «ما میتوانیم از آنچه آن مدل یاد گرفت برای ساخت سریع سیستمهای گفتاری با دادههای بسیار بسیار کم استفاده کنیم.
برای زبان انگلیسی، ما مجموعههای دادههای خوب بسیار زیادی داریم، و برای چند زبان دیگر نیز چنین چیزی را داریم، اما برای زبانهایی که مثلاً توسط 1000 نفر صحبت میشود، چنین چیزی نداریم.»
محققان می گویند مدل های آنها می توانند به بیش از 1000 زبان صحبت کنند اما بیش از 4000 زبان را تشخیص می دهند.
آنها مدلها را با مدلهای شرکتهای رقیب، از جمله OpenAI Whisper مقایسه کردند و ادعا کردند که مدلهای آنها با وجود اینکه ۱۱ برابر زبانها را پوشش میدهند، نیمی از میزان خطا را داشتند.
با این حال، تیم هشدار میدهد که مدل همچنان در معرض خطر ترجمه اشتباه برخی کلمات یا عبارات است که میتواند منجر به برچسبهای نادرست یا بالقوه توهینآمیز شود. آنها همچنین اذعان میکنند که مدلهای تشخیص گفتار آنها کلمات مغرضانهتری نسبت به مدلهای دیگر ارائه میدهند، البته فقط 0.7 درصد بیشتر.
کریس Emezue، محقق در Masakhane، سازمانی که بر روی پردازش زبان طبیعی برای زبانهای آفریقایی کار میکند و در این پروژه دخالتی نداشت، میگوید در حالی که دامنه این تحقیق چشمگیر است، استفاده از متون مذهبی برای آموزش مدلهای هوش مصنوعی میتواند بحثبرانگیز باشد. .
او میگوید: «کتاب مقدس دارای تعصبات و تفسیرهای نادرست زیادی است.