مدل های جدید هوش مصنوعی متا می توانند برای بیش از 1000 زبان گفتار را تشخیص دهند و تولید کنند

حدود 7000 زبان در جهان وجود دارد، اما مدل‌های تشخیص گفتار موجود تنها حدود 100 زبان را به طور جامع پوشش می‌دهند. این به این دلیل است که این نوع مدل‌ها به مقادیر عظیمی از داده‌های آموزشی برچسب‌گذاری شده نیاز دارند که فقط برای تعداد کمی از زبان‌ها از جمله انگلیسی، اسپانیایی و چینی در دسترس است.

محققان متا با آموزش مجدد یک مدل هوش مصنوعی موجود که توسط این شرکت در سال 2020 توسعه یافته بود، این مشکل را حل کردند و قادر به یادگیری الگوهای گفتار از طریق صدا بدون نیاز به مقادیر زیادی داده برچسب‌دار، مانند رونوشت‌ها بود.

آنها آن را بر روی دو مجموعه داده جدید آموزش دادند: یکی شامل ضبط های صوتی انجیل عهد جدید و متن مربوط به آن که از اینترنت به 1107 زبان گرفته شده است، و دیگری حاوی ضبط های صوتی بدون برچسب عهد جدید به 3809 زبان. این تیم قبل از اجرای الگوریتمی که برای تراز کردن ضبط‌های صوتی با متن همراه طراحی شده بود، صدای گفتار و داده‌های متن را برای بهبود کیفیت آن پردازش کرد. سپس این فرآیند را با الگوریتم دوم آموزش داده شده بر روی داده های تازه تراز شده تکرار کردند. با استفاده از این روش، محققان توانستند به الگوریتم یاد بگیرند تا زبان جدید را آسان تر، حتی بدون متن همراه، یاد بگیرند.

مایکل اولی، دانشمند پژوهشی در متا که روی این پروژه کار می‌کرد، می‌گوید: «ما می‌توانیم از آنچه آن مدل یاد گرفت برای ساخت سریع سیستم‌های گفتاری با داده‌های بسیار بسیار کم استفاده کنیم.

برای زبان انگلیسی، ما مجموعه‌های داده‌های خوب بسیار زیادی داریم، و برای چند زبان دیگر نیز چنین چیزی را داریم، اما برای زبان‌هایی که مثلاً توسط 1000 نفر صحبت می‌شود، چنین چیزی نداریم.»

محققان می گویند مدل های آنها می توانند به بیش از 1000 زبان صحبت کنند اما بیش از 4000 زبان را تشخیص می دهند.

آن‌ها مدل‌ها را با مدل‌های شرکت‌های رقیب، از جمله OpenAI Whisper مقایسه کردند و ادعا کردند که مدل‌های آن‌ها با وجود اینکه ۱۱ برابر زبان‌ها را پوشش می‌دهند، نیمی از میزان خطا را داشتند.

با این حال، تیم هشدار می‌دهد که مدل همچنان در معرض خطر ترجمه اشتباه برخی کلمات یا عبارات است که می‌تواند منجر به برچسب‌های نادرست یا بالقوه توهین‌آمیز شود. آنها همچنین اذعان می‌کنند که مدل‌های تشخیص گفتار آن‌ها کلمات مغرضانه‌تری نسبت به مدل‌های دیگر ارائه می‌دهند، البته فقط 0.7 درصد بیشتر.

کریس Emezue، محقق در Masakhane، سازمانی که بر روی پردازش زبان طبیعی برای زبان‌های آفریقایی کار می‌کند و در این پروژه دخالتی نداشت، می‌گوید در حالی که دامنه این تحقیق چشمگیر است، استفاده از متون مذهبی برای آموزش مدل‌های هوش مصنوعی می‌تواند بحث‌برانگیز باشد. .

او می‌گوید: «کتاب مقدس دارای تعصبات و تفسیرهای نادرست زیادی است.