گرسنگی OpenAI برای داده ها در حال بازگشت به آن است

در توسعه هوش مصنوعی، الگوی غالب این است که داده های آموزشی بیشتر، بهتر است. مدل GPT-2 OpenAI دارای مجموعه داده ای متشکل از 40 گیگابایت متن بود. GPT-3 که ChatGPT مبتنی بر آن است، بر روی 570 گیگابایت داده آموزش داده شده است. OpenAI میزان حجم مجموعه داده های آخرین مدل خود، GPT-4 را به اشتراک نمی گذارد.

اما این عطش برای مدل‌های بزرگ‌تر اکنون به این شرکت بازگشته است. در چند هفته گذشته، چندین مقام غربی حفاظت از داده‌ها، تحقیقاتی را در مورد نحوه جمع‌آوری و پردازش داده‌های قدرتمند ChatGPT توسط OpenAI آغاز کرده‌اند. آنها بر این باورند که اطلاعات شخصی افراد مانند نام یا آدرس ایمیل را حذف کرده و بدون رضایت آنها از آنها استفاده کرده است.

مقامات ایتالیایی استفاده از ChatGPT را به عنوان یک اقدام پیشگیرانه مسدود کرده اند و تنظیم کننده های داده فرانسوی، آلمانی، ایرلندی و کانادایی نیز در حال بررسی نحوه جمع آوری و استفاده از داده ها توسط سیستم OpenAI هستند. هیئت حفاظت از داده‌های اروپا، سازمانی چتر برای مقامات حفاظت از داده‌ها، همچنین در حال راه‌اندازی یک کارگروه در سراسر اتحادیه اروپا برای هماهنگی تحقیقات و اجرا در مورد ChatGPT است.

ایتالیا به OpenAI تا 30 آوریل مهلت داده است تا از این قانون پیروی کند. این بدان معناست که OpenAI باید از مردم برای حذف داده‌هایشان رضایت بخواهد یا ثابت کند که «نفع قانونی» در جمع‌آوری آن‌ها دارد. OpenAI همچنین باید به مردم توضیح دهد که چگونه ChatGPT از داده‌هایشان استفاده می‌کند و به آن‌ها این قدرت را می‌دهد تا هر گونه اشتباهی را که چت ربات در مورد آن‌ها منتشر می‌کند تصحیح کنند، در صورت تمایل، داده‌هایشان را پاک کنند و با اجازه دادن به برنامه رایانه‌ای از آن‌ها مخالفت کنند.

اگر OpenAI نتواند مقامات را متقاعد کند که شیوه های استفاده از داده هایش قانونی است، ممکن است در کشورهای خاص یا حتی کل اتحادیه اروپا ممنوع شود. الکسیس لوتیه، کارشناس هوش مصنوعی در آژانس حفاظت از داده فرانسه CNIL می‌گوید، همچنین ممکن است با جریمه‌های سنگین مواجه شود و حتی ممکن است مجبور شود مدل‌ها و داده‌های مورد استفاده برای آموزش آنها را حذف کند.

لیلیان ادواردز، استاد حقوق اینترنت در دانشگاه نیوکاسل، می‌گوید نقض‌های OpenAI آنقدر آشکار است که احتمال دارد این پرونده به دیوان عدالت اتحادیه اروپا، بالاترین دادگاه اتحادیه اروپا ختم شود. ممکن است سال ها طول بکشد تا ما پاسخی برای سؤالات مطرح شده توسط تنظیم کننده داده ایتالیایی ببینیم.

بازی با ریسک بالا

ریسک برای OpenAI نمی تواند بالاتر باشد. مقررات عمومی حفاظت از داده های اتحادیه اروپا سخت ترین رژیم حفاظت از داده ها در جهان است و به طور گسترده در سراسر جهان کپی شده است. رگولاتورها در همه جا از برزیل تا کالیفرنیا به اتفاقات بعدی توجه زیادی خواهند داشت و نتیجه می تواند اساساً روش شرکت های هوش مصنوعی را برای جمع آوری داده ها تغییر دهد.

OpenAI علاوه بر شفافیت بیشتر در مورد شیوه های داده خود، باید نشان دهد که از یکی از دو راه قانونی ممکن برای جمع آوری داده های آموزشی برای الگوریتم های خود استفاده می کند: رضایت یا «منافع قانونی».