در توسعه هوش مصنوعی، الگوی غالب این است که داده های آموزشی بیشتر، بهتر است. مدل GPT-2 OpenAI دارای مجموعه داده ای متشکل از 40 گیگابایت متن بود. GPT-3 که ChatGPT مبتنی بر آن است، بر روی 570 گیگابایت داده آموزش داده شده است. OpenAI میزان حجم مجموعه داده های آخرین مدل خود، GPT-4 را به اشتراک نمی گذارد.
اما این عطش برای مدلهای بزرگتر اکنون به این شرکت بازگشته است. در چند هفته گذشته، چندین مقام غربی حفاظت از دادهها، تحقیقاتی را در مورد نحوه جمعآوری و پردازش دادههای قدرتمند ChatGPT توسط OpenAI آغاز کردهاند. آنها بر این باورند که اطلاعات شخصی افراد مانند نام یا آدرس ایمیل را حذف کرده و بدون رضایت آنها از آنها استفاده کرده است.
مقامات ایتالیایی استفاده از ChatGPT را به عنوان یک اقدام پیشگیرانه مسدود کرده اند و تنظیم کننده های داده فرانسوی، آلمانی، ایرلندی و کانادایی نیز در حال بررسی نحوه جمع آوری و استفاده از داده ها توسط سیستم OpenAI هستند. هیئت حفاظت از دادههای اروپا، سازمانی چتر برای مقامات حفاظت از دادهها، همچنین در حال راهاندازی یک کارگروه در سراسر اتحادیه اروپا برای هماهنگی تحقیقات و اجرا در مورد ChatGPT است.
ایتالیا به OpenAI تا 30 آوریل مهلت داده است تا از این قانون پیروی کند. این بدان معناست که OpenAI باید از مردم برای حذف دادههایشان رضایت بخواهد یا ثابت کند که «نفع قانونی» در جمعآوری آنها دارد. OpenAI همچنین باید به مردم توضیح دهد که چگونه ChatGPT از دادههایشان استفاده میکند و به آنها این قدرت را میدهد تا هر گونه اشتباهی را که چت ربات در مورد آنها منتشر میکند تصحیح کنند، در صورت تمایل، دادههایشان را پاک کنند و با اجازه دادن به برنامه رایانهای از آنها مخالفت کنند.
اگر OpenAI نتواند مقامات را متقاعد کند که شیوه های استفاده از داده هایش قانونی است، ممکن است در کشورهای خاص یا حتی کل اتحادیه اروپا ممنوع شود. الکسیس لوتیه، کارشناس هوش مصنوعی در آژانس حفاظت از داده فرانسه CNIL میگوید، همچنین ممکن است با جریمههای سنگین مواجه شود و حتی ممکن است مجبور شود مدلها و دادههای مورد استفاده برای آموزش آنها را حذف کند.
لیلیان ادواردز، استاد حقوق اینترنت در دانشگاه نیوکاسل، میگوید نقضهای OpenAI آنقدر آشکار است که احتمال دارد این پرونده به دیوان عدالت اتحادیه اروپا، بالاترین دادگاه اتحادیه اروپا ختم شود. ممکن است سال ها طول بکشد تا ما پاسخی برای سؤالات مطرح شده توسط تنظیم کننده داده ایتالیایی ببینیم.
بازی با ریسک بالا
ریسک برای OpenAI نمی تواند بالاتر باشد. مقررات عمومی حفاظت از داده های اتحادیه اروپا سخت ترین رژیم حفاظت از داده ها در جهان است و به طور گسترده در سراسر جهان کپی شده است. رگولاتورها در همه جا از برزیل تا کالیفرنیا به اتفاقات بعدی توجه زیادی خواهند داشت و نتیجه می تواند اساساً روش شرکت های هوش مصنوعی را برای جمع آوری داده ها تغییر دهد.
OpenAI علاوه بر شفافیت بیشتر در مورد شیوه های داده خود، باید نشان دهد که از یکی از دو راه قانونی ممکن برای جمع آوری داده های آموزشی برای الگوریتم های خود استفاده می کند: رضایت یا «منافع قانونی».