در دو سال گذشته ، Facebook AI Research (FAIR) با 13 دانشگاه در سراسر جهان همکاری کرده است تا بزرگترین مجموعه داده های ویدئوی اول شخص را جمع آوری کند-به طور خاص برای آموزش مدل های تشخیص تصویر با یادگیری عمیق. هوش مصنوعی آموزش داده شده بر روی مجموعه داده در کنترل ربات هایی که با مردم ارتباط برقرار می کنند یا تفسیر تصاویر از عینک های هوشمند بهتر عمل می کند. کریستن گرومن در نمایشگاه FAIR ، که این پروژه را رهبری می کند ، می گوید: “ماشین ها قادر خواهند بود در زندگی روزمره ما به ما کمک کنند.”
چنین فناوری می تواند از افرادی که در خانه نیاز به کمک دارند پشتیبانی کند یا افرادی را که در حال انجام آنها هستند یاد بگیرند. مایکل ریو ، محقق بینایی رایانه ای در Google Brain و دانشگاه استونی بروک در نیویورک ، که در Ego4D مشارکت ندارد ، می گوید: “فیلم موجود در این مجموعه بسیار نزدیک به نحوه مشاهده انسان ها در جهان است.”
اما سوء استفاده های احتمالی روشن و نگران کننده است. بودجه این تحقیق توسط فیسبوک ، غول رسانه های اجتماعی ، که اخیراً در مجلس سنا متهم به سوددهی بر رفاه مردم شده است ، تأمین می شود. بررسی فناوری MITتحقیقات خود
مدل کسب و کار فیس بوک و سایر شرکت های Big Tech این است که تا آنجا که ممکن است اطلاعات زیادی را از رفتار آنلاین افراد جمع آوری کرده و به تبلیغ کنندگان بفروشند. هوش مصنوعی که در این پروژه بیان شده است می تواند به رفتارهای آفلاین روزمره افراد نیز برسد ، وسایل اطراف خانه فرد را نشان دهد ، از چه فعالیتهایی لذت می برد ، با چه کسانی وقت می گذراند و حتی جایی که نگاهش خیره می شود – میزان بی سابقه ای از اطلاعات شخصی.
گرومن می گوید: “هنگامی که این تحقیق را از دنیای تحقیقات اکتشافی خارج می کنید و به محصول محصولی می پردازید ، باید روی حریم خصوصی کار کنید.” “این کار حتی می تواند از این پروژه الهام گرفته شود.”
Ego4D یک گام تغییر است. بزرگترین مجموعه داده قبلی ویدئوهای اول شخص شامل 100 ساعت فیلم افراد در آشپزخانه است. مجموعه داده Ego4D شامل 3025 ساعت فیلم توسط 855 نفر در 73 مکان مختلف در 9 کشور (ایالات متحده ، انگلستان ، هند ، ژاپن ، ایتالیا ، سنگاپور ، عربستان سعودی ، کلمبیا و رواندا) است.
سن شرکت کنندگان و سوابق متفاوتی بود. برخی برای مشاغل بصری جالب خود مانند نانوایان ، مکانیک ، نجار و غرفه داران زمین جذب شدند.
مجموعه داده های قبلی معمولاً شامل کلیپ های ویدئویی نیمه اسکریپت شده فقط چند ثانیه است. در Ego4D ، شرکت کنندگان تا 10 ساعت دوربین های سرپوش دار می پوشیدند و فیلم های اول شخص از فعالیت های روزانه بدون نسخه ، از جمله قدم زدن در خیابان ، خواندن ، شستن لباس ها ، خرید ، بازی با حیوانات خانگی ، بازی روی تخته و تعامل با افراد دیگر برخی از فیلم ها همچنین شامل صوت ، اطلاعات مربوط به محل نگاه شرکت کنندگان و دیدگاه های متعدد در یک صحنه است. ریو می گوید این اولین مجموعه داده در نوع خود است.