آموزش بدون مجوز مدلهای هوش مصنوعی از رونوشتهای متنی یوتیوب توسط غولهای فناوری
به گزارش ایتنا و به نقل از انگجت، این دیتاست که توسط یک شرکت غیرانتفاعی به نام EleutherAI ایجاد شده است، حاوی رونوشتهایی از ویدئوهای یوتیوب از بیش از 48000 کانال است، و از جمله توسط اپل، انویدیا و آنتروپیک استفاده شده است. یافتههای این تحقیقات واقعیت ناراحتکنندهای را درباره هوش مصنوعی روشن میکند: این فناوری عمدتاً بر پایه دادههایی ساخته شده است که از تولیدکنندگان محتوا بدون کسب رضایت یا پرداخت غرامت به آنها استخراج شده است.
این دیتاست شامل هیچ ویدیو یا تصویری از یوتیوب نیست، اما شامل رونوشتهای ویدیویی از بزرگترین تولیدکنندگان محتوا در این پلتفرم از جمله مارکز براونلی و MrBeast، و همچنین ناشران بزرگ خبری مانند نیویورکتایمز، بیبیسی و ABC News است. زیرنویسهای ویدیوهای متعلق به انگجت نیز بخشی از این دیتاست است.
براونلی در اکانت خود در ایکس اینگونه نوشت: «اپل دادههای هوش مصنوعی خود را از چندین شرکت تهیه کرده است.» او افزود: «یکی از آنها هزاران دیتا/رونوشت را از ویدیوهای یوتیوب، از جمله مال من، جمعآوری کرده است. وی افزود: «این یک مشکل رو به گسترش برای مدتی طولانی خواهد بود».
یکی از سخنگویان گوگل در پاسخ گفت که نظرات قبلی توسط نیل موهان، مدیرعامل یوتیوب، مبنی بر اینکه شرکتهایی که به شکلی از دادههای یوتیوب برای آموزش مدلهای هوش مصنوعی استفاده میکنند که شرایط و خدمات این پلتفرم را نقض میکند همچنان پابرجاست. اپل، انویدیا، آنتروپیک و EleutherAI به درخواست اظهار نظر از طرف انگجت پاسخ ندادند.
تاکنون، شرکتهای هوش مصنوعی درباره دادههای مورد استفاده برای آموزش مدلهای خود شفاف نبودهاند. در اوایل این ماه، هنرمندان و عکاسان اپل را به دلیل فاش نکردن منبع دادههای آموزشی برای Apple Intelligence مورد انتقاد قرار دادند.
یوتیوب، به طور ویژه به عنوان بزرگترین مخزن ویدیوهای جهان، معدن طلایی نه تنها رونوشت (ترانسکریپت)، بلکه صدا، ویدئو و تصاویر است که آن را به دیتاستی جذاب برای آموزش مدلهای هوش مصنوعی تبدیل میکند. در اوایل سال جاری، میرا موراتی، مدیر ارشد فناوری OpenAI، از پاسخ دادن به سؤالات والاستریتژورنال در مورد اینکه آیا این شرکت از ویدیوهای یوتیوب برای آموزش سورا (ابزار تولید ویدیوی هوش مصنوعی آتی OpenAI) استفاده میکند طفره رفت.
موراتی در آن زمان گفت: «من قصد ندارم وارد جزئیات دادههایی که استفاده شدهاند بشوم، اما این دادهها در دسترس عموم بوده یا دادههای دارای مجوز بودهاند». ساندار پیچای، مدیرعامل آلفابت، نیز گفته است که شرکتهایی که از دادههای یوتیوب برای آموزش مدلهای هوش مصنوعی خود استفاده میکنند شرایط خدمات این پلتفرم را نقض میکنند.
اگر میخواهید ببینید زیرنویسهای ویدیوهای یوتیوب شما یا کانالهای مورد علاقهتان بخشی از این دیتاست هستند یا نه، میتوانید به ابزار جستجوی Proof News مراجعه کنید.
این مطلب از سایت ایتنا گردآوری شده است.
منبع: ایتنا