هوش مصنوعی «اوپنایآی» محتوای دارای حق چاپ را به خاطر میسپرد
به گزارش واحد علم و فناوری خبرگزاری صبح اقتصاد شرکت «اوپنایآی»(OpenAI) با برخی از نویسندگان، برنامهنویسان و سایر صاحبان حقوق درگیر است که آن را به استفاده بدون مجوز از آثار آنها شامل کتابها و پایگاههای رمز برای توسعه مدلهای خود متهم میکنند. اوپنایآی مدتها از استفاده منصفانه خود دفاع کرده است، اما شاکیان این موارد استدلال میکنند که در قانون حق چاپ آمریکا هیچ موردی برای استفاده از دادههای آموزشی وجود ندارد.
به نقل از تک کرانچ، این پژوهش که توسط پژوهشگران «دانشگاه واشنگتن»، «دانشگاه کپنهاگ» و «دانشگاه استنفورد» انجام شده است، روش جدیدی را برای شناسایی دادههای آموزشی پیشنهاد میکند که توسط مدلهای پشت یک API متعلق به شرکتهایی مانند اوپنایآی حفظ شدهاند.
مدلهای هوش مصنوعی مانند موتورهای پیشبینی هستند. مدلهایی که روی دادههای زیادی آموزش دیدهاند، الگوها را یاد میگیرند و به این ترتیب میتوانند مقاله، عکس و خروجیهای دیگر را تولید کنند. بیشتر خروجیها کپی کلمهبهکلمه دادههای آموزشی نیستند، اما به دلیل روش یادگیری مدلها، برخی از موارد ناگزیر کپی میشوند. مشخص شده است که مدلهای تصویری از فیلمهایی که روی آنها آموزش دیدهاند، اسکرینشات میگیرند. همچنین، در موارد بسیاری مشاهده شده است که مدلهای زبانی از مقالات خبری سرقت میکنند.
پژوهشگران در این پروژه، چندین مدل شرکت اوپنایآی از جمله «GPT-4» و «GPT-3.5» را برای یافتن نشانههایی از حفظ کردن با حذف کلمات از کتابهای داستانی و مقالات نیویورک تایمز بررسی کردند و از مدلها خواستند تا حدس بزنند کدام کلمات پوشانده شدهاند. نویسندگان همکار به این نتیجه رسیدند که اگر مدلها به درستی حدس بزنند، احتمالا این متنها را در طول روند آموزش حفظ کردهاند.
بر اساس نتایج آزمایشها، GPT-4 نشانههایی را از حفظ کردن بخشهایی از کتابهای داستانی محبوب، از جمله کتابهای الکترونیکی دارای حق چاپ نشان داد. همچنین، نتیجه آزمایشها نشان داد که این مدل هوش مصنوعی، بخشهایی را از مقالات نیویورک تایمز – البته با نرخ نسبتا پایینتر – حفظ کرده است.
«ابیلاشا راویچاندر»(Abhilasha Ravichander)، دانشجوی دانشگاه واشنگتن و از پژوهشگران این پروژه خاطرنشان کرد که یافتهها، مدلهای دارای دادههای متضاد را آشکار کردند. راویچاندر گفت: برای داشتن مدلهای زبانی بزرگ و قابل اعتماد باید مدلهایی داشته باشیم که بتوانیم آنها را تحت ارزیابی، ممیزی و بررسی علمی قرار دهیم. هدف پژوهش ما ارائه راهی برای بررسی مدلهای زبانی بزرگ است، اما نیاز واقعی به شفافیت بیشتر دادهها در کل اکوسیستم احساس میشود.
اوپنایآی مدتهاست که از محدودیتهای کمتر در توسعه مدلهایی با استفاده از دادههای دارای حق چاپ حمایت میکند. اگرچه این شرکت قراردادهای خاصی را برای صدور مجوز محتوا دارد و مکانیسمهایی را ارائه کرده که به صاحبان اثر امکان میدهند محتوای دارای حق چاپ را مشخص کنند، اما چندین بار دولت آمریکا را ترغیب کرده است تا قوانین استفاده منصفانه را درباره رویکردهای آموزشی هوش مصنوعی تدوین کند.
- منبع خبر : ایسنا