هوش مصنوعی «اوپن‌ای‌آی» محتوای دارای حق چاپ را به خاطر می‌سپرد
هوش مصنوعی «اوپن‌ای‌آی» محتوای دارای حق چاپ را به خاطر می‌سپرد
یافته‌های یک پژوهش جدید به این ادعا که شرکت «اوپن‌ای‌آی» حداقل برخی از مدل‌های هوش مصنوعی خود را درباره محتوای دارای حق چاپ آموزش داده است، اعتبار می‌بخشند.

هوش مصنوعی «اوپن‌ای‌آی» محتوای دارای حق چاپ را به خاطر می‌سپرد

به گزارش واحد علم و فناوری خبرگزاری صبح اقتصاد شرکت «اوپن‌ای‌آی»(OpenAI) با برخی از نویسندگان، برنامه‌نویسان و سایر صاحبان حقوق درگیر است که آن را به استفاده بدون مجوز از آثار آنها شامل کتاب‌ها و پایگاه‌های رمز برای توسعه مدل‌های خود متهم می‌کنند. اوپن‌ای‌آی مدت‌ها از استفاده منصفانه خود دفاع کرده است، اما شاکیان این موارد استدلال می‌کنند که در قانون حق چاپ آمریکا هیچ موردی برای استفاده از داده‌های آموزشی وجود ندارد.

به نقل از تک کرانچ، این پژوهش که توسط پژوهشگران «دانشگاه واشنگتن»، «دانشگاه کپنهاگ» و «دانشگاه استنفورد» انجام شده است، روش جدیدی را برای شناسایی داده‌های آموزشی پیشنهاد می‌کند که توسط مدل‌های پشت یک API متعلق به شرکت‌هایی مانند اوپن‌ای‌آی حفظ شده‌اند.

مدل‌های هوش مصنوعی مانند موتورهای پیش‌بینی هستند. مدل‌هایی که روی داده‌های زیادی آموزش دیده‌اند، الگوها را یاد می‌گیرند و به این ترتیب می‌توانند مقاله، عکس و خروجی‌های دیگر را تولید کنند. بیشتر خروجی‌ها کپی کلمه‌به‌کلمه داده‌های آموزشی نیستند، اما به دلیل روش یادگیری مدل‌ها، برخی از موارد ناگزیر کپی می‌شوند. مشخص شده است که مدل‌های تصویری از فیلم‌هایی که روی آنها آموزش دیده‌اند، اسکرین‌شات می‌گیرند. همچنین، در موارد بسیاری مشاهده شده است که مدل‌های زبانی از مقالات خبری سرقت می‌کنند.

پژوهشگران در این پروژه، چندین مدل شرکت اوپن‌ای‌آی از جمله «GPT-4» و «GPT-3.5» را برای یافتن نشانه‌هایی از حفظ کردن با حذف کلمات از کتاب‌های داستانی و مقالات نیویورک تایمز بررسی کردند و از مدل‌ها خواستند تا حدس بزنند کدام کلمات پوشانده شده‌اند. نویسندگان همکار به این نتیجه رسیدند که اگر مدل‌ها به درستی حدس بزنند، احتمالا این متن‌ها را در طول روند آموزش حفظ کرده‌اند.

بر اساس نتایج آزمایش‌ها، GPT-4 نشانه‌هایی را از حفظ کردن بخش‌هایی از کتاب‌های داستانی محبوب، از جمله کتاب‌های الکترونیکی دارای حق چاپ نشان داد. همچنین، نتیجه آزمایش‌ها نشان داد که این مدل هوش مصنوعی، بخش‌هایی را از مقالات نیویورک تایمز – البته با نرخ نسبتا پایین‌تر – حفظ کرده است.

«ابیلاشا راویچاندر»(Abhilasha Ravichander)، دانشجوی دانشگاه واشنگتن و از پژوهشگران این پروژه خاطرنشان کرد که یافته‌ها، مدل‌های دارای داده‌های متضاد را آشکار کردند. راویچاندر گفت: برای داشتن مدل‌های زبانی بزرگ و قابل اعتماد باید مدل‌هایی داشته باشیم که بتوانیم آنها را تحت ارزیابی، ممیزی و بررسی علمی قرار دهیم. هدف پژوهش ما ارائه راهی برای بررسی مدل‌های زبانی بزرگ است، اما نیاز واقعی به شفافیت بیشتر داده‌ها در کل اکوسیستم احساس می‌شود.

اوپن‌ای‌آی مدت‌هاست که از محدودیت‌های کمتر در توسعه مدل‌هایی با استفاده از داده‌های دارای حق چاپ حمایت می‌کند. اگرچه این شرکت قراردادهای خاصی را برای صدور مجوز محتوا دارد و مکانیسم‌هایی را ارائه کرده که به صاحبان اثر امکان می‌دهند محتوای دارای حق چاپ را مشخص کنند، اما چندین بار دولت آمریکا را ترغیب کرده است تا قوانین استفاده منصفانه را درباره رویکردهای آموزشی هوش مصنوعی تدوین کند.

  • منبع خبر : ایسنا