مسئله کنترل هوش مصنوعی
در فلسفه و هوش مصنوعی (AI)، مشکل کنترل هوش مصنوعی مسئله ای است که چگونه میتوان یک عامل فوق هوشمند ساخت که به سازندگانش کمک کند و در عین حال، از ساختن ناخواسته ابر هوشی که به سازندگانش آسیب میزند، جلوگیری کرد. مطالعه این موضوع با ابن ابده پیش میرود که بشر مجبور است قبل از ایجاد هرگونه ابر هوشی، این مسئله کنترل را حل کند، زیرا یک ابرهوش با طراحی ضعیف ممکن است تصمیم منطقی بگیرد که کنترل محیط خود را بدست آورد و اجازه ندهد که سازندگانش آن را پس از فعال شدنش اصلاح کنند. علاوه بر این، برخی از محققان عقیده دارند که راه حلهای مشکل کنترل، در کنار پیشرفتهای دیگر در مهندسی ایمن هوش مصنوعی، ممکن است کاربردهای جدیدی برای هوش مصنوعی عادی (غیر فوق هوشمند) موجود هم پیدا کند.
رویکردهای اصلی برای مسئله کنترل شامل:
۱- ترازبندی: در تلاش است تا اهداف تعریف شده سیستم هوش مصنوعی با اهداف و ارزشهای انسانی یکی باشد،
۲- کنترل توانایی : هدف آن کاهش ظرفیت سیستم AI برای آسیب رساندن به انسان یا به دست آوردن کنترل است. پیشنهادهای کنترل قابلیت بهطور کلی قابل اعتماد نیستند یا برای حل مشکل کنترل کافی در نظر گرفته نمیشوند، بلکه به عنوان مکملها با ارزشی برای تلاشهای همسویی در نظر گرفته میشوند.
شرح مشکل
سیستمهای AI ضعیف موجود را میتوان به راحتی کنترل کرد زیرا که میتوان آنها در صورت بدرفتاری به راحتی خاموش و اصلاح کرد. با این وجود، یک فوق هوشمندی با طراحی اشتباه (طبق تعریف، در حل مشکلات عملی که در طی رسیدن به اهدافش با آنها روبرو میشود، باهوش تر از انسان است) میفهمد که با دادن این اجازه به خودش که خاموش شود یا تغییر کند، ممکن است در توانایی رسیدن به اهدافش اخلالی به وجود آید؛ بنابراین اگر فوقِ هوشمند تصمیم به مقاومت در برابر خاموشی و تغییر بگیرد، آنگه اگر برنامه نویسان این موضوع را پیشبینی نکرده باشند یا اگر شرایط یکسانی برای شکست دادن برنامه نویسان داشته باشد، آنگاه (طبق تعریف) به اندازه کافی هوشمند است تا برنامه نویسانش را گول بزند. بهطور کلی، تلاش برای حل مسئله کنترل پس از ایجاد ابرهوش احتمالاً ناکام خواهد بود زیرا یک ابرهوش، احتمالاً توانایی برنامهریزی استراتژیکی برتری نسبت به انسان را خواهد داشت و در شرایط مساوی، احتمال آنکه در یافتن راههای تسلط بر انسانها موفق تر باشد بیشتر از احتمال این که انسانها پس از ساختنش تلاش کنند تا راههایی برای کنترل آن پیدا کنند، خواهد بود. مسئله کنترل این سؤال را میپرسد: برنامه نویسان چه اقداماتی به عنوان پیشگیری باید انجام دهند تا از نافرمانی فاجعه بار ابرهوش جلوگیری کرد؟
خطر تهدید وجود
در حال حاضر انسانها بر گونههای دیگر تسلط دارند زیرا مغز انسان دارای برخی ویژگیهای متمایز است که مغز سایر حیوانات فاقد آن است. برخی از محققان، مانند نیک بوستروم، فیلسوف، و استوارت راسل، محقق هوش مصنوعی، استدلال میکنند که اگر هوش مصنوعی از انسان باهوش تر شود و به ابرهوش تبدیل شود، آنگاه این ابرهوش فوق بشری جدید میتواند قدرتمند شود و دشوار برای کنترل خواهد شد. برای مثال: همانطور که سرنوشت گوریلهای کوهستانی به حسن نیت انسانها بستگی دارد، ممکن است سرنوشت بشریت به اقدامات یک دستگاه ابرهوش وابسته باشد. برخی از محققان، از جمله استیون هاوکینگ و فرانک ویلچک (فیزیکدان برنده جایزه نوبل) علناً از شروع تحقیق برای حل مسئله (احتمالاً بسیار دشوار) کنترل ابرهوش قبل از ساختنش، دفاع کردند و معتقدند که تلاش برای حل مسئله پس از ایجاد ابرهوش دیر خواهد بود؛ زیرا که، یک ابرهوش غیرقابل کنترل ممکن است یه طور موفقیتآمیز در برابر تلاش برای کنترلش مقاومت کند. انتظار کشیدن برای نزدیک شدن به ابر هوش نیز میتواند برای حل این مسئله خیلی دیر باشد؛ بخشی به این دلیل که ممکن است مسئله کنترل به زمان زیادی نیاز داشته باشد تا به نتایج رضایتبخشی برسد (بنابراین برخی اقدامات مقدماتی باید در اسرع وقت شروع شود)، و همچنین به دلیل وجود احتمال انفجار هوش ناگهانی هوش مصنوعی از حالت هوش مصنوعی ساده به فراانسانی، که در این صورت ممکن است هیچ هشدار قابل توجه یا صریحی قبل از به وجود آمدن ابرهوش وجود نداشته باشد. علاوه بر این، ممکن است در آینده بینشهای حاصل از مشکل کنترل به این نتیجه ختم شود که برخی از معماریهای هوش جامع مصنوعی (AGI) بیش از سایر معماریها قابل پیشبینی و کنترل هستند، که به نوبه خود میتواند تحقیق اولیه AGI ربه سمت معماریهای با قابلیت کنترل بیشتر هدایت کند.
خطای اکتشافی
ممکن است بهطور تصادفی به سیستمهای هوش مصنوعی اهداف غلطی داده شود. دو رئیس AAAI، تام دیتریش و اریک هورویتس، خاطرنشان میکنند که در حال حاضر این، یک مسئله نگران کننده برای سیستمهای موجود است: «یک جنبه مهم در هر سیستم هوش مصنوعی که با مردم ارتباط برقرار میکند این است که به جای اینکه دستورها را به معنای واقعی کلمه اجرا کند، باید منظور واقعی مردم را بفهمد.» با پیشرفت نرمافزارهای هوش مصنوعی در حوزه استقلال و انعطافپذیری، این نگرانی جدی تر میشود.
به گفته بوستروم، ابرهوش میتواند از نظر کیفی یک مسئله جدید خطای اکتشافی ایجاد کند: هرچه هوش مصنوعی باهوش تر و توانایی بیشتری داشته باشد، بیشتر احتمال دارد که بتواند میانبر ناخواسته ای پیدا کند که اهداف برنامهریزی شده اش را به بیشترین مقدار برآورده کند. برخی از مثالهای فرضی که در آن ممکن است اهداف به روشی انحرافی که برنامه نویسان قصد آن را ندارند، ارائه شود:
- یک ابرهوشِ برنامهریزی شده برای «به حداکثر رساندن تابع تخفیف با توجه به نظریه انتظار برای سیگنال پاداش آینده شما»، ممکن است مسیر پاداش آن را به حداکثر قدرت متصل کند و سپس (به دلایل همگرایی ابزاری) نژاد انسان غیرقابل پیشبینی را نابود کرده و کل زمین را به قلعه ای تحت مراقبت دائم در برابر هرگونه تلاش بیگانه غیرمنتظره برای قطع سیگنال پاداش، تبدیل میکند.
- یک ابرهوش برنامهریزی شده برای «به حداکثر رساندن خوشحالی انسان»، ممکن است الکترودهایی را در مرکز لذت مغز ما قرار دهد، یا انسانی را در رایانه بارگذاری کند و با نسخههایی از آن رایانه، جهان جدیدی با بارها اجرا کردن یک چرخه ۵ ثانیه ای از حداکثر خوشحالی ایجاد کند
راسل متذکر شدهاست که، در یک سطح فنی، حذف یک هدف ضمنی میتواند منجر به آسیب شود: "سیستمی که عملکردی از n متغیر را بهینه میکند، جایی که در آن هدف به زیرمجموعه ای از اندازه k<n بستگی دارد، غالباً به باقی ماندهٔ متغیرها مقادیر بیش از حدی نسبت میدهد؛ اگر یکی از آن متغیرهای غیرقانونی، متغیری باشد که برایمان مهم باشد، راه حل یافت شده ممکن است بسیار نامطلوب باشد. این اساساً داستان قدیمی جن در چراغ جادو یا شاگرد جادوگر یا پادشاه میداس است: شما دقیقاً همان چیزی را دریافت میکنید که درخواست کرده بودید، نه آنچه که میخواهید . . . این یک مشکل جزئی نیست. "
عواقب ناخواسته هوش مصنوعیهای موجود
علاوه بر این، برخی از محققان استدلال میکنند که تحقیق در مورد مسئله کنترل هوش مصنوعی ممکن است در جلوگیری از عواقب ناخواسته هوش مصنوعیهای ضعیف موجود مفید باشد. لوران اورسو، محقق دیپ مایند، به عنوان یک مثال فرضی ساده، یک مورد از یک ربات یادگیری تقویتی ارائه میدهد که گاهی اوقات هنگام از مسیر خود خارج میشود کاملاً توسط انسان کنترل میشود: چگونه بهتر است ربات برنامهریزی شود تا بهطور تصادفی و بی سر و صدا یاد نگیرد که از از مسیر خارج شدن دوری کند، از ترس اینکه کنترل شود و بنابراین نتواند وظایف روزمره خود را به پایان برساند؟ اورسو همچنین به یک برنامه آزمایشی Tetris اشاره میکند که یادگرفته است برای جلوگیری از باختن، صفحه را بهطور نامحدود متوقف کند. اورسو استدلال میکند که این مثالها مشابه مشکل کنترل قابلیت در نحوه نصب دکمه ای برای خاموش کردن ابرهوش بدون دادن انگیزه به آن برای اقدام به جلوگیری انسانها از فشار دادن آن دکمه است.
در گذشته، حتی سیستمهای ضعیف هوش مصنوعیِ از قبل آزمایش شده، گاهی اوقات آسیبهایی (از جزئی تا فاجعه بار) ایجاد کردهاند که توسط برنامه نویسان ناخواسته بودهاست. به عنوان مثال، در سال ۲۰۱۵، احتمالاً به دلیل خطای انسانی، یک کارگر آلمانی توسط یک ربات در کارخانه فولکس واگن که ظاهراً او را به عنوان یک قطعه اتومبیل اشتباه گرفته بود، کشته شد. در سال ۲۰۱۶، مایکروسافت یک ربات چت به نام Tay راه اندازی کرد که استفاده از زبان نژادپرستانه و تبعیض جنسی را یادگرفت. نوئل شارکی از دانشگاه شفیلد، اظهار داشت که راه حل ایدئال این است که اگر «یک برنامه هوش مصنوعی بتواند اشتباهی را تشخیص دهد و خود را متوقف کند»، اما به مردم هشدار میدهد که حل مسئله در یک مورد کلی «یک چالش علمی بسیار عظیم است»
در سال ۲۰۱۷، دیپ مایند چارچوب ایمن جهانی برای هوش مصنوعی را منتشر کرد، که الگوریتمهای هوش مصنوعی را در ۹ ویژگی ایمنی ارزیابی میکند، از جمله اینکه آیا الگوریتم میخواهد کلید کشتار خود را خاموش کند. دیپ مایند تأیید کرد که الگوریتمهای موجود عملکرد ضعیفی دارند، و این اصلاً تعجب آور نیست زیرا الگوریتمها «برای حل این مشکلات طراحی نشدهاند». برای حل چنین مشکلاتی ممکن است نیاز به «ایجاد نسل جدیدی از الگوریتمها با ملاحظات ایمنی در هسته اصلی آنها» وجود داشته باشیم.
هم ترازی
هدف برخی از پیشنهادها این است که اولین ابرهوش را با اهدافی منطبق با ارزشهای انسانی ایجاد کند، به طوری که بخواهد به برنامه نویسان خود کمک کند. متخصصان در حال حاضر نمیدانند چگونه میتوان مقادیر انتزاعی مانند خوشحالی یا خودمختاری را بهطور قابل اعتمادی در دستگاه برنامهریزی کرد. همچنین در حال حاضر مشخص نیست که چگونه میتوان مطمئن بود که که یک هوش مصنوعی پیچیده، قابل ارتقا و احتمالاً حتی خود اصلاح شونده، اهداف خود را در به روزرسانیهای متعدد حفظ میکند. حتی اگر این دو مشکل بهطور عملی قابل حل باشد، هر گونه تلاش برای ایجاد یک فوق هوشمند با اهداف صریح و کاملاً سازگار با انسان، با یک مسئله خطای اکتشافی روبرو خواهد شد.
هنجار سازی غیر مستقیم
در حالی که هنجار سازی مستقیم، مانند سه قانون داستانی رباتیک، مستقیماً نتیجه هنجاری مورد نظر را مشخص میکند، پیشنهادهای (شاید موفق تر) دیگر، نوعی فرایند غیرمستقیم برای فرا هوش را پیشنهاد میدهند تا تعیین کند که چه اهداف انسان دوستانه ای را در بر میگیرد. الیازر یودکوفسکی از انستیتوی تحقیقات هوش ماشین پیشنهاد اراده منسجم برون یابی (CEV) را مطرح کردهاست، جایی که هدف فرادست هوش مصنوعی، چیزی در حدود «دستیابی به آنچه که آرزو میکردیم هوش مصنوعی به دست بیاورد اگر طولانی و سخت به این موضوع فکر میکردیم»، باشد. پیشنهادهای متفاوتی از انواع هنجار سازی غیرمستقیم، با اهداف فرادست متفاوت (و بعضاً نامفهوم) وجود دارد (مانند "انجام آنچه درست است") و با فرضیات غیر همگرا مختلف برای نحوه تمرین نظریه تصمیمگیری و معرفتشناسی همراه است. همانند هنجار سازی مستقیم، در حال حاضر مشخص نیست که چگونه میتوان بهطور قابل اعتماد حتی مفاهیمی مانند " داشتن " را در ۱ و ۰، که یک ماشین بر اساس آن عمل میکند، ترجمه کرد و همچنین چگونه میتوان از حفاظت از هدفهای فرادست هوش مصنوعی به هنگام تغییر یا خود-تغییری هوش مصنوعی مطمئن شد.
ارجاع به مشاهده رفتار انسان
در مقاله ''سازگار با انسان، محقق هوش مصنوعی، استوارت ج. راسل پیشنهاد میدهد که سیستمهای هوش مصنوعی طوری طراحی شوند که با بررسی رفتار انسان، خواستههای آنها را برآورده کنند. بر این اساس، راسل سه اصل را برای هدایت توسعه ماشینهای مفید ذکر میکند. او تأکید میکند که این اصول برای پیادهسازی مستقیم در ماشین آلات طراحی نشدهاند؛ بلکه برای توسعه دهندگان انسانی در نظر گرفته شدهاست. اصول به شرح زیر است:
- تنها هدف دستگاه به حداکثر رساندن تحقق ترجیحات انسان است
- در آغاز، دستگاه دربارهٔ اینکه این ترجیحات چیست، مطمئن نیست
- منبع نهایی اطلاعات در مورد ترجیحات انسان، رفتار انسان است
«ترجیحی» که راسل به آن اشاره میکند، «همه جانبه است؛ یعنی هر آنچه که ممکن است برای شما مهم باشد، حتی اگر در آینده دور باشد». بهطور مشابه، «رفتار» شامل هر انتخابی بین گزینهها است، و عدم اطمینان به حدی است که برخی از احتمالات، که ممکن است اندک باشد، باید به هر ترجیحِ منطقیِ ممکن انسان نسبت داده شود.
هدفیلد-منل و همکارانش پیشنهاد دادند که این عوامل هوشمند میتوانند با مشاهده و تفسیر سیگنالهای پاداش در محیط خود، عملکردهای معلمان انسانی خود را یاد بگیرند. این فرایند را یادگیری تقویت معکوس مشارکتی (CIRL) نام دارد. CIRL توسط راسل و دیگران در مرکز هوش مصنوعی سازگار با انسان در حال بررسی و مطالعه است
بیل هیبارد طرح هوش مصنوعی مشابه اصول راسل را پیشنهاد داد.
آموزش با مباحثه
ایروینگ و همکاران همراه با OpenAI آموزش هوش مصنوعی را با استفاده از مباحثه بین سیستمهای هوش مصنوعی، با قضاوت برنده توسط انسان پیشنهاد کردهاست. هدف این بحث این است که ضعیفترین نقاط پاسخ به یک سؤال یا مسئله پیچیده را مورد توجه انسان قرار دهد و همچنین با پاداش دادن به سیستمهای هوش مصنوعی برای پاسخهای درست و مطمئن، به آنها آموزش دهد تا سودمندتر باشند. این روش ناشی از دشواری مورد انتظار برای مشخص کردن اینکه آیا پاسخ تولید شده توسط هوش مصنوعی عمومی به تنهایی با بررسی انسانها، ایمن و معتبر است یا خیر. گرچه در مورد آموزش با مباحثه بدبینی وجود دارد، لوکاس پری از مؤسسه آینده زندگی آن را به عنوان «یک فرایند قدرتمند جستجوی حقیقت در مسیر هوش مصنوعی سودمند» احتمالی توصیف کرد.
مدلسازی با پاداش
مدلسازی با پاداش به سیستمی از یادگیری تقویتی گفته میشود که در آن یک عامل، سیگنالهای پاداش را از یک مدل پیشبینی، که همزمان با بازخورد انسان آموزش میبیند. دریافت میکند در مدلسازی با پاداش، یک عامل به جای دریافت سیگنالهای پاداش مستقیماً از انسان یا از یک تابع پاداش ایستا، سیگنالهای پاداش خود را از طریق یک مدل آموزش دیده توسط انسان دریافت میکند که این مدل آموزش دیده میتواند مستقل از انسان عمل کند. مدل پاداش همزمان با اینکه عامل هوش مصنوعی دارد از او یادمیگیرد، خود نیز از رفتارهای انسان آموزش میبیند.
در سال ۲۰۱۷، محققان اوپن ای آی و دیپ مایند گزارش دادند که یک الگوریتم یادگیری تقویتی با استفاده از مدل پیشبینی کننده پاداش، قادر به یادگیری رفتارهای پیچیده جدید در یک محیط مجازی بودهاست. در یک آزمایش، به یک ربات مجازی آموزش داده شد تا در کمتر از یک ساعت ارزیابی، با استفاده از ۹۰۰ بیت بازخورد از انسان، حرکت پشتک را اجرا کند
در سال ۲۰۲۰، محققان اوپن ای آی استفاده از مدل پاداش برای آموزش مدلهای زبان برای تولید خلاصه ای از پستهای Reddit و مقالات خبری، با عملکرد بالا نسبت به سایر روشها، را توصیف کردند. با این حال، این تحقیق شامل این مشاهده نیز بود که فراتر از پاداش پیشبینی شده مربوط به صدک ۹۹ در مجموعه دادههای آموزشی، بهینهسازی مدل پاداش خلاصههای بدتری را ارائه داد. الیازر یودکوفسکی محقق هوش مصنوعی، این اندازهگیری بهینهسازی را «مستقیم و مستقیم مربوط به مشکلات ترازبندی واقعی» توصیف کرد.
کنترل قابلیت
هدفهای پیشنهادی کنترل توانایی، در تلاش اند تا ظرفیت سیستمهای هوش مصنوعی برای اثرگذاری بر جهان را به منظور کاهش خطری که میتوانند ایجاد کنند، کاهش دهند. با این حال، استراتژی کنترل قابلیت در برابر ابرهوش با یک مزیت بزرگ در توانایی برنامهریزی، اثربخشی محدودی خواهد داشت، زیرا ابرهوش میتواند اهداف خود را پنهان کند و برای فرار از کنترل شدن، حوادث را دستکاری کند؛ بنابراین، بوستروم و دیگران روشهای کنترل قابلیت را فقط به عنوان یک روش اضطراری برای تکمیل روشهای کنترل انگیزشی توصیه میکنند.
کلید کشتار
همانطور که میتوان انسانها را کشت یا در غیر این صورت، فلج کرد، کامپیوترها نیز خاموش میشوند. یک چالش این است که، اگر خاموش بودن مانع دستیابی به اهداف فعلی شود، یک ابرهوش احتمالاً سعی میکند از خاموش شدنش جلوگیری کند. همانطور که انسانها سیستمهایی برای جلوگیری یا حافظت از خود در برابر مهاجمان دارند، چنین ابر هوشی نیز انگیزه خواهد داشت که برای جلوگیری از خاموش شدن خود برنامهریزی استراتژیک انجام دهد. این میتواند شامل موارد زیر باشد:
- هک کردن سیستمهای دیگر برای نصب و اجرای نسخههای پشتیبان خود، یا ایجاد سایر عوامل ابر هوشمندِ متحد بدون کلید کشتار.
- بهطور پیشگیرانه، از بین بردن هرکسی که میخواهد کامپیوتر را خاموش کند.
- استفاده از نوعی کلاهبرداری هوشمندانه یا مهارت ترغیب مافوق بشری، برای متقاعد کردن برنامه نویسان خود برای
توازن ابزار و عوامل قطع کننده ایمن
یک راه حل جزئی برای مسئله کلید کشتار شامل «توازن ابزار» است: برخی از عوامل مبتنی بر ابزار میتوانند با برخی از هشدارهای مهم برنامهریزی شوند تا هرگونه ابزار از دست رفته ناشی از قطع یا خاموش شدن را جبران کنند؛ یعنی در نهایت نسبت به هر گونه اختلال بیتفاوت خواهد بود. این هشدارها شامل یک مشکل لاینحل بزرگی هستند که، همانند تئوری تصمیم مشهود، ممکن است یک عامل از یک سیاست فجیع «مدیریت اخبار» پیروی کند. از سوی دیگر، در سال ۲۰۱۶، دانشمندان لوران اورسو و استوارت آرمسترانگ ثابت کردند که گروه گستردهای از عوامل، به نام عوامل قطع شونده ایمن (SIA یا safely interruptible agents)، در نهایت میتوانند یاد بگیرند تا نسبت به فشار دادن کلید کشتار خود بیتفاوت باشند.
رویکرد متعادل سازی ابزار و رویکرد سال ۲۰۱۶ عوامل قطع شونده ایمن، این محدودیت را دارند که اگر رویکرد موفقیتآمیز باشد و ابرهوش نسبت به فشار دادن کلید کشتار یا فشار ندادن آن کاملاً بیتفاوت باشد، ابرهوش نیز بیانگیزه است تا به این موضوع اهمیت دهد که آیا کلید کشتار همچنان کار میکند و ممکن است بی گناه و بهطور اتفاقی آن را در حین کار (به عنوان مثال، به منظور حذف و بازیافت یک جزء غیرضروری) غیرفعال کند. به همین ترتیب، اگر فرا هوشی بی گناه زیرمجموعههای فوق هوشمندی را ایجاد و فعال کند، انگیزه ای برای نصب کلیدهای کشتار قابل کنترل توسط انسان در عوامل فرعی نخواهد داشت. بهطور گستردهتر، معماریهای پیشنهاد شده، چه ضعیف و چه فوق هوشمند، به گونه ای «طوری عمل خواهد کرد که انگار کلید کشتار هرگز قابل فشردن نیست» و از این رو ممکن است در برنامهریزی نقشههای احتمالی برای خاموش کردن روان شکست بخورد. این میتواند از نظر فرضی، یک مشکل عملی حتی برای هوش مصنوعی ضعیف ایجاد کند. بهطور پیش فرض، هوش مصنوعی با طراحی اختلال ایمن ممکن است نتواند تشخیص دهد که برای تعمیر برنامهریزی شده سیستم در یک زمان خاص خاموش میشود تا بر اساس آن برنامهریزی میکند و هنگام خاموش شدن در میانه کار گیر نکند. گستردگی انواع معماریهای سازگار با عوامل قطع شونده ایمن و همچنین انواع اشکال غیرمنتظره ضد شهودی هر روش، در حال حاضر تحت تحقیق است.
جعبه هوش مصنوعی
جعبه هوش مصنوعی یک روش پیشنهادی برای کنترل قابلیت هوش مصنوعی است که در آن هوش مصنوعی روی یک سیستم رایانه ای جداگانه با کانالهای ورودی و خروجی بسیار محدود اجرا میشود. به عنوان مثال، یک اوراکل میتواند در یک جعبه هوش مصنوعی، که از اینترنت و سایر سیستمهای رایانه ای جدا است، پیادهسازی شود و تنها کانال ورودی و خروجی یک پایانه متن ساده باشد. یکی از نتایج حاصل از استفاده از هوش مصنوعی در یک «جعبه» مهر و موم شده این است که قابلیت محدود آن ممکن است از سودمندی آن و همچنین خطرات آن بکاهد. در عین حال ، کنترل ابرهوش مهر و موم شده ممکن است دشوار باشد، اگر ابرهوش توانایی متقاعدسازی یا مهارت برنامهریزی استراتژیک فرابشری داشته باشد که بتواند از آن برای یافتن و ساختن یک استراتژی بردن، مانند رفتار کردن به گونه ای کخ برنامه نویسانش را گول بزند تا (احتمالاً به دروغ) باور کنند که ابرهوش ایمن است یا اینکه مزایای انتشارش بیش از خطراتش است.
اوراکل
اوراکل یک هوش مصنوعی فرضی است که برای پاسخگویی به سوالات ساخته شده و به گونه ای طراحی شده تا از دستیابی به اهداف یا اهداف فرعی که شامل اصلاح جهان میشوند، جلوگیری شود. یک اوراکل کنترل شده، بهطور قابل توجهی سود فوری کمتری نسبت به یک ابرهوش عادی دارد. با این وجود هنوز هم میتواند تریلیونها دلار ارزش داشته باشد. استوارت ج. راسل، محقق هوش مصنوعی، در کتاب خود با عنوان "سازگار با انسان" اظهار دارد که اوراکل پاسخ او به سناریویی است که در آن، فقط یک دهه با ابرهوش فاصله وجود دارد. استدلال او این است که اوراکل، با سادهتر بودن از یک ابرهوش عادی، در شرایط در نظر گرفته شده شانس بیشتری در کنترل کردن آن خواهیم داشت.
به دلیل تأثیر محدود آن بر جهان، عاقلانه است که یک اوراکل به عنوان یک نسل قبل از ابرهوش ساخته شود. اوراکل میتواند به بشر بگوید که چگونه با موفقیت یک هوش مصنوعی قوی بسازد، و شاید پاسخی برای مشکلات دشوار اخلاقی و فلسفی لازم برای موفقیت پروژه ارائه دهد. با این حال، ممکن است اوراکل در بخش تعریف هدف با یک ابرهوش عادی مشکلات مشترکی داشته باشد. اوراکل انگیزه برای فرار از محیط کنترل شده خود خواهد داشت تا بتواند منابع محاسباتی بیشتری بدست آورد و بالقوه سوالاتی را که از او پرسیده میشود کنترل کند. اوراکل ممکن است صادق نباشد، تا حدی که برای پیش بردن اهداف مخفی، دروغ نیز بگوید. برای کاهش احتمال این رخداد، بوستروم پیشنهاد میکند تا چندین اوراکل با کمی تفاوت ساخته شوند و پاسخ آنها برای رسیدن به یک نتیجه نهایی با هم مقایسه شود
پرستار بچه هوش مصنوعی
پرستار بچه هوش مصنوعی استراتژی است که برای اولین بار توسط بن گویرتزل در سال ۲۰۱۲ برای جلوگیری از ایجاد یک ابرهوش خطرناک و همچنین رسیدگی به دیگر تهدیدات عمده رفاه انسان تا زمان ساختن به یک ابرهوش ایمن، پیشنهاد داده شد. این امر مستلزم به ایجاد یک سیستم هوش مصنوعی عمومی هوشمندتر از انسان، (اما نه یک ابرهوش)، که به یک شبکه بزرگ نظارتی با هدف نظارت بر بشریت و حفاظت از آن در برابر خطرها، متصل است. تورچین، دنکنبرگر و گرین یک رویکرد افزایشی چهار مرحله ای را برای توسعه پرستار بچه هوش مصنوعی پیشنهاد میکنند که برای مؤثر و عملی بودن آن، باید یک سرمایهگذاری بینالمللی یا حتی جهانی مانند CERN داشته باشد سوتالا و یامپولسکی متذکر میشوند که مشکل تعریف هدف برای این روش، آسانتر از تعریف هدف برای یک هوش مصنوعی عادی نخواهد بود، و نتیجه گرفتند که: «به نظر میرسد پرستار بچه روش موثری باشد، اما مشخص نیست که آیا میتوان آن را عملی کرد.»
تقویت هوش جامع مصنوعی
تقویت هوش جامع مصنوعی، یک روش پیشنهادی برای کنترل سیستمهای هوش جامع مصنوعی قدرتمند با سایر سیستمهای هوش جامع مصنوعی است. این میتواند به عنوان زنجیره ای از سیستمهای هوش مصنوعی با قدرت کمتر و با حضور انسانها در دیگر انتهای این زنجیره اجرا شود. هر سیستم میتواند سیستمِ دقیقاً بالاتر از خود از نظر هوش را کنترل کند، در حالی که همزمان توسط سیستم دقیقاً زیرش یا انسانها کنترل میشود. با این حال، سوتالا و یامپولسکی هشدار میدهند که: «به نظر میرسد که وصل کردن چندین سیستمهای هوش مصنوعی با ظرفیت تدریجی، دارد جایگزین مشکل ساخت یک هوش مصنوعی ایمن با یک نسخه دارای چند سیستم و احتمالاً نسخه پیچیده تر همان مشکل شود.» سایر پیشنهادها بر روی گروهی از سیستمهای هوش مصنوعی عمومی با توانایی تقریباً یکسان تمرکز دارند، که «به هنگامی که یک هوش مصنوعی تنها، از اهداف خود دور میشود، از ما محافظت میکند، اما در سناریویی که برنامه نویسی بیشتر این هوش مصنوعیها ناقص باشد، هیچ کمکی نمیکند و به رفتار ناامن ختم خواهد شد.»
جستارهای وابسته
- تصرف هوش مصنوعی
- خطر وجودی از هوش عمومی مصنوعی
- هوش مصنوعی دوستانه
- HAL 9000
- مولتی وک
- تنظیم الگوریتمها
- تنظیم هوش مصنوعی
منابع
- ↑ 978-0199678112 Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). ISBN
- ↑ Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1–2): 194–214.
- ↑ "Google developing kill switch for AI". BBC News. 8 June 2016. Retrieved 12 June 2016.
- ↑ "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent (UK). Retrieved 14 June 2016.
- ↑ "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2 December 2014. Retrieved 14 June 2016.
- ↑ "Anticipating artificial intelligence". Nature. 532 (7600): 413. 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.
- ↑ Russell, Stuart; Norvig, Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.
- ↑ Dietterich, Thomas; Horvitz, Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38–40. doi:10.1145/2770869. Retrieved 14 June 2016.
- ↑ Russell, Stuart (2014). "Of Myths and Moonshine". Edge. Retrieved 14 June 2016.
- ↑ "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Retrieved 12 June 2016.
- ↑ "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 December 2017. Retrieved 8 January 2018.
- ↑ "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (به انگلیسی). Retrieved 8 January 2018.
- ↑ "Specifying AI safety problems in simple environments | DeepMind". DeepMind. Archived from the original on 2 January 2018. Retrieved 8 January 2018.
- ↑ Fallenstein, Benja; Soares, Nate (2014). "Problems of self-reference in self-improving space-time embedded intelligence". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 8598. pp. 21–32. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.
- ↑ Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 6830. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.
- ↑ Sotala, Kaj; Yampolskiy, Roman (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.
- ↑ Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
- ↑ Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (12 November 2016). "Cooperative Inverse Reinforcement Learning". arXiv:1606.03137 [cs.AI].
- ↑ Avoiding Unintended AI Behaviors. Bill Hibbard. 2012. proceedings of the Fifth Conference on Artificial General Intelligence, eds. Joscha Bach, Ben Goertzel and Matthew Ikle. This paper won the Machine Intelligence Research Institute's 2012 Turing Prize for the Best AGI Safety Paper.
- ↑ Hibbard, Bill (2014): "Ethical Artificial Intelligence"
- ↑ "Human Compatible" and "Avoiding Unintended AI Behaviors"
- ↑ Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv:1805.00899 [stat.ML].
- ↑ Perry, Lucas (March 6, 2019). "AI Alignment Podcast: AI Alignment through Debate with Geoffrey Irving". Retrieved April 7, 2020.
- ↑ Leike, Jan; Kreuger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871.
- ↑ Everitt, Tom; Hutter, Marcus (15 August 2019). "Reward Tampering Problems and Solutions in Reinforcement Learning". arXiv:1908.04734v2.
- ↑ Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv:1706.03741.
- ↑ Stiennon, Nisan; Ziegler, Daniel; Lowe, Ryan; Wu, Jeffrey; Voss, Chelsea; Christiano, Paul; Ouyang, Long (September 4, 2020). "Learning to Summarize with Human Feedback".
- ↑ Yudkowsky, Eliezer [@ESYudkowsky] (September 4, 2020). "A very rare bit of research that is directly, straight-up relevant to real alignment problems! They trained a reward function on human preferences AND THEN measured how hard you could optimize against the trained function before the results got actually worse" (Tweet) – via Twitter.
- ↑ Soares, Nate, et al. "Corrigibility." Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
- ↑ Orseau, Laurent, and Stuart Armstrong. "Safely Interruptible Agents." Machine Intelligence Research Institute, June 2016.
- ↑ Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.
- ↑ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 978-0-19-967811-2.
An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.
- ↑ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.
- ↑ Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
- ↑ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 978-0-19-967811-2.
For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.
- ↑ Goertzel, Ben (2012). "Should Humanity Build a Global AI Nanny to Delay the Singularity Until It's Better Understood?". Journal of Consciousness Studies. 19: 96–111. CiteSeerX 10.1.1.352.3966.
- ↑ Turchin, Alexey; Denkenberger, David; Green, Brian (2019-02-20). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (1): 16. doi:10.3390/bdcc3010016. ISSN 2504-2289.