آنتروپی متقاطع بین دو توزیع احتمال p و q روی یک مجموعه داده شده، به صورت زیر تعریف میشود:
جایی که آنتروپی p و دیورژانس کولبک- لیبلر از p به q است.
برای p و q گسسته داریم:
که مشابه توزیعهای پیوستهاست. باید فرض کنیم که p و q با توجه به اندازهگیری مرجع r کاملاً پیوسته هستند.
اگر P و Q توابع چگالی احتمال p وq با توجه به r باشند، بنابراین:
توجه داشته باشید که نوتیشین برای مفهوم دیگری برا pو q به نام آنتروپی توأم نیز مورد استفاده قرار میگیرد.
محرک
در تئوری اطلاعات، قضیه کرافت-مکمیلن هر کدام از روشهای کد قابل قبول را برای کدگذاری یک پیام شناسایی از مجموعه ای از احتمالات ، ایجاد میکند. این امر میتواند به صورت یک توزیع احتمال ضمنی روی ، نشان داده شود، جایی که ، طول کد ، در حالت بیتی است؛ بنابراین آنتروپی متقاطع میتواند به عنوان طول پیام مورد انتظار در هر پایگاه داده تفسیر شود، زمانی که توزیع نادرست Q در حالی فرض میشود که دادهها توزیع P را دنبال میکنند. به همین دلیل است که توزیع احتمال مورد انتظار P است.
تخمین
موقعیتهای زیادی وجود دارد که نیاز است آنتروپی متقاطع را اندازهگیری کرد، اما توزیع p نامعلوم است. یک مثال، مدلسازی زبان است جایی که مدل بر اساس مجموعه آموزشی T ایجاد میشود؛ و سپس آنتروپی متقاطع آن بر روی یک مجموعه آزمون، برای ارزیابی دقیق مدل در پیشبینی دادههای آزمون اندازهگیری میشود. در این مثال،p توزیع درستی از کلمات در مجموعه ای از نوشتهها و q توزیع کلماتی است که توسط مدل، پیشبینی شدهاست. چون توزیع درست، نامعلوم است آنتروپی متقاطع نمیتواند مستقیماً اندازهگیری شود. در این حالت تخمین آنتروپی متقاطع، به صورت زیر محاسبه میشود:
جایی که n طول مجموعه آزمون و احتمال وقوع رویداد x برآورد شده از مجموعه آزمون است. مجموع روی N محاسبه شدهاست. این یک تخمین مانته کورلو از آنتروپی متقاطع است، جایی که مجموعه آموزش به عنوان نمونه ای از مورد استفاده قرار میگیرد.
ارتباط با احتمال لگاریتم
در شرایط طبقه بندی ما می خواهیم احتمال نتایج مختلف را تخمین بزنیم. اگر برآورد احتمال از i مقدار باشد، در حالی که فرکانس i در مجموعه آموزشی، است و N نمونه برای مجموعه آموزشی موجود باشد، احتمال مجموعه آموزشی به صورت زیر است:
بنابراین احتمال لگاریتم که توسط N تقسیم شده، به صورت زیر است:
بنابراین برای به حداکثر رساندن احتمال، باید آنتروپی متقابل حداقل باشد.
مینیمم کردن آنتروپی متقاطع
بهینهسازی متقاطع آنتروپی در اغلب موارد در بهینهسازی و تخمین احتمال، احتمالی نادرست استفاده میشود. هنگام مقایسه یک توزیع q در برابر توزیع موجع ثابت p، آنتروپی متقاطع و دیورژانس KL یک ثابت افزایشی یکسان هستند: هر دو زمانی که p=q مقدار حداقل را می گیرند، که دیورژانس KL صفر و آنتروپی متقاطع است. در ادبیات مهندسی، اصل به حداقل رساندن دیورژانس KL را اصل به حداقل رساندن آنتروپی متقاطع می نامند. با این حال همانطور که در مقاله دیورژانس کولباک- لبلر بحث شده است، گاهی توزیع q یک توزیع پریور مرجع ثابت است و توزیع p برای نزدیک بودن به q با برخی از محدودیت ها بهینه سازی شده است. در این حالت دو معادله مساوی نیستند. این مسئله در نوشته ها باعث ابهاماتی شده است. برخی از نویسندگان برای حل ناپیوستگی با تعریف دوباره ای برای آنتروپی متقاطع که به جای باشد، تلاش می کنند.
تابع خطای آنتروپی متقاطع و رگرسیون لجستیک
آنتروپی متقاطع می تواند برای تعریف تابع زیان در یادگیری و بهینه سازی ماشین استفاده شود. احتمال درست یک برچسب واقعی است و توزیع داده شده ارزش پیش بینی شده از مدل فعلی است. به طور خاص اجازه دهید رگرسیون لجستیک را در نظر بگیریم، که (در فرم اصلی آن) با طبقه بندی یک مجموعه داده ای از داده ها به دو دسته ممکن می پردازد که با صفر و یک برچسب گذاری شده است. بنابراین مدل رگرسیون لجستیک یک خروجی را با توجه به ورودی پیش بینی می کند. احتمال با تابع لجستیک مدل می شود. یعنی احتمال یافتن خروجی به صورت زیر است:
جایی که بردار وزن w از طریق برخی الگوریتم های مناسب مثل سقوط گرادیان بهینه سازی شده است. به طور مشابه، احتمال مکمل یافتن خروجی به صورت زیر داده شده است:
احتمال واقعی (مشاهده شده) را می توان به صورت مشابه و بیان کرد. با قرار دادن نمادهای ما یعنی و ما می توانیم آنتروپی متقاطع را برای اندازه گیری عدم هماهنگی بین و استفاده کنیم:
تابع هزینه معمولی که از آن در رگرسیون لجستیک استفاده می شود با در نظر گرفتن میانگین تمام انتروپی های متقابل در نمونه محاسبه می شود. به عنوان مثال، فرض کنید که ما N نمونه داریم برای هر نمونه نشان داده شده . تابع زیان به صورت زیر است:
جایی که
با مثل قبل یک تابع لجستیک است.
زیان لجستیک معمولاً آنتروپی متقاطع زیان نامیده می شود.
جستارهای وابستهمنابع
https://en.wikipedia.org/wiki/Cross_entropy