حساب کاربری
​
زمان تقریبی مطالعه: 16 دقیقه
لینک کوتاه

آنتروپی تفاضلی

دیفرانسیل آنتروپی (همچنین به عنوان مستمر آنتروپی) یک مفهوم در نظریه اطلاعات که شروع به تلاش شانون به گسترش ایده (Shannon) آنتروپی اندازه‌گیری دمای هلندی، بین نژادهای مختلف از یک متغیر تصادفی به‌طور مداوم احتمال توزیع است. متأسفانه شانون نمی مشتق این فرمول و نه فقط فرض آن را درست مستمر آنالوگ آنتروپی گسسته است. واقعی نسخه مداوم آنتروپی گسسته است و محدود کردن تراکم نقاط گسسته (LDDP). دیفرانسیل آنتروپی (در اینجا توضیح داده شده‌است) مواجه می‌شوند که معمولاً در ادبیات، اما از آن است که محدود مورد LDDP و یکی که از دست می‌دهد و اساسی آن ارتباط با گسسته آنتروپی.

فهرست

  • ۱ تعریف
  • ۲ خواص آنتروپی دیفرانسیل
  • ۳ حداکثر در توزیع نرمال
  • ۴ مثال: توزیع نمایی
  • ۵ دیفرانسیل آنتروپی برای توزیعهای مختلف
  • ۶ انواع
  • ۷ جستارهای وابسته
  • ۸ منابع
  • ۹ پیوند به بیرون

تعریف

اجازه X یک متغیر تصادفی با یک چگالی احتمال تابع f که پشتیبانی یک مجموعه X

. این دیفرانسیل آنتروپی h(X) یا ثانیه(f) تعریف شده‌است به عنوان

h ( X ) = − ∫ X f ( x ) log ⁡ f ( x ) d x
.

برای توزیع‌های احتمالی است که نمی‌باید صریح و روشن تابع چگالی بیان اما باید صریح و روشن quantile تابع بیان Q(p) h(Q) را می‌توان تعریف شده در شرایط مشتق از Q(p) یعنی quantile تابع چگالی Q'(p) به عنوان

h ( Q ) = ∫ 0 1 log ⁡ Q ′ ( p ) d p
.

به عنوان با آن گسسته آنالوگ واحد دیفرانسیل آنتروپی بستگی به پایه لگاریتم است که معمولاً ۲ (برای مثال واحدهای بیت). دیدن لگاریتمی واحد برای لگاریتم گرفته در پایگاه‌های مختلف. مربوط به مفاهیم مشترک بین مشروط دیفرانسیل آنتروپی و آنتروپی نسبی تعریف شده در یک مد مشابه. بر خلاف گسسته آنالوگ دیفرانسیل آنتروپی یک افست که بستگی به واحد مورد استفاده برای اندازه‌گیری X. به عنوان مثال دیفرانسیل آنتروپی یک مقدار اندازه‌گیری میلی‌متر خواهد بود و ورود به سیستم(۱۰۰۰) بیش از همان مقدار اندازه‌گیری در متر؛ بعد مقدار باید دیفرانسیل آنتروپی از ورود به سیستم(۱۰۰۰) بیش از همان مقدار توسط ۱۰۰۰ تقسیم می‌شود.

یکی باید مراقبت در تلاش برای اعمال خواص آنتروپی گسسته به دیفرانسیل آنتروپی پس از چگالی احتمال توابع را می‌توان بزرگتر از ۱ است. به عنوان مثال ,(۰٬۱/۲) منفی دیفرانسیل آنتروپی

∫ 0 1 2 − 2 log ⁡ ( 2 ) d x = − log ⁡ ( 2 )
.

بنابراین دیفرانسیل آنتروپی می‌کند به اشتراک گذاری تمام خواص آنتروپی گسسته است.

توجه داشته باشید که پیوسته متقابل اطلاعات من(X;Y) تمایز حفظ آن اهمیت اساسی به عنوان یک اندازه‌گیری از اطلاعات گسسته از آن است که در واقع حد گسسته متقابل اطلاعات از پارتیشنهای X و Y به عنوان این پارتیشن تبدیل ظریف و ظریف است؛ بنابراین از آن است که ناوردا تحت غیر خطی homeomorphisms (پیوسته و منحصر به فرد invertible نقشه) مادر از جمله خطی تحولات X و Yو هنوز هم نشان دهنده مقدار گسسته اطلاعاتی که منتقل می‌شود بیش از یک کانال است که اذعان می‌کند یک فضای مداوم از ارزش‌ها.

به صورت مستقیم آنالوگ آنتروپی گسسته تمدید مستمر فضای ببینید محدود کردن تراکم نقاط گسستهاست.

خواص آنتروپی دیفرانسیل

  • برای تراکم f و gرا Kullback–Leibler واگرایی D(f||g) بزرگتر یا مساوی ۰ با برابری تنها در صورتی f = g تقریباً در همه جا. به طور مشابه برای دو متغیر تصادفی X و Yهای من(X;Y) ≥ ۰ و h(X|Y) ≤ h(X) برابری با اگر و تنها اگر X و Y هستند و مستقل است.
  • قاعده زنجیری برای دیفرانسیل دارای آنتروپی به عنوان در مورد گسسته
h ( X 1 , … , X n ) = ∑ i = 1 n h ( X i | X 1 , … , X i − 1 ) ≤ ∑ i = 1 n h ( X i )
.
  • دیفرانسیل آنتروپی ترجمه ناوردا یعنی h(X + c) = h(X) به صورت ثابت cاست.
  • دیفرانسیل آنتروپی به طور کلی نمی ناوردا تحت دلخواه invertible نقشه. به طور خاص برای ثابت یکدوست ثانیه(aX) = h(X) + log|a|. برای یک بردار با ارزش متغیر تصادفی X و یک ماتریس یکدوست ثانیه(یک X) = h(X) + log|det(A)|.
  • در کل برای یک تغییر و تحول از یک بردار تصادفی به یکی دیگر از تصادفی وکتور با همان ابعاد Y = m(X) مربوط به آنتروپی مربوط از طریق
h ( Y ) ≤ h ( X ) + ∫ f ( x ) log ⁡ | ∂ m ∂ x | d x
که در آن | ∂ m ∂ x |
است ژاکوبین تحول m. فوق نابرابری می‌شود برابری اگر تبدیل bijection. هنگامی که m سفت و سخت چرخش ترجمه یا ترکیبی از آن ژاکوبین تعیین کننده است که همیشه ۱ و h(Y) = h(X).
  • اگر یک بردار تصادفی X در R دارای میانگین صفر و کوواریانس ماتریس Kزدن h ( X ) ≤ 1 2 log ⁡ ( det 2 π e K ) = 1 2 log ⁡ [ ( 2 π e ) n det K ]
    برابری با اگر و تنها اگر X است که به‌طور مشترک گاوسی (نگاه کنید به زیر).

اما دیفرانسیل آنتروپی ندارد دیگر خواص مطلوب:

  • آن است که ناوردا تحت تغییر متغیر است و بنابراین مفید با بعد متغیر است.
  • آن می‌تواند منفی باشد.

اصلاح دیفرانسیل آنتروپی که آدرس این اشکالاتی است که اطلاعات نسبی آنتروپی, همچنین شناخته شده به عنوان Kullback–Leibler واگراییکه شامل یک یکسان اندازه‌گیری فاکتور (نگاه کنید به محدود کردن تراکم نقاط گسسته).

حداکثر در توزیع نرمال

با یک توزیع نرمال دیفرانسیل آنتروپی حداکثر برای یک داده شدند. به دنبال اثبات این است که یک Gaussian متغیر است و بزرگترین آنتروپی در میان تمام متغیرهای تصادفی برابر واریانس یا معادل آن است که حداکثر آنتروپی توزیع تحت محدودیت میانگین و واریانس است گاوسی.

اجازه دهید g(x) یک Gaussian PDF با میانگین μ و واریانس σ و f(x) خودسرانه PDF با همان واریانس است. پس از دیفرانسیل آنتروپی ترجمه ناوردا ما می‌توانیم فرض کنیم که f(x) به همین معنی از μ به عنوان g(x).

در نظر Kullback–Leibler واگرایی بین این دو توزیع

0 ≤ D K L ( f | | g ) = ∫ − ∞ ∞ f ( x ) log ⁡ ( f ( x ) g ( x ) ) d x = − h ( f ) − ∫ − ∞ ∞ f ( x ) log ⁡ ( g ( x ) ) d x .

در حال حاضر توجه داشته باشید که

∫ − ∞ ∞ f ( x ) log ⁡ ( g ( x ) ) d x = ∫ − ∞ ∞ f ( x ) log ⁡ ( 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 ) d x = ∫ − ∞ ∞ f ( x ) log ⁡ 1 2 π σ 2 d x + log ⁡ ( e ) ∫ − ∞ ∞ f ( x ) ( − ( x − μ ) 2 2 σ 2 ) d x = − 1 2 log ⁡ ( 2 π σ 2 ) − log ⁡ ( e ) σ 2 2 σ 2 = − 1 2 ( log ⁡ ( 2 π σ 2 ) + log ⁡ ( e ) ) = − 1 2 log ⁡ ( 2 π e σ 2 ) = − h ( g )

چرا که نتیجه بستگی ندارد f(x) دیگر از طریق واریانس. ترکیب این دو نتیجه بازده

h ( g ) − h ( f ) ≥ 0

با برابری هنگامی که g(x) = f(x) پس از خواص Kullback–Leibler واگرایی.

این نتیجه نیز ممکن است نشان داده شود با استفاده از variational حساب دیفرانسیل و انتگرال. یک تابع لاگرانژی با دو لاگرانژ ممکن است به عنوان تعریف شده:

L = ∫ − ∞ ∞ g ( x ) ln ⁡ ( g ( x ) ) d x − λ 0 ( 1 − ∫ − ∞ ∞ g ( x ) d x ) − λ ( σ 2 − ∫ − ∞ ∞ g ( x ) ( x − μ ) 2 d x )

که در آن g(x) است که برخی از عملکرد با میانگین μ. زمانی که آنتروپی g(x) است که در حداکثر و محدودیت معادلات که شامل وضعیت عادی ( 1 = ∫ − ∞ ∞ g ( x ) d x )

و نیاز واریانس ثابت ( σ 2 = ∫ − ∞ ∞ g ( x ) ( x − μ ) 2 d x )
هر دو راضی و سپس یک تنوع کوچک δg(x) g(x) تولید خواهد شد تنوع δL در مورد L که به صفر برابر است با:

0 = δ L = ∫ − ∞ ∞ δ g ( x ) ( ln ⁡ ( g ( x ) ) + 1 + λ 0 + λ ( x − μ ) 2 ) d x

پس از این باید نگه دارید برای هر کوچک و δg(x) این واژه در داخل پرانتز باید صفر و برای حل g(x) بازده:

g ( x ) = e − λ 0 − 1 − λ ( x − μ ) 2

با استفاده از محدودیت معادلات به حل برای λ0 و λ بازده توزیع نرمال:

g ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2

مثال: توزیع نمایی

اجازه X یک توزیع نمایی متغیر تصادفی با پارامتر λ است که با چگالی احتمال تابع

f ( x ) = λ e − λ x  for  x ≥ 0.

آن دیفرانسیل آنتروپی است و سپس

h e ( X )
= − ∫ 0 ∞ λ e − λ x log ⁡ ( λ e − λ x ) d x
= − ( ∫ 0 ∞ ( log ⁡ λ ) λ e − λ x d x + ∫ 0 ∞ ( − λ x ) λ e − λ x d x )
= − log ⁡ λ ∫ 0 ∞ f ( x ) d x + λ E [ X ]
= − log ⁡ λ + 1 .

در اینجا h e ( X )

استفاده شد و به جای h ( X )
آن را صریح و روشن است که لگاریتم گرفته شده به پایه eبه ساده محاسبه است.

دیفرانسیل آنتروپی برای توزیعهای مختلف

در جدول زیر Γ ( x ) = ∫ 0 ∞ e − t t x − 1 d t

است گاما تابع‌های ψ ( x ) = d d x ln ⁡ Γ ( x ) = Γ ′ ( x ) Γ ( x )
است digamma تابع‌های B ( p , q ) = Γ ( p ) Γ ( q ) Γ ( p + q )
این تابع بتا و گاماE توسط اویلر ثابتاست.

Table of differential entropies
Distribution Name Probability density function (pdf) Entropy in nats Support
Uniform f ( x ) = 1 b − a
ln ⁡ ( b − a )
[ a , b ]
Normal f ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 )
ln ⁡ ( σ 2 π e )
( − ∞ , ∞ )
Exponential f ( x ) = λ exp ⁡ ( − λ x )
1 − ln ⁡ λ
[ 0 , ∞ )
Rayleigh f ( x ) = x σ 2 exp ⁡ ( − x 2 2 σ 2 )
1 + ln ⁡ σ 2 + γ E 2
[ 0 , ∞ )
Beta f ( x ) = x α − 1 ( 1 − x ) β − 1 B ( α , β )
for 0 ≤ x ≤ 1
ln ⁡ B ( α , β ) − ( α − 1 ) [ ψ ( α ) − ψ ( α + β ) ]

− ( β − 1 ) [ ψ ( β ) − ψ ( α + β ) ]

[ 0 , 1 ]
Cauchy f ( x ) = γ π 1 γ 2 + x 2
ln ⁡ ( 4 π γ )
( − ∞ , ∞ )
Chi f ( x ) = 2 2 k / 2 Γ ( k / 2 ) x k − 1 exp ⁡ ( − x 2 2 )
ln ⁡ Γ ( k / 2 ) 2 − k − 1 2 ψ ( k 2 ) + k 2
[ 0 , ∞ )
Chi-squared f ( x ) = 1 2 k / 2 Γ ( k / 2 ) x k 2 − 1 exp ⁡ ( − x 2 )
ln ⁡ 2 Γ ( k 2 ) − ( 1 − k 2 ) ψ ( k 2 ) + k 2
[ 0 , ∞ )
Erlang f ( x ) = λ k ( k − 1 ) ! x k − 1 exp ⁡ ( − λ x )
( 1 − k ) ψ ( k ) + ln ⁡ Γ ( k ) λ + k
[ 0 , ∞ )
F f ( x ) = n 1 n 1 2 n 2 n 2 2 B ( n 1 2 , n 2 2 ) x n 1 2 − 1 ( n 2 + n 1 x ) n 1 + n 2 2
ln ⁡ n 1 n 2 B ( n 1 2 , n 2 2 ) + ( 1 − n 1 2 ) ψ ( n 1 2 ) −

( 1 + n 2 2 ) ψ ( n 2 2 ) + n 1 + n 2 2 ψ ( n 1 + n 2 2 )

[ 0 , ∞ )
Gamma f ( x ) = x k − 1 exp ⁡ ( − x θ ) θ k Γ ( k )
ln ⁡ ( θ Γ ( k ) ) + ( 1 − k ) ψ ( k ) + k
[ 0 , ∞ )
Laplace f ( x ) = 1 2 b exp ⁡ ( − | x − μ | b )
1 + ln ⁡ ( 2 b )
( − ∞ , ∞ )
Logistic f ( x ) = e − x ( 1 + e − x ) 2
2
( − ∞ , ∞ )
Lognormal f ( x ) = 1 σ x 2 π exp ⁡ ( − ( ln ⁡ x − μ ) 2 2 σ 2 )
μ + 1 2 ln ⁡ ( 2 π e σ 2 )
[ 0 , ∞ )
Maxwell–Boltzmann f ( x ) = 1 a 3 2 π x 2 exp ⁡ ( − x 2 2 a 2 )
ln ⁡ ( a 2 π ) + γ E − 1 2
[ 0 , ∞ )
Generalized normal f ( x ) = 2 β α 2 Γ ( α 2 ) x α − 1 exp ⁡ ( − β x 2 )
ln ⁡ Γ ( α / 2 ) 2 β 1 2 − α − 1 2 ψ ( α 2 ) + α 2
( − ∞ , ∞ )
Pareto f ( x ) = α x m α x α + 1
ln ⁡ x m α + 1 + 1 α
[ x m , ∞ )
Student's t f ( x ) = ( 1 + x 2 / ν ) − ν + 1 2 ν B ( 1 2 , ν 2 )
ν + 1 2 ( ψ ( ν + 1 2 ) − ψ ( ν 2 ) ) + ln ⁡ ν B ( 1 2 , ν 2 )
( − ∞ , ∞ )
Triangular f ( x ) = { 2 ( x − a ) ( b − a ) ( c − a ) f o r   a ≤ x ≤ c , 2 ( b − x ) ( b − a ) ( b − c ) f o r   c < x ≤ b ,
1 2 + ln ⁡ b − a 2
[ 0 , 1 ]
Weibull f ( x ) = k λ k x k − 1 exp ⁡ ( − x k λ k )
( k − 1 ) γ E k + ln ⁡ λ k + 1
[ 0 , ∞ )
Multivariate normal f X ( x → ) =

exp ⁡ ( − 1 2 ( x → − μ → ) ⊤ Σ − 1 ⋅ ( x → − μ → ) ) ( 2 π ) N / 2 | Σ | 1 / 2

1 2 ln ⁡ { ( 2 π e ) N det ( Σ ) }
( − ∞ → , ∞ → )

(بسیاری از دیفرانسیل آنتروپی هستند.

انواع

همان‌طور که در بالا توضیح داده دیفرانسیل آنتروپی می‌کند به اشتراک گذاری تمام خواص آنتروپی گسسته است. برای مثال دیفرانسیل آنتروپی می‌تواند منفی نیز آن است که ناوردا تحت مستمر هماهنگ تحولات است. ادوین تامپسون Jaynes نشان داد در این واقعیت است که بیان بالا درست نیست حد بیان به صورت یک مجموعه متناهی از احتمالات است.

اصلاح دیفرانسیل آنتروپی می‌افزاید: یکسان اندازه‌گیری عامل برای اصلاح این (نگاه کنید به محدود کردن تراکم نقاط گسسته). اگر m(x) است که بیشتر محدود به یک چگالی احتمال در نتیجه مفهوم است که به نام آنتروپی نسبی در نظریه اطلاعات:

D ( p | | m ) = ∫ p ( x ) log ⁡ p ( x ) m ( x ) d x .

تعریف دیفرانسیل آنتروپی بالا را می‌توان به دست آمده توسط پارتیشن‌بندی طیف وسیعی از X به سطل از ظهر ثانیه با نمونه همراه نقاط ih در داخل مخازن به صورت X ریمان و انتگرال. این را می‌دهد تدریجی نسخه از Xتعریف شده توسط Xh = ih اگر ih ≤ X ≤ (i+1)ثانیه. سپس آنتروپی از Xثانیه است

H h = − ∑ i h f ( i h ) log ⁡ ( f ( i h ) ) − ∑ h f ( i h ) log ⁡ ( h ) .

دوره اول در سمت راست تخمین دیفرانسیل آنتروپی در حالی که دوره دوم حدود −log(h). توجه داشته باشید که این روش نشان می‌دهد که آنتروپی در گسسته حس مداوم از یک متغیر تصادفی باید ∞.

جستارهای وابسته

  • آنتروپی اطلاعات
  • نظریه اطلاعات
  • محدود کردن تراکم نقاط گسسته
  • Self-اطلاعات
  • Kullback–Leibler واگرایی
  • برآورد آنتروپی

منابع

  • Thomas M. Cover، Joy A. Thomas. Elements of Information Theory New York: Wiley, 1991. شابک ‎۹۷۸−۰۴۷۱۲۴۱۹۵۹

پیوند به بیرون

  • Hazewinkel, Michiel, ed. (2001), "Differential entropy", Encyclopaedia of Mathematics, Springer, ISBN 978-1-55608-010-4
  • Differential entropy at PlanetMath.
آخرین نظرات
  • بیت
  • بیت
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.