آنتروپی اطلاعات

نظریه اطلاعات
مفاهیم
آنتروپی اطلاعات اطلاعات مشترک نرخ مخابره ظرفیت کانال
چهره‌های مهم
کلود شانون هری نایکویست رالف هارتلی توماس کاور رابرت فانو ریچارد همینگ رابرت گالاگر رادلف السوده آرون واینر
جوایز مهم
جایزه کلود شانون

در نظریه اطلاعات، آنتروپی (به انگلیسی: Entropy) یا اِنتروپی، معیاری عددی برای اندازه‌ گرفتن اطلاعات، یا تصادفی‌ بودن یک متغیر تصادفی است. به بیان دقیق‌تر، آنتروپی یک متغیر تصادفی، متوسط اطلاعات آن است. با داشتن یک متغیر تصادفی گسسته $X$

، که مقادیری از الفبای

{\mathcal {X}}

می‌گیرد و از توزیع

p:{\mathcal {X}}\rightarrow [0,1]

پیروی می‌کند، آنتروپی برای آن به صورت زیر تعریف می‌شود:

$H(X):=-\sum _{x\in {\mathcal {X}}}p(x)\log p(x)=\mathbb {E} [-\log p(x)]$

هرچه آنتروپی یک متغیر تصادفی بیشتر باشد، ابهام ما درباره آن بیشتر است؛ به این معنی که پس از مشاهده‌ی آن، اطلاعات به‌دست‌آمده از آن بیشتر خواهد بود.

آنتروپی یک منبع اطلاعات، حد پایین نرخ بهترین فشرده‌سازی بی‌اتلاف داده‌های آن منبع است.

اطلاعات حاصل از مشاهده یک رویداد تصادفی، برابر با منفی لگاریتم احتمال رخ دادن آن تعریف می‌شود. یک تابع برای اندازه‌ گرفتن اطلاعات یک روی‌داد تصادفی، ویژگی‌هایی دارد:

- این‌که اندازه‌ی اطلاعات، نامنفی باشد.

- اطلاعات حاصل از مشاهدهٔ یک رویداد قطعی (یعنی با احتمال برابر با یک) صفر باشد.

- و مهم‌تر از همه این‌که، اطلاعات حاصل از دو مشاهدهٔ مستقل، برابر با جمع اطلاعات حاصل از مشاهدهٔ تک‌تک آن‌ها باشد.

می‌توان نشان داد تنها تابعی که این سه ویژگی را برمی‌آورد، منفی لگاریتم احتمال است. اندازۀ اطلاعات با تابع لگاریتم در پایه‌های مختلف، با هم تنها در یک ضریب ثابت اختلاف دارد. متداول‌ترین پایهٔ لگاریتم در محاسبهٔ اطلاعات، ۲ است که اطلاعات را در واحد بیت محاسبه می‌کند.

به‌طور کلی در علوم و مهندسی، آنتروپی معیاری برای ابهام یا بی‌نظمی است. کلود شانون در مقالهٔ انقلابی خود با نام «A Mathematical Theory of Communication» در ۱۹۴۸، آنتروپی شانون را معرفی کرد و پایه‌گذار نظریهٔ اطلاعات شد.

آنتروپی در نظریهٔ اطلاعات رابطهٔ تنگاتنگی با مفهوم آنتروپی در ترمودینامیک آماری دارد. این قیاس برخاسته از این است که مقادیر متغیر‌های تصادفی، انرژی ریزحالت‌ها را تعیین می‌کنند و برای همین فرمول گیبز برای آنتروپی به صورت صوری دقیقاً مانند فرمول شانون است. آنتروپی در سایر بخش‌های ریاضی همچون ترکیبیات و یادگیری ماشین نیز دارای اهمیت است.

آنتروپی نتیجهٔ انداختن دو سکهٔ سالم برابر با ۲ بیت است. هر کدام از چهار حالت ممکن ۰٫۲۵ احتمال دارد. اطلاعات حاصل از هر مشاهده برابر با

-log_{2}({0.25})=2

و میانگین اطلاعات حالت‌های ممکن برابر با ۲ بیت است.

مقدمه

ایدهٔ‌ اصلی نظریه اطلاعات این است که «ارزش اطلاعاتی» منتقل شده از طریق یک پیام به میزان غافلگیر کننده بودن این پیام بستگی دارد. اگر یک رویداد بسیار محتمل رخ بدهد، پیام، اطلاعات بسیار کمی را منتقل می‌کند. در عین حال اگر یک رویداد بسیار غیر محتمل رخ دهد، پیام،‌ اطلاعات آگاه‌کننده‌تری را منتقل می‌کند. برای نمونه، دانش اینکه عددی خاص، عدد برندهٔ یک بخت‌آزمایی نیست، اطلاع بسیار کمی در اختیار ما قرار می‌دهد چرا که هر عدد خاص انتخابی به احتمال زیاد برنده نخواهد شد. ولی دانش اینکه عددی خاص برندهٔ بخت‌آزمایی خواهد بود، ارزش اطلاعاتی زیادی دارد چراکه پیام آن رخداد یک پیامد بسیاد نامحتمل است.

محتوای اطلاعاتی یک رویداد $E$

، تابعی است که با کاهش احتمال آن رویداد

p(E)

افزایش می‌یابد. هنگامی که

p(E)

به یک نزدیک می‌شود، شگفتی رویداد کم است چرا که انتظار رخداد آن را داریم و هنگامی که

p(E)

به صفر نزدیک می‌شود، شگفتی رویداد زیاد است چرا که انتظار رخداد آن رویداد را نداریم. این رابطه توسط رابطهٔ زیر مشروح است:

$\log {\Big (}{\frac {1}{p(E)}}{\Big )}$

که در این رابطه‌ $\log$

یا همان لگاریتم هنگامی که احتمال رویداد برابر با یک است، میزان شگفتی را صفر می‌کند. در اصل،

\log

تنها تابعی است که این مجموعه از توصیف‌ها را ارضا می‌کند. بنابراین می‌توان میزان اطلاع یا شگفتی رویداد

E

برابر است با:

$I(E)=-\log _{2}(p(E))$

که برابر با عبارت زیر است:

$I(E)=\log _{2}{\Big (}{\frac {1}{p(E)}}{\Big )}$

آنتروپی، مقدار مورد انتظار (میانگین) اطلاعات منتقل شده با تشخیص خروجی یک آزمایش تصادفی را به ما می‌دهد.

تعریف

آنتروپی متغیر تصادفی گسستهٔ $X$

با تابع چگالی احتمال

P(X)

را با

\mathrm {H} (X)

نمایش می‌دهند که این‌گونه تعریف می‌شود:

$\mathrm {H} (X)=\mathbb {E} [\mathrm {I} (X)]=\mathbb {E} [-\log _{b}(\mathrm {P} (X))].$

در رابطهٔ بالا

$\mathrm {E} [\cdot ]$

تابع امید ریاضی و

\mathrm {I} (\cdot )

تابع میزان اطلاعات رویداد است.

\mathrm {I} (X)

تابعی از یک متغیر تصادفی، و در نتیجه یک متغیر تصادفی است.

b

پایهٔ لگاریتم است و آنتروپی را با واحدهای متفاوت به دست می‌دهد. متداول‌ترین

b

،۲، e، و ۱۰ هستند که به ترتیب آنتروپی را در واحدهای بیت و nat و hartley به دست می‌دهد.

می‌توان آنتروپی $X$

را به صورت باز هم نوشت:

$\mathrm {H} (X)=\sum _{i=1}^{n}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i=1}^{n}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})}.$

همچنین، $\mathrm {I} (0)=0\times log(0)$

را صفر تعریف می‌کنیم که با مشاهدهٔ

\lim _{p\to 0+}p\log(p)=0

نیز سازگار است.

آنتروپی متغیر تصادفی $X$

به شرط

Y

با توزیع احتمال مشترک

P(X,Y)

نیز به صورت زیر تعریف می‌شود:

\mathrm {H} (X|Y)=-\sum _{i,j}P(x_{i},y_{j})\log {\frac {P(x_{i},y_{j})}{P(y_{j})}}

$\mathrm {H} (X|Y)$

میانگین اطلاعات حاصل از مشاهدهٔ

X

به شرط اطلاع از

Y

را نشان می‌دهد.

نظریه اندازه

آنتروپی را می‌توان به صورت صوری در زبان نظریهٔ اندازه به صورت روبه‌رو تعریف کرد: اگر $(X,\Sigma ,\mu )$

یک فضای احتمالاتی باشد و پیشامد

A\in \Sigma

را داشته باشیم، مقدار شگفتی

A

برابر است با:

$\sigma _{\mu }(A)=-\ln \mu (A)$

مقدار امید شگفتی $A$

برابر است با:

$h_{\mu }(A)=\mu (A)\sigma _{\mu }(A)$

یک افراز almost- $\mu$

خانواده‌ای از مجموعه‌ها

P\subseteq {\mathcal {P}}(X)

است به گونه‌ای که

\mu (\cup P)=1

و

\mu (A\cap B)=0

برای هر

A,B\in P

متمایز. (این یک سست‌سازی از شروط همیشگی برای افراز است.) آنتروپی

P

برابر است با:

$H_{\mu }(P)=\sum _{A\in P}h_{\mu }(A)$

اگر $M$

یک جبر سیگما بر روی

X

باشد، آنتروپی

M

برابر است با:

$H_{\mu }(M)=\sup _{P\subseteq M}H_{\mu }(P)$

در نهایت، آنتروپی فضای احتمالاتی برابر است با $H_{\mu }(\Sigma )$

، یعنی آنتروپی نسبت به

\mu

همهٔ جبر سیگمای همهٔ زیرمجموعه‌های قابل اندازه‌گیری

X

.

مثال

نمودار آنتروپی نتیجهٔ پرتاب یک سکه در واحد بیت بر حسب احتمال شیر آمدن آن. هر چقدر احتمال شیر آمدن سکه به ۰٫۵ نزدیکتر باشد ابهام در مورد نتیجهٔ آن بیشتر است و اطلاع از نتیجه، به‌طور میانگین اطلاعات بیشتری دربردارد.

متغیر تصادفی $X$

، نتیجهٔ پرتاب یک سکه با احتمال شیر

p

و خط

1-p

است. هرچقدر

p

به

1 \over 2

نزدیکتر باشد، ابهام در مورد نتیجهٔ پرتاب بیشتر است و به همین ترتیب اطلاع از نتیجهٔ پرتاب به‌طور میانگین، اطلاعات بیشتری دربردارد. در واقع بیش‌ترین آنتروپی برای

p={1 \over 2}

و برابر با ۱ بیت است.

$\mathrm {H} (X)=-\sum _{i=1}^{n}{\mathrm {P} (x_{i})\log _{2}\mathrm {P} (x_{i})}=-\sum _{i=1}^{2}{{1 \over 2}\log _{2}({1 \over 2})}=1,$

وقتی $p$

صفر یا یک باشد، هیچ ابهامی درباره نتیجهٔ پرتاب نیست و به همین ترتیب اطلاع از نتیجهٔ پرتاب هیچ اطلاعاتی در برندارد.

$\mathrm {H} (X)=-\left({{0}\log _{2}({0})}+{{1}\log _{2}({1})}\right)=0.$

برای $p={1 \over 4}$

انتظار داریم آنتروپی کمتر از مورد یکنواخت و بیشتر از مورد بی‌ابهام باشد.

$\mathrm {H} (X)=-\left({{1 \over 4}\log _{2}({1 \over 4})}+{{3 \over 4}\log _{2}({3 \over 4})}\right)\approx 0.81$

به‌طور کلی، توزیع یکنواخت، بیشترین آنتروپی، و یک رویداد قطعی، کمترین آنتروپی را دارا هستند.

توصیف صفات

برای درک مفهوم $-\sum p_{i}\log(p_{i})$

، ابتدا یک تابع اطلاعات

I

برای رویداد

i

ام با احتمال

p_{i}

تعریف می‌کنیم. مقدار اطلاعات بدست آمده از مشاهده پدیدهٔ

i

از ویژگی‌های بنیادین اطلاعات شانون پیروی می‌کند:

$I(p)$ به صورت یکنوا در $p$ کاهش می‌یابد: افزایش در احتمال یک رویداد، اطلاعات حاصل از مشاهدهٔ آن را کاهش می‌دهد و بلعکس.
$I(1)=0$ : رویدادهایی که همیشه رخ می‌دهند، هیچ اطلاعاتی را منتقل نمی‌کنند.
$I(p_{1}\cdot p_{2})=I(p_{1})+I(p_{2})$ : اطلاعات آموخته شده از رویداد‌های مستقل برابر است با جمع اطلاعات بدست آمده از هر رویداد.

با فرض داشتن دو رویداد مستقل، اگر رویداد اول $n$

پیامد هم‌شانس و دیگری

m

پیامد هم‌شانس داشته باشد، در این صورت

n m

پیامد هم‌شانس برای رویداد توأم آن‌ها وجود دارد. این بدان معناست که اگر برای رمزگذاری مقدار اول

\log _{2}(n)

بیت و برای رمزگذاری مقدار دوم به

\log _{2}(m)

بیت نیاز داشته باشیم، برای رمزگذاری هر دوی آن‌ها به

\log _{2}(nm)=\log _{2}(n)+\log _{2}(m)

بیت نیاز داریم.

شانون کشف کرد که یک انتخاب مناسب برای $I$

به صورت زیر است:

$I(p)=\log({\frac {1}{p}})=-\log(p)$

در واقع تنها مقادیر ممکن برای $I$

به فرم

I(u)=k\log(u)

به ازای مقادیر منفی برای

k

می‌باشند. همچنین گزینش یک مقدار برای

k

، هم‌ارز با گزینش مقدار

x>1

برای

k={\frac {-1}{\log(x)}}

است که در این صورت می‌توان مقدار پایهٔ لگاریتم را به کمک

x

تغییر داد. بنابرین آنتروپی با ویژگی‌های فوق توصیف می‌شود.

فشرده‌سازی داده‌ها

آنتروپی یک منبع اطلاعات، حد پایین متوسط بهترین نرخ فشرده‌سازی بدون اتلاف داده‌های آن منبع است. به بیان دقیق‌تر هیچ روش فشرده‌سازی ای وجود ندارد که به‌طور میانگین مقدار متغیر تصادفی $X$

را با کمتر از

\mathrm {H} (X)

بیت فشرده کند. این حد پایین بسیار قوی است، به‌طوری که برای دنباله‌های به طول

n

از داده‌های هر منبع تصادفی

X

، یک روش فشرده‌سازی وجود دارد که به‌طور میانگین، نتیجه هر مشاهده را حداکثر با

\mathrm {H} (X)+{1 \over n}

بیت فشرده می‌کند.

آنتروپی به عنوان معیاری از تنوع

آنتروپی یکی از راه‌های متعدد سنجش تنوع زیستی است و از آن به صورت شاخص شانون استفاده می‌شود. شاخص تنوع یک معیار کمی آماری برای بررسی انواع گوناگون موجود در یک مجموعهٔ داده است.

کاربرد در یادگیری ماشین

روش‌های یادگیری ماشین به طور عمده مبتنی بر آمار و همچنین نظریه‌ٔ اطلاعات است. به طور کلی، آنتروپی یک معیار برای عدم قطعیت است و هدف یادگیری ماشین کاهش عدم قطعیت است.

الگوریتم‌های یادگیری درخت تصمیم از آنتروپی نسبی استفاده می‌کنند تا قوانین تصمیم‌گیری حاکم بر داده‌ها در هر گره را پیدا کند. کسب اطلاعات در درخت‌های تصمیم $IG(Y,X)$

، که برابر است با تفاوت آنتروپی

Y

و آنتروپی شرطی

Y

به شرط

X

، اطلاع مورد انتظار را کمیت دهی می‌کند.

مدل‌های استنباط بیزی اغلب با استفاده از اصل حداکثر آنتروپی، توزیع احتمال پیشین را بدست می‌آورند. منطق این روش این است که توزیعی که بهترین بیان از دانش ما از حالت کنونی یک سامانه را دارد، همانی است که بیشترین آنتروپی را دارد بنابراین برای توزیع پیشین بودن مناسب است.

طبقه‌بندی در یادگیری ماشین که توسط رگرسیون لجستیک یا شبکه‌های عصبی مصنوعی پیاده‌سازی می‌شود، اغلب از از یک تابع زیان استاندارد، به نام زیان آنتروپی متقاطع، استفاده می‌کند که میانگین آنتروپی متقاطع بین واقعیت و توزیع‌های پیش‌بینی شده را کمینه می‌کند. به طور کلی، آنتروپی متقاطع یک معیار برای محاسبهٔ تفاوت میان ۲ مجموعهٔ داده‌ها است، مانند واگرایی کولبک-لیبلر یا همان آنتروپی نسبی.

جستارهای وابسته

منابع

↑ Shannon, C. E. (1948-10). "A mathematical theory of communication". The Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. ISSN 0005-8580.
↑ Entropy (for data science) Clearly Explained!!!, retrieved 2022-12-19
↑ «David MacKay: Information Theory, Inference, and Learning Algorithms: The Book». www.inference.org.uk. دریافت‌شده در ۲۰۲۲-۱۲-۱۹.
↑ Entropy in nLab
↑ Carter، Tom (مارس ۲۰۱۴). An introduction to information theory and entropy [مقدمه‌ای بر نظریهٔ اطلاعات و آنتروپی] (PDF).
↑ Chakrabarti, C. G., and Indranil Chakrabarty. "Shannon entropy: axiomatic characterization and application." International Journal of Mathematics and Mathematical Sciences 2005.17 (2005): 2847-2854 url
↑ Spellerberg, Ian F.; Fedor, Peter J. (2003-05). "A tribute to Claude Shannon (1916-2001) and a plea for more rigorous use of species richness, species diversity and the 'Shannon-Wiener' Index: On species richness and diversity". Global Ecology and Biogeography (به انگلیسی). 12 (3): 177–179. doi:10.1046/j.1466-822X.2003.00015.x.
↑ Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing (به انگلیسی). Singapore: Springer: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
↑ Jaynes, Edwin T. (1968-09). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887.
↑ "The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning". Kybernetes. 34 (6): 903–903. 2005-07-01. doi:10.1108/03684920510595562. ISSN 0368-492X.

Elements of Information Theory (انگلیسی)

[1] Shannon, C. E. (1948-10). "A mathematical theory of communication". The Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. ISSN 0005-8580.

[2] Entropy (for data science) Clearly Explained!!!, retrieved 2022-12-19

[3] «David MacKay: Information Theory, Inference, and Learning Algorithms: The Book». www.inference.org.uk. دریافت‌شده در ۲۰۲۲-۱۲-۱۹.

[4] Entropy in nLab

[5] Carter، Tom (مارس ۲۰۱۴). An introduction to information theory and entropy [مقدمه‌ای بر نظریهٔ اطلاعات و آنتروپی] (PDF).

[6] Chakrabarti, C. G., and Indranil Chakrabarty. "Shannon entropy: axiomatic characterization and application." International Journal of Mathematics and Mathematical Sciences 2005.17 (2005): 2847-2854 url

[7] Spellerberg, Ian F.; Fedor, Peter J. (2003-05). "A tribute to Claude Shannon (1916-2001) and a plea for more rigorous use of species richness, species diversity and the 'Shannon-Wiener' Index: On species richness and diversity". Global Ecology and Biogeography (به انگلیسی). 12 (3): 177–179. doi:10.1046/j.1466-822X.2003.00015.x.

[8] Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing (به انگلیسی). Singapore: Springer: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.

[9] Jaynes, Edwin T. (1968-09). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887.

[10] "The Cross‐Entropy Method: A Unified Approach to Combinatorial Optimisation, Monte‐Carlo Simulation and Machine Learning". Kybernetes. 34 (6): 903–903. 2005-07-01. doi:10.1108/03684920510595562. ISSN 0368-492X.