خوشهبندی کامل پیوند
خوشه بندی کامل پیوند یکی از روشهای مختلف خوشهبندیسلسلهمراتبی است. در ابتدای فرایند، هر عنصر در خوشه ای از خود قرار دارد. سپس خوشهها به صورت گروهی به گروههای بزرگتر تقسیم میشوند تا زمانی که تمام عناصر در خوشه قرار گیرند. این روش همچنین به عنوان دورترین خوشه همسایه نیز شناخته میشود. نتیجه خوشه بندی را میتوان به عنوان یک دندروگرام تجسم کرد، که نشان میدهد که توالی خوشههای همجوشی و فاصله ای که در هر همجوشی اتفاق میافتد.
روش خوشه بندی
در هر مرحله، دو خوشه ای که توسط کوتاهترین فاصله جدا میشوند ترکیب میشوند. تعریف «کوتاهترین فاصله» چیزی است که بین روشهای مختلف خوشه بندی زنجیرهای متفاوت است. در خوشه بندی پیوندی کامل، پیوند میان دو خوشه شامل تمام جفتهای عنصر است و فاصله بین خوشهها برابر فاصله بین دو عنصر (یکی در هر خوشه) است که دورتر از یکدیگر هستند. کوتاهترین این پیوندها که در هر مرحله باقی میمانند، موجب همپوشانی دو خوشه میشود که عناصر آن درگیر هستند.
از نظر ریاضی تابع پیوند کامل — فاصله (D(X,Y بین خوشه X و Y — توسط عبارت روبهرو شرح داده شدهاست:
(d(x,y فاصله بین عناصر x عضو X و y عضو Y است.
X و Y دو مجموعه از عناصر (خوشهها) هستند.
الگوریتمها
طرح نایاب
الگوریتم زیر یک تابع agglomerative است که ردیفها و ستونها را در یک ماتریس مجاورت پاک میکند و به عنوان خوشههای قدیمی به صورتهای جدید ادغام میشوند. D ماتریس نزدیکی N در N، شامل تمام فاصلههای (d(i,j. خوشهها به شماره متوالی ۱، ۲، …، n اختصاص داده میشوند و (L(k، سطح kام خوشهبندی هست. یک خوشه با شماره متوالی m مشخص شدهاست و نزدیکی بین خوشههای (r) و (s) با [(d[(r),(s مشخص میشود.
الگوریتم از مراحل زیر تشکیل شدهاست:
۱.شروع خوشه بندی با در نظر گرفتن سطح L (0) = ۰ و شمارههای متوالی m = ۰.
۲.یافتن جفت خوشه ای مشابه در خوشه بندی فعلی، مانند جفتهای (r) و (s) که طبق اینکه [(d[(r),(s برابر [(max d[(i),(j است در جایی که بیش از همه جفت خوشه در خوشه فعلی است.
۳.افزایش شماره متوالی: m = m + 1 و خوشههای (r) و (s) را به یک خوشه واحد برای تشکیل خوشه بندی بعدی m بپیوندانید. سطح این خوشه بندی را به [(L(m) = d[(r),(s تنظیم کنید.
۴.به روز رسانی ماتریس مجاورت D، با حذف سطر و ستون مربوط به خوشه (r) و (s) و با اضافه کردن یک سطر و ستون مربوط به خوشه تازه شکل گرفته انجام میشود. نزدیکی بین خوشه جدید، نشان داده شده با (r, s) و خوشه قدیمی با (k) به عنوان [( d[(k), (r,s )] = max d[(k),(r)], d[(k),(s است.
۵.اگر تمام اجسام در یک خوشه قرار داشته باشند، متوقف شوند و بعد به مرحله ۲ بروید.
طرح مطلوب کارآمد
الگوریتم توضیح داده شده در بالا آسان است اما پیچیدگی
مثال عملی
مثال عملی بر اساس ماتریس فاصله ژنتیکی JC69 محاسبه شده از 5S ribosomal RNA که تراز توالی پنج باکتری است محاسبه شدهاست: (Bacillus subtilis (a و (Bacillus stearothermophilus (b و (Lactobacillus viridescens (c و (Acholeplasma modicum (d و (Micrococcus luteus (e.
گام اول
- خوشه اول
فرض کنیم که ما پنج عنصر
e | d | c | b | a | |
---|---|---|---|---|---|
۲۳ | ۳۱ | ۲۱ | ۱۷ | ۰ | a |
۲۱ | ۳۴ | ۳۰ | ۰ | ۱۷ | b |
۳۹ | ۲۸ | ۰ | ۳۰ | ۲۱ | c |
۴۳ | ۰ | ۲۸ | ۳۴ | ۳۱ | d |
۰ | ۴۳ | ۳۹ | ۲۱ | ۲۳ | e |
در این مثال،
- ارزیابی طول شاخه اول
فرض کنید
- اولین بروزرسانی ماتریس فاصله
سپس ماتریس
ارزش خمیده در
گام دوم
- خوشه دوم
اکنون ما سه مرحله قبلی را دوباره شروع میکنیم، از ماتریس فاصله جدید
e | d | c | (a,b) | |
---|---|---|---|---|
۲۳ | ۳۴ | ۳۰ | ۰ | (a,b) |
۳۹ | ۲۸ | ۰ | ۳۰ | c |
۴۳ | ۰ | ۲۸ | ۳۴ | d |
۰ | ۴۳ | ۳۹ | ۲۳ | e |
اینجا،
- ارزیابی طول شاخه دوم
فرض کنید
ما طول شاخه گمشده را میبینیم:
- به روز رسانی دوم ماتریس فاصله
سپس در جهت به روز رسانی ماتریس
گام سوم
- خوشه سوم
ما دوباره سه گام قبلی را، با شروع از ماتریس فاصله
d | c | (a,b),e)) | |
---|---|---|---|
۴۳ | ۳۹ | ۰ | (a,b),e)) |
۲۸ | ۰ | ۳۹ | c |
۰ | ۲۸ | ۴۳ | d |
اینجا،
- ارزیابی طول شاخه سوم
فرض کنید
- به روز رسانی سوم ماتریس فاصله
یک ورودی برای به روز رسانی وجود دارد:
گام نهایی
ماتریس نهایی
(c,d) | (a,b),e)) | |
---|---|---|
۴۳ | ۰ | (a,b),e)) |
۰ | ۴۳ | (c,d) |
بنابراین ما خوشههای
فرض کنید
شاخههای پیوستگی
ما دو طول شاخه باقی مانده را میبینیم:
نمودار پیوند کامل
این نمودار که اکنون کامل شدهاست، یک ultrametric است. به دلیل تمام رنوکهای
این نمودار توسط r ریشه شدهاست، این گره عمیقترین گره نمودار است.
مقایسه با دیگر پیوندها
طرحهای جایگزین پیوند شامل خوشه بندی تک اتصال و خوشه بندی پیوند متوسط است - پیادهسازی پیوندهای مختلف در الگوریتم ساده است، صرفاً استفاده از فرمولهای مختلف برای محاسبه فاصله بین خوشه ای در محاسبه اولیه ماتریس مجاورت و در مرحله ۴ از بالا الگوریتم است. یک الگوریتم بهینه کارآمد است با این حال برای ارتباط خودسرانه در دسترس نیست. فرمول که باید تنظیم شود با استفاده از متن جسور برجسته شدهاست.
خوشه بندی کامل پیوند، از روش پیوند تک جایگزین اجتناب میکند - پدیده به اصطلاح زنجیره ای، جایی که خوشهها از طریق خوشه بندی پیوندی یکپارچه تشکیل دادهاند، به دلیل اینکه عناصر مجاور نزدیک به یکدیگر هستند، حتی اگر بسیاری از عناصر در هر خوشه ممکن است بسیار دور از هم باشد. پیوند کامل برای یافتن خوشههای فشرده تقریباً یکسان است.
خوشه بندی تک لینک | خوشه بندی پیوند کامل | خوشه بندی میانگین اتصال: WPGMA | خوشه بندی میانگین اتصال: UPGMA |
جستارهای وابسته
منابع
- ↑ Sorensen T (1948). "A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons". Biologiske Skrifter. 5: 1–34.
- ↑ Legendre P, Legendre L (1998). Numerical Ecology (Second English ed.). p. 853.
- ↑ Everitt, Brian S.; Landau, Sabine; Leese, Morven (2001). Cluster Analysis (Fourth ed.). London: Arnold. ISBN 0-340-76119-9. ;
- ↑ Defays D (1977). "An efficient algorithm for a complete link method" (PDF). The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
- ↑ Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1-59. PMC 341310. PMID 2422630.
- ↑ Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. PMID 3241556.
- ↑ Everitt, Landau and Leese (2001), pp. 62-64.
برای مطالعهٔ بیشتر
- Späth H (1980). Cluster Analysis Algorithms. Chichester: Ellis Horwood.