مدلهای سیر فرگشتی دیانای
مدلهای زیادی مبتنی بر زنجیرهٔ مارکوف، برای مدلسازی سیر فرگشتی دیانای ارائه شدهاست. معمولاً مدلهای جانشینی ارایهشده با هم در پارامترهایی که برای توضیح نرخ جانشینی یک نوکلئوتید در طول فرگشت دیانای در نظر گرفته میشوند، متفاوت هستند. این مدلها معمولاً در آنالیز فیلوژنتیک مولکولی استفاده میشوند. بهطور خاص از مدلهای ارائه شده در برآورد درستنمایی بیشینهی درخت و تخمین فاصلهٔ فرگشتی میان توالیها با داشتن فواصل مشاهدهشده در میان آنها، استفاده میشود. روشهای مبتنی بر درستنمایی بیشینه به مدل وابسته هستند بهطوریکه اگر بخشی از اطلاعات موجود در دادهها را در نظر نگیرد، نتایج این روش بسیار ضعیف خواهد بود. مدلهای مبتنی بر مارکوف در تحلیل دادهها تنها جانشینی در یک توالی را در نظر گرفته و حذف و اضافه شدن در توالی را نادیده میگیرند.
معرفی
رویکردهای مختلفی برای ساخت درخت فیلوژنی و تخمین فاصلهٔ زمانی میان موجودات وجود دارد. روشها را میتوان به ۳ دستهٔ زیر تقسیم کرد:
- روشهای مبتنی بر فاصله مانند روش UPGMA و اتصال همسایگی
- روشهای مبتنی بر بیشینه صرفهجویی
- روشهای مبتنی بر درستنمایی بیشینه
یکی از مدلهای پرکابرد برای استفاده از درستنمایی بیشینه استفاده از مدل مارکوف در تغییر جایگاههای توالی در طول زمان است. مدلهای فرگشتی دیانای توضیح دهندهٔ وضعیت فرگشتی دیانای به عنوان رشتهای شامل ۴ حرف هستند. مدلهای مارکوف بهطور دقیق نحوهٔ ایجاد جهش یا عمل انتخاب طبیعی را توضیح نمیدهند، بلکه نرخ نسبتی جهشها را در رشتهٔ دیانای مدل میکنند. بهطور مثال در تغییرات توالیها، نابرابری احتمال جهشها و احتمال از بین رفتن اللهای ناسازگار با محیط، مسئول نرخ بالای جایگزینی انتقالی نسبت به تراگشت در رشتههای در حال تغییر هستند. در حالی که در مدل Kimura80 که در ادامه توضیح داده شدهاست، تأثیر احتمال نابرابر جهشها و احتمال از بین رفتن اللهای ناسازگار با محیط تنها در پارامتری در نظر گرفته شدهاست که نرخ نسبی جایگزینی انتقالی را به تراگشت مدل میکند.
تحلیلهای فرگشتی توالیها برای مقیاسهای زمانی مختلفی انجام شدهاست، از این رو بیان مدلها به کمک نرخ لحظهای تغییر وضعیت جایگاههای توالی قابل قبول است. ماتریس Q که در ادامه آورده شدهاست، نشان دهندهٔ این نرخ تغییر در میان وضعیتهای تعریفشده در مسئله است. در صورتی که بدانیم که وضعیت شروع در یک جایگاه از توالی کدام است (وضعیت هر جایگاه برای یک توالی از دیانای نوع نوکلئوتید موجود در آن جایگاه است)، آنگاه میتوان به کمک ماتریس Q در مدل و فاصلهٔ زمانی میان جد و فرزند، احتمال تعداد تغییرها و احتمال رسیدن به هر کدام از وضعیتهای تعریفشده را استخراج کرد. جزییات مربوط به رسیدن از ماتریس نرخ به ماتریس احتمال در مدلهای ریاضیاتی جانشینی توضیح داده میشود. در نظر گرفتن نرخ آنی در مدل، باعث بینیازی آن از محاسبهٔ پارامترهای سطوح درخت فیلوژنی به صورت جداگانه برای هر سطح میشود، زیرا احتمال رسیدن از حالت ابتدایی به حالت انتهایی به صورت مستقیم محاسبه میگردد.
مدلهای شرح داده شده در این صفحه، تغییرات یک حرف از مجموعهای از حروف را نشان میدهند. در چنین مدلهایی برای تحلیل تغییرات کل توالی با فرض این که رشته شامل متغیرهای تصادفی مستقل با توزیع یکسان است، هر حرف مستقل از سایر حروف رشته تحلیل میشود. فرض استقلال را میتوان با در نظر گرفتن فرضیهٔ تأثیرناپذیری هر حرف از سایر حروف در فرگشت رشتهها، توجیه کرد. در صورتی که تأثیر اولیهٔ انتخاب طبیعی بر روی تغییرات توالی باعث محدود کردن برخی جایگاههای خاص در توالی شود، میتوان از مدلهای دیگری استفاده کرد که نرخ نسبی جایگزینی هر حرف نسبت به حروف دیگر را محاسبه کرده و با استفاده از پارامترهای دیگری در مدل، واریانس تغییرات نرخهای جایگزینی را کنترل میکند.
زنجیرههای مارکوف پیوسته زمان
زنجیرههای مارکوف پیوسته زمان دارای ماتریس انتقال با پارامتر t هستند. اگر
مثال: میخواهیم فرایند جایگزینی را در توالی دیانای به صورت پیوسته زمان مدل کنیم (مثلاً Jukes-Cantor, Kimura و غیره). ماتریس انتقال مربوط به آن به شکل زیر خواهد بود:
که در آن بلوکهای ۲ × ۲ بالا-چپ و پایین-راست، مربوط به احتمال جایگزینی انتقالی و بلوکهای ۲ × ۲ بالا-راست و پایین-چپ مربوط به احتمالهای تراگشت هستند.
فرض: اگر در لحظهٔ
قضیه: ماتریس انتقال پیوسته زمان دارای خاصیت زیر است:
توجه داشته باشید: ممکن است بین دو معنی کلمهٔ انتقال اشتباه به وجود بیاید. (i) در زمینهٔ زنجیرهٔ مارکوف، انتقال به معنی جابهجایی میان دو وضعیت است. (ii) در زمینهٔ تغییر در نوکلئوتیدها در توالی دیانای، جایگزینی انتقالی به معنی جابهجایی میان دو پورین (A↔G) یا میان دو پیریمیدین (C↔T) است (برای اطلاعات بیشتر به صفحهٔ جایگزینی انتقالی مراجعه کنید). جابهجایی میان یک پورین و یک پیریمیدین تراگشت نامیده میشود.
استخراج پویایی در جانشینی
توالی دیانای با طول ثابت m را در نظر بگیرید که با جانشینی بازها در طول زمان تغییر پیدا میکند. فرض کنید که فرایندهای انجام شده روی m مکان در توالی به صورت مارکوفی مستقل و دارای توزیع یکسان باشند. برای هر مکان مشخص داریم:
که
فرض کنید برای دو وضعیت مجزای
تغییرات در توضیح احتمال
به عبارت دیگر، در دیدگاه فراوانی گرایانه، فراوانی وضعیت
بهطور مشابه، عبارتهای پیشین برای احتمالهای
که در آن:
یا بهطور مشابه:
که در آن
ارگادیسیتی
اگر تمام احتمال انتقالها مثبت باشد،
زمانی که توزیع کنونی
بازگشتپذیری در زمان
تعریف: یک فرایند مارکوف بازگشتپذیر در زمان است اگر در وضعیت پایدار، احتمال تغییر وضعیت از
تمام فرایندهای ایستا بازگشتپذیر نیستند، هرچند تقریباً تمام مدلهای تحولی دیانای فرض بازگشتپذیری در زمان را در نظر میگیرند (و این فرض، فرضی منطقی و متناسب با مسئله است). بر اساس فرض بازگشتپذیری در زمان متغیر جدید
تعریف: متغیر متقارن
نتیجه: ۱۲ درایهٔ خارج از قطر ماتریس تغییر وضعیت (
مقیاسگذاری طول شاخهها
با مقایسهٔ توالیهای موجود، میتوان واگرایی توالیها را مشخص کرد. منظور از واگرایی میزان تفاوت توالیهای مورد آزمایش است. اندازهگیری واگرایی، اطلاعاتی را دربارهٔ تعداد تغییراتی که در طول مسیر جدایی توالیها بهوجود آمدهاست، به ما میدهد. با شمارش سادهٔ تعداد اختلافها (فاصلهٔ همینگ) میان توالیها، معمولاً تعداد جایگزینیهای موجود در توالی کمتر از مقدار واقعی تخمین زده میشود. تخمین دقیق تعداد تغییرات صورت گرفته مشکل بوده و معمولاً ضروری نیست. به جای این محاسبه، طول مسیرهای روی درخت فیلوژنی به عنوان میانگین تعداد تغییرات در هر بخش از توالی در نظر گرفته میشود. طول مسیر برابر حاصلضرب زمان مسیر در میانگین نرخ جانشینی است. هرچند که این حاصلضرب قابل تخمین است، اما با مشخص بودن واگرایی توالیها، نرخ تغییر و زمان مسیر بهطور مستقل قابل اندازهگیری نبوده و تنها حاصلضرب آنها مشخص است.
تعریف صورت گرفته از ماتریس نرخ جهش (
مقدار پارامتر β میتواند با گذاشتن این شرط که میانگین نرخ شار هر وضعیت برابر ۱ باشد، به دست بیاید. مقادیر روی قطر ماتریس نرخ (ماتریس Q)، برابر حاصلضرب مقدار ۱- در نرخ خروج از وضعیت است. برای مدلهای برگشتپذیر در زمان، نقطهٔ تعادل وضعیتهای تعریف شده را (که برای وضعیت i همان
بهطور مثال در مدل Jukes-Cantor پارامتر مقیاسگذاری برابر 4/(3μ) است زیرا نرخ خروج از هر وضعیت برابر 3μ/4 است.
مدل (JC69 (Jukes and Cantor, 1969
مدل JC69 سادهترین مدل جانشینی موجود است. از جمله فرضهای این مدل برابری تعداد تکرار هر کدام از بازهای موجود در توالی دیانای
زمانی که طول شاخه،
لازم است ذکر شود که:
که از جمع هر سطر یا ستون ماتریس Q ضرب در زمان به دست آمده به معنی متوسط تعداد جایگزینی در زمان t (طول شاخه) برای هر جایگاه در توالی در زمانی است که نرخ جانشینی برابر
در صورتی که نسبت p از تغییرات میان دو توالی در یک حرف داده شده باشد، مدل Jukes-Cantor فاصلهٔ فرگشتی میان دو رشته را، بر اساس متوسط تعداد تغییرات، به شکل زیر محاسبه میکند.
متغیر p نشاندهندهٔ تعداد جابهجایی است که با عنوان فاصلهٔ p شناخته شده و یک آمارهٔ بسنده برای محاسبات در مدل Jukes-Cantor است.
مدل (K80 (Kimura, 1980
مدل k80 تفاوت را میان جایگزینیهای انتقالی (پورین به پورین یا پیریمیدین به پیریمیدین) و تراگشت (از یک پورین به یک پیریمیدین یا برعکس) مدل میکند. در توضیح اصلی کیمورا دربارهٔ مدل، α و β برای نشان دادن نرخ جانشینیهای مختلف استفاده شدهاند، اما در حال حاضر، معمولاً نرخ تراگشت برابر ۱ قرار داده شده و از κ به عنوان نسبت جایگزینی انتقالی به تراگشت استفاده میشود. در مدل K80 فرض میشود که تمام حالتهای پایه دارای احتمال برابر هستند (πT=πC=πA=πG=۰٫۲۵).
پارامترهای مدل کیمورا به شکل زیر هستند:
که در آن p درصد تعداد حروفی در توالی است که جایگشت انتقالی رخ داده و q درصد تعداد جایگاههایی است که تراگشت رخ داده است.
مدل (F81 (Felsenstein 1981
این مدل در واقع گسترشیافتهٔ مدل JC69 است بهطوریکه احتمالهای پایهٔ میان بازهای موجود در توالی میتوانند با هم برابر نباشند
ماتریس نرخ به شکل زیر است:
هنگامی که طول شاخه، ν، بر اساس متوسط تعداد تغییرات در هر مکان از توالی اندازهگیری میشود، داریم:
مدل (HKY85 (Hasegawa, Kishino and Yano 1985
این مدل را میتوان به عنوان تلفیقی از مدلهای گسترشیافتهٔ Kimura80 و Felsentein81 در نظر گرفت. مدل HKY85 میان نرخ جایگزینی انتقالی و تراگشت با کمک پارامتر κ تفاوت قایل میشود و از سوی دیگر اجازه میدهد تا فراوانی پایهٔ میان بازهای مختلف متفاوت باشد
در صورتی که طول شاخه، ν، را با کمک متوسط تعداد تغییرات صورت گرفته در هر حرف از توالی بیان کنیم داریم:
و فرمول برای سایر حالتهای ممکن از وضعیتها را میتوان با جایگزینی احتمال مناسب به دست آورد.
مدل (T92 (Tamura 1992
T92 یک مدل سادهٔ ریاضیاتی برای تخمین تعداد جانشینیهای نوکلئوتیدها در هر مکان توالی میان دو توالی دیانای با گسترش مدل Kimura80 بوده، بهطوریکه نسبت به پیوند G+C متمایل است. این روش زمانی کاربردی است که جایگزینی انتقالی-تراگشت بالایی وجود داشته و نسبت به G+C متمایل باشد مانند حالتی که در دیانای میتوکندری مگس سرکه اتفاق میافتد.
با داشتن مقدار
ماتریس تغییرات بازها به شکل زیر است:
فاصلهٔ فرگشتی میان دو رشتهٔ بیرمز بر اساس این مدل به شکل زیر است:
که در آن
مدل (TN93 (Tamura and Nei 1993
این مدل تفاوت میان دو حالت جایگزینی انتقالی را در نظر میگیرید، به این معنی که (A <-> G) میتواند نرخ متفاوتی نسبت به (C<->T) داشته باشد، اما تراگشتها دارای نرخ برابر هستند (هرچند نرخ تراگشت میتواند عددی متفاوت از نرخهای جایگزینی انتقالی باشد).
در این مدل، احتمال هرکدام از پایهها میتوانند متفاوت باشند
GTR: مدل تعمیمیافته و بازگشتپذیر در زمان (Tavaré 1986)
این مدل، بیطرفترین مدل با استقلال میان حروف و نواحی محدود است که اجازهٔ برگشتپذیری در مدل وجود دارد. مدل برای اولین بار توسط Simon Tavaré در سال ۱۹۸۶ توضیح داده شد.
پارامترهای مدل GTR شامل برداری از احتمالات پایدار برای پایههای مختلف به شکل
که در آن
پارامترهای بالا پارامترهای جایگزینی انتقالی هستند.
بنابراین، GTR نیازمند ۶ پارامتر جانشینی است بوده و ۴ پارامتر برای مقادیر تعادل نهایی است. با توجه به روابط میان پارامترها، تعداد پارامترها میتواند به ۹ پارامتر به اضافهٔ پارامتر
بهطور کلی برای محاسبهٔ تعداد پارامترها، باید تعداد درایههای بالای قطر اصلی در ماتریس را شمارش کنیم، بهطور مثال برای
برای مثال برای توالیهای امینواسیدها (۲۰ نوع امینواسید استاندارد وجود دارد که پروتئینها را تشکیل میدهند)، در این مدل ۲۰۹ پارامتر وجود دارد. در هنگام مطالعهٔ نواحی رمزشده، معمولاً از مدل جانشینی کدون استفاده میشود (هر رمز ژنتیکی یک توالی ۳تایی از حروف پایهٔ دیانای است که یک امینواسید را در پروتئین نشان میدهد).
جستارهای وابسته
- مولکولی و فرگشت
- ساعت مولکولی
- UPGMA
منابع
- ↑ «Models of sequence evolution for DNA sequences containing gaps». Molecular Biology and Evolution. SMBE. 2001. دریافتشده در 12/30/2016.
- ↑ T. P. Speed, K. J. Kechris, And S. K. Mcweeney. "Molecular Evolution, Substitution Models, and Phylogenies" (PDF) (به انگلیسی).
- ↑ Munro, H. N. (2013-09-24). Mammalian Protein Metabolism (به انگلیسی). Elsevier.
- ↑ Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.
- ↑ Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.
- ↑ "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.
- ↑ "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.
- ↑ "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.
- ↑ Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.
- ↑ "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.
- ↑ Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86. Archived from the original (PDF) on 16 May 2021. Retrieved 23 December 2016.
پیوند به بیرون
- DAWG: DNA مجمع با شکاف — رایگان نرمافزار برای شبیهسازی توالی، فرگشت،