مدل‌های سیر فرگشتی دی‌ان‌ای

مدل‌های زیادی مبتنی بر زنجیرهٔ مارکوف، برای مدل‌سازی سیر فرگشتی دی‌ان‌ای ارائه شده‌است. معمولاً مدل‌های جانشینی ارایه‌شده با هم در پارامترهایی که برای توضیح نرخ جانشینی یک نوکلئوتید در طول فرگشت دی‌ان‌ای در نظر گرفته می‌شوند، متفاوت هستند. این مدل‌ها معمولاً در آنالیز فیلوژنتیک مولکولی استفاده می‌شوند. به‌طور خاص از مدل‌های ارائه شده در برآورد درست‌نمایی بیشینهی درخت و تخمین فاصلهٔ فرگشتی میان توالی‌ها با داشتن فواصل مشاهده‌شده در میان آن‌ها، استفاده می‌شود. روش‌های مبتنی بر درست‌نمایی بیشینه به مدل وابسته هستند به‌طوری‌که اگر بخشی از اطلاعات موجود در داده‌ها را در نظر نگیرد، نتایج این روش بسیار ضعیف خواهد بود. مدل‌های مبتنی بر مارکوف در تحلیل داده‌ها تنها جانشینی در یک توالی را در نظر گرفته و حذف و اضافه شدن در توالی را نادیده می‌گیرند.

معرفی

رویکردهای مختلفی برای ساخت درخت فیلوژنی و تخمین فاصلهٔ زمانی میان موجودات وجود دارد. روش‌ها را می‌توان به ۳ دستهٔ زیر تقسیم کرد:

روش‌های مبتنی بر فاصله مانند روش UPGMA و اتصال هم‌سایگی
روش‌های مبتنی بر بیشینه صرفه‌جویی
روش‌های مبتنی بر درست‌نمایی بیشینه

یکی از مدل‌های پرکابرد برای استفاده از درست‌نمایی بیشینه استفاده از مدل مارکوف در تغییر جایگاه‌های توالی در طول زمان است. مدل‌های فرگشتی دی‌ان‌ای توضیح دهندهٔ وضعیت فرگشتی دی‌ان‌ای به عنوان رشته‌ای شامل ۴ حرف هستند. مدل‌های مارکوف به‌طور دقیق نحوهٔ ایجاد جهش یا عمل انتخاب طبیعی را توضیح نمی‌دهند، بلکه نرخ نسبتی جهش‌ها را در رشتهٔ دی‌ان‌ای مدل می‌کنند. به‌طور مثال در تغییرات توالی‌ها، نابرابری احتمال جهش‌ها و احتمال از بین رفتن اللهای ناسازگار با محیط، مسئول نرخ بالای جایگزینی انتقالی نسبت به تراگشت در رشته‌های در حال تغییر هستند. در حالی که در مدل Kimura80 که در ادامه توضیح داده شده‌است، تأثیر احتمال نابرابر جهش‌ها و احتمال از بین رفتن الل‌های ناسازگار با محیط تنها در پارامتری در نظر گرفته شده‌است که نرخ نسبی جایگزینی انتقالی را به تراگشت مدل می‌کند.

تحلیل‌های فرگشتی توالی‌ها برای مقیاس‌های زمانی مختلفی انجام شده‌است، از این رو بیان مدل‌ها به کمک نرخ لحظه‌ای تغییر وضعیت جایگاه‌های توالی قابل قبول است. ماتریس Q که در ادامه آورده شده‌است، نشان دهندهٔ این نرخ تغییر در میان وضعیت‌های تعریف‌شده در مسئله است. در صورتی که بدانیم که وضعیت شروع در یک جایگاه از توالی کدام است (وضعیت هر جایگاه برای یک توالی از دی‌ان‌ای نوع نوکلئوتید موجود در آن جایگاه است)، آن‌گاه می‌توان به کمک ماتریس Q در مدل و فاصلهٔ زمانی میان جد و فرزند، احتمال تعداد تغییرها و احتمال رسیدن به هر کدام از وضعیت‌های تعریف‌شده را استخراج کرد. جزییات مربوط به رسیدن از ماتریس نرخ به ماتریس احتمال در مدل‌های ریاضیاتی جانشینی توضیح داده می‌شود. در نظر گرفتن نرخ آنی در مدل، باعث بی‌نیازی آن از محاسبهٔ پارامترهای سطوح درخت فیلوژنی به صورت جداگانه برای هر سطح می‌شود، زیرا احتمال رسیدن از حالت ابتدایی به حالت انتهایی به صورت مستقیم محاسبه می‌گردد.

مدل‌های شرح داده شده در این صفحه، تغییرات یک حرف از مجموعه‌ای از حروف را نشان می‌دهند. در چنین مدل‌هایی برای تحلیل تغییرات کل توالی با فرض این که رشته شامل متغیرهای تصادفی مستقل با توزیع یکسان است، هر حرف مستقل از سایر حروف رشته تحلیل می‌شود. فرض استقلال را می‌توان با در نظر گرفتن فرضیهٔ تأثیرناپذیری هر حرف از سایر حروف در فرگشت رشته‌ها، توجیه کرد. در صورتی که تأثیر اولیهٔ انتخاب طبیعی بر روی تغییرات توالی باعث محدود کردن برخی جایگاه‌های خاص در توالی شود، می‌توان از مدل‌های دیگری استفاده کرد که نرخ نسبی جایگزینی هر حرف نسبت به حروف دیگر را محاسبه کرده و با استفاده از پارامترهای دیگری در مدل، واریانس تغییرات نرخ‌های جایگزینی را کنترل می‌کند.

زنجیره‌های مارکوف پیوسته زمان

زنجیره‌های مارکوف پیوسته زمان دارای ماتریس انتقال با پارامتر t هستند. اگر $E_{1},E_{2},E_{3},E_{4}$

نمایندهٔ وضعیت‌ها در مدل باشند، آنگاه ماتریس انتقال میان وضعیت‌های مسئله به شکل

P(t)=P_{ij}(t)

است که در آن هر مؤلفه

P_{ij}(t)

نشان‌دهندهٔ احتمال تغییر وضعیت

E_{i}

به وضعیت

E_{j}

در زمان

t

است.

مثال: می‌خواهیم فرایند جایگزینی را در توالی دی‌ان‌ای به صورت پیوسته زمان مدل کنیم (مثلاً Jukes-Cantor, Kimura و غیره). ماتریس انتقال مربوط به آن به شکل زیر خواهد بود:

${\displaystyle P(t)={\begin{pmatrix}p_{AA}(t)&p_{GA}(t)&p_{CA}(t)&p_{TA}(t)\\p_{AG}(t)&p_{GG}(t)&p_{CG}(t)&p_{TG}(t)\\p_{AC}(t)&p_{GC}(t)&p_{CC}(t)&p_{TC}(t)\\p_{AT}(t)&p_{GT}(t)&p_{CT}(t)&p_{TT}(t)\end{pmatrix}}}$

که در آن بلوک‌های ۲ × ۲ بالا-چپ و پایین-راست، مربوط به احتمال جایگزینی انتقالی و بلوک‌های ۲ × ۲ بالا-راست و پایین-چپ مربوط به احتمال‌های تراگشت هستند.

فرض: اگر در لحظهٔ $t_{0}$

زنجیرهٔ مارکوف در وضعیت

E_{i}

باشد، آن‌گاه احتمال آن‌که در لحظهٔ

t_{0}+t

در وضعیت

E_{j}

باشیم وابسته به مقادیر

E_{j}

و

t

و

E_{j}

است، بنابراین می‌توانیم این احتمال را به شکل

p_{ij}(t)

بنویسیم.

قضیه: ماتریس انتقال پیوسته زمان دارای خاصیت زیر است:

$P(t+\tau )=P(t)P(\tau )\$

توجه داشته باشید: ممکن است بین دو معنی کلمهٔ انتقال اشتباه به وجود بیاید. (i) در زمینهٔ زنجیرهٔ مارکوف، انتقال به معنی جابه‌جایی میان دو وضعیت است. (ii) در زمینهٔ تغییر در نوکلئوتیدها در توالی دی‌ان‌ای، جایگزینی انتقالی به معنی جابه‌جایی میان دو پورین (A↔G) یا میان دو پیریمیدین (C↔T) است (برای اطلاعات بیش‌تر به صفحهٔ جایگزینی انتقالی مراجعه کنید). جابه‌جایی میان یک پورین و یک پیریمیدین تراگشت نامیده می‌شود.

استخراج پویایی در جانشینی

توالی دی‌ان‌ای با طول ثابت m را در نظر بگیرید که با جانشینی بازها در طول زمان تغییر پیدا می‌کند. فرض کنید که فرایندهای انجام شده روی m مکان در توالی به صورت مارکوفی مستقل و دارای توزیع یکسان باشند. برای هر مکان مشخص داریم:

{\mathbf {P} }(t)=(p_{A}(t),\ p_{G}(t),\ p_{C}(t),\ p_{T}(t))^{T}

که $P(t)$

ماتریس احتمال وضعیت‌های

A, G, C, T

در زمان

t

هستند. از طرف دیگر مجموعهٔ وضعیت‌های مسئله به شکل زیر است:

{\mathcal {E}}=\{A,\ G,\ C,\ T\}

فرض کنید برای دو وضعیت مجزای $x,y\in {\mathcal {E}}$

در توالی مقدار

\mu _{xy}

نشان‌دهندهٔ نرخ انتقال میان وضعیت

x

به وضعیت

y

باشد. به‌طور مشابه برای هر

x

داریم:

$\mu _{x}=\sum _{y\neq x}\mu _{xy}$

تغییرات در توضیح احتمال ${\displaystyle p_{A}(t)\ }$

وقتی که زمان به اندازهٔ

{\displaystyle \Delta t\ }

زیاد می‌شود به شکل زیر است (

{\displaystyle \Delta t\ }

مقدار کوچکی است):

p_{A}(t+\Delta t)=p_{A}(t)-p_{A}(t)\mu _{A}\Delta t+\sum _{x\neq A}p_{x}(t)\mu _{xA}\Delta t

به عبارت دیگر، در دیدگاه فراوانی گرایانه، فراوانی وضعیت $A$

در زمان

t+\Delta t\

برابر فراوانی در زمان

t

منهای تعداد حالت‌هایی است که از وضعیت

A

تغییر کرده‌اند، به اضافهٔ تعداد حالت‌هایی است که به

A

تغییر وضعیت داده‌اند.

به‌طور مشابه، عبارت‌های پیشین برای احتمال‌های $p_{G}(t),\ p_{C}(t),p_{T}(t)$

برقرار است. می‌توانیم به‌طور فشرده بنویسیم:

${\mathbf {P} }(t+\Delta t)={\mathbf {P} }(t)+Q{\mathbf {P} }(t)\Delta t$

که در آن:

Q={\begin{pmatrix}-\mu _{A}&\mu _{GA}&\mu _{CA}&\mu _{TA}\\\mu _{AG}&-\mu _{G}&\mu _{CG}&\mu _{TG}\\\mu _{AC}&\mu _{GC}&-\mu _{C}&\mu _{TC}\\\mu _{AT}&\mu _{GT}&\mu _{CT}&-\mu _{T}\end{pmatrix}}

یا به‌طور مشابه:

${\mathbf {P} }'(t)=Q{\mathbf {P} }(t)$

که در آن $Q$

ماتریس نرخ است. توجه داشته باشید که در تعریف، جمع ستون‌های ماتریس

Q

برابر صفر است. برای یک فرایند مانا که

Q

به زمان وابسته نیست، معادلات تفاضلی به کمک ماتریس توان قابل حل است:

P(t)=\exp(Qt)

{\mathbf {P} }(t)=P(t){\mathbf {P} }(0)=\exp(Qt){\mathbf {P} }(0)\,.

ارگادیسیتی

اگر تمام احتمال انتقال‌ها مثبت باشد، ${\displaystyle \mu _{xy}\ }$

، به این معنی که تمام وضعیت‌های

x,y\in {\mathcal {E}}\

با هم قابل جابه‌جا شدن باشند، آن‌گاه زنجیرهٔ مارکوف، دارای یک توزیع مانای یکتای

{\mathbf {\Pi } }=\{\pi _{x},\ x\in {\mathcal {E}}\}

است که هر

{\displaystyle \pi _{x}\ }

نسبت زمانی است که بعد از اجرای مارکوف تا زمان بی‌نهایت در وضعیت

x

گذرانده شده‌است. چنین زنجیرهٔ مارکوفی ارگادیک نامیده می‌شود. در فرگشت دی‌ان‌ای، با فرض فرایندهای مشابه برای هر مکان، فراوانی‌های مانای،

\pi _{A},\pi _{G},\pi _{C},\pi _{T}\

، به عنوان نقطهٔ تعادل هر وضعیت در نظر گرفته شده‌است.

زمانی که توزیع کنونی ${\mathbf {P} }(t)$

همان توزیع ایستا

\mathbf {\Pi }

باشد، آن‌گاه می‌توان گفت

Q{\mathbf {\Pi } }=0

، به کمک معادلات دیفرانسیل بالا داریم:

$Q{\mathbf {\Pi } }=Q{\mathbf {P} }(t)={\frac {d{\mathbf {P} }(t)}{dt}}=0\,.$

بازگشت‌پذیری در زمان

تعریف: یک فرایند مارکوف بازگشت‌پذیر در زمان است اگر در وضعیت پایدار، احتمال تغییر وضعیت از $x$

به

y

برابر با احتمال تغییر وضعیت از

y

به

x

باشد (هرچند که احتمال حضور در هرکدام از وضعیت با یک‌دیگر متفاوت باشند). بنابراین خواهیم داشت:

\pi _{x}\mu _{xy}=\pi _{y}\mu _{yx}\

تمام فرایندهای ایستا بازگشت‌پذیر نیستند، هرچند تقریباً تمام مدل‌های تحولی دی‌ان‌ای فرض بازگشت‌پذیری در زمان را در نظر می‌گیرند (و این فرض، فرضی منطقی و متناسب با مسئله است). بر اساس فرض بازگشت‌پذیری در زمان متغیر جدید $s_{xy}=\mu _{xy}/\pi _{y}\$

تعریف می‌شود؛ بنابراین به راحتی می‌توان مشاهده کرد که:

s_{xy}=s_{yx}\

تعریف: متغیر متقارن $s_{xy}\$

جابه‌جایی‌پذیری میان وضعیت‌های

x

و

y

نامیده می‌شود. به معنای دیگر

s_{xy}\

نسبت حالت‌هایی از

x

که از طریق

y

به

x

رفته‌اند.

نتیجه: ۱۲ درایهٔ خارج از قطر ماتریس تغییر وضعیت ( $Q$

) می‌تواند توسط ۹ عدد مشخص شوند که ۶تای آن‌ها توسط متغیر جابه‌جایی پذیری و ۳تای دیگر توسط فراوانی ایستای

{\displaystyle \pi _{x}\ }

مشخص می‌شود. توجه داشته باشید که مجموع تکرارهای ایستا برابر ۱ بوده و مجموع هر سطر از

Q

برابر ۱ است.

مقیاس‌گذاری طول شاخه‌ها

با مقایسهٔ توالی‌های موجود، می‌توان واگرایی توالی‌ها را مشخص کرد. منظور از واگرایی میزان تفاوت توالی‌های مورد آزمایش است. اندازه‌گیری واگرایی، اطلاعاتی را دربارهٔ تعداد تغییراتی که در طول مسیر جدایی توالی‌ها به‌وجود آمده‌است، به ما می‌دهد. با شمارش سادهٔ تعداد اختلاف‌ها (فاصلهٔ همینگ) میان توالی‌ها، معمولاً تعداد جایگزینی‌های موجود در توالی کم‌تر از مقدار واقعی تخمین زده می‌شود. تخمین دقیق تعداد تغییرات صورت گرفته مشکل بوده و معمولاً ضروری نیست. به جای این محاسبه، طول مسیرهای روی درخت فیلوژنی به عنوان میانگین تعداد تغییرات در هر بخش از توالی در نظر گرفته می‌شود. طول مسیر برابر حاصلضرب زمان مسیر در میانگین نرخ جانشینی است. هرچند که این حاصل‌ضرب قابل تخمین است، اما با مشخص بودن واگرایی توالی‌ها، نرخ تغییر و زمان مسیر به‌طور مستقل قابل اندازه‌گیری نبوده و تنها حاصل‌ضرب آن‌ها مشخص است.

تعریف صورت گرفته از ماتریس نرخ جهش ( $Q$

) در این صفحه مقدار نسبی جانشینی‌ها را مشخص می‌کند، اما این ماتریس طوری مقیاس‌گذاری نشده‌است که شاخه‌ای با طول ۱ به‌طور میانگین دارای یک تغییر باشد. این تغییر مقیاس می‌تواند با تغییر مقیاس ماتریس توسط طول شاخهٔ درخت صورت بگیرد. اگر β نشان‌دهندهٔ فاکتور مقیاس و ν نشان‌دهندهٔ طول شاخه باشد (که از طریق میانگین تعداد جایگزینی‌ها در هر نقطه از توالی اندازه‌گیری می‌شود)، آن‌گاه βν در فرمول‌های احتمالی انتقال، به جای μt استفاده می‌شود. قابل توجه است که ν پارامتری است که از داده‌ها تخمین زده می‌شود و به عنوان طول شاخه در نظر گرفته می‌شود، و β عددی است که از طریق ماتریس نرخ جهش محاسبه شده و یک پارامتر جداگانه نیست.

مقدار پارامتر β می‌تواند با گذاشتن این شرط که میانگین نرخ شار هر وضعیت برابر ۱ باشد، به دست بیاید. مقادیر روی قطر ماتریس نرخ (ماتریس Q)، برابر حاصل‌ضرب مقدار ۱- در نرخ خروج از وضعیت است. برای مدل‌های برگشت‌پذیر در زمان، نقطهٔ تعادل وضعیت‌های تعریف شده را (که برای وضعیت i همان $\pi _{i}$

است) می‌دانیم؛ بنابراین می‌توان متوسط نرخ تغییر را با محاسبهٔ جمع حالت‌های خارج شده از هر وضعیت با وزنی متناسب با تعداد مکان‌هایی که به‌طور متوسط انتظار می‌رود در هر کلاس باشد، محاسبه کنیم. در این محاسبات β را به شکل زیر تعریف می‌کنیم:

\beta =1/\left(-\sum _{i}\pi _{i}\mu _{ii}\right)

به‌طور مثال در مدل Jukes-Cantor پارامتر مقیاس‌گذاری برابر 4/(3μ) است زیرا نرخ خروج از هر وضعیت برابر 3μ/4 است.

مدل (JC69 (Jukes and Cantor, 1969

مدل JC69 ساده‌ترین مدل جانشینی موجود است. از جمله فرض‌های این مدل برابری تعداد تکرار هر کدام از بازهای موجود در توالی دی‌ان‌ای $\left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}\right)$

و برابری نرخ جهش در تمام آن‌ها است؛ بنابراین تنها پارامتری که در این مدل استفاده می‌شود

\mu

است که برابر نرخ کلی جانشینی در این مدل است. همان‌طور که پیش از گفته شد، این متغیر در زمان تغییر میانگین نرخ به ۱، به عدد ثابت تبدیل می‌شود.

Q={\begin{pmatrix}{*}&{\mu  \over 4}&{\mu  \over 4}&{\mu  \over 4}\\{\mu  \over 4}&{*}&{\mu  \over 4}&{\mu  \over 4}\\{\mu  \over 4}&{\mu  \over 4}&{*}&{\mu  \over 4}\\{\mu  \over 4}&{\mu  \over 4}&{\mu  \over 4}&{*}\end{pmatrix}}

احتمال P_{ij} تغییر از وضعیت ابتدایی i به وضعیت نهایی j به عنوان تابعی از طول شاخه (\nu) در مدل JC69. منحنی قرمز: نوکلئوتید i و j متفاوت هستند. منحنی آبی: وضعیت ابتدایی و نهایی یکسان هستند. بعد از مدت طولانی‌ای، احتمال رسیدن به نقطهٔ تعادل تعداد نوکلئوتیدها با هم برابر است (۰٫۲۵).

P={\begin{pmatrix}{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}\end{pmatrix}}

زمانی که طول شاخه، $\nu$

، بر اساس متوسط تعداد تغییرات در هر نقطه از توالی اندازه‌گیری می‌شود، داریم:

P_{ij}(\nu )=\left\{{\begin{array}{cc}{1 \over 4}+{3 \over 4}e^{-4\nu /3}&{\mbox{ if }}i=j\\{1 \over 4}-{1 \over 4}e^{-4\nu /3}&{\mbox{ if }}i\neq j\end{array}}\right.

لازم است ذکر شود که:

${\displaystyle \nu ={3 \over 4}t\mu =({\mu \over 4}+{\mu \over 4}+{\mu \over 4})t}$

که از جمع هر سطر یا ستون ماتریس Q ضرب در زمان به دست آمده به معنی متوسط تعداد جایگزینی در زمان t (طول شاخه) برای هر جایگاه در توالی در زمانی است که نرخ جانشینی برابر $\mu$

باشد.

در صورتی که نسبت p از تغییرات میان دو توالی در یک حرف داده شده باشد، مدل Jukes-Cantor فاصلهٔ فرگشتی میان دو رشته را، بر اساس متوسط تعداد تغییرات، به شکل زیر محاسبه می‌کند.

{\hat {d}}=-{3 \over 4}\ln({1-{4 \over 3}p})={\hat {\nu }}

متغیر p نشان‌دهندهٔ تعداد جابه‌جایی است که با عنوان فاصلهٔ p شناخته شده و یک آمارهٔ بسنده برای محاسبات در مدل Jukes-Cantor است.

مدل (K80 (Kimura, 1980

مدل k80 تفاوت را میان جایگزینی‌های انتقالی (پورین به پورین یا پیریمیدین به پیریمیدین) و تراگشت (از یک پورین به یک پیریمیدین یا برعکس) مدل می‌کند. در توضیح اصلی کیمورا دربارهٔ مدل، α و β برای نشان دادن نرخ جانشینی‌های مختلف استفاده شده‌اند، اما در حال حاضر، معمولاً نرخ تراگشت برابر ۱ قرار داده شده و از κ به عنوان نسبت جایگزینی انتقالی به تراگشت استفاده می‌شود. در مدل K80 فرض می‌شود که تمام حالت‌های پایه دارای احتمال برابر هستند (πT=πC=πA=πG=۰٫۲۵).

$Q={\begin{pmatrix}{*}&{\kappa }&{1}&{1}\\{\kappa }&{*}&{1}&{1}\\{1}&{1}&{*}&{\kappa }\\{1}&{1}&{\kappa }&{*}\end{pmatrix}}$

پارامترهای مدل کیمورا به شکل زیر هستند:

${\displaystyle K=-{1 \over 2}\ln((1-2p-q){\sqrt {1-2q}})}$

که در آن p درصد تعداد حروفی در توالی است که جایگشت انتقالی رخ داده و q درصد تعداد جایگاه‌هایی است که تراگشت رخ داده است.

مدل (F81 (Felsenstein 1981

این مدل در واقع گسترش‌یافتهٔ مدل JC69 است به‌طوری‌که احتمال‌های پایهٔ میان بازهای موجود در توالی می‌توانند با هم برابر نباشند $\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}$

ماتریس نرخ به شکل زیر است:

$Q={\begin{pmatrix}{*}&{\pi _{C}}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{*}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{*}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{\pi _{A}}&{*}\end{pmatrix}}$

هنگامی که طول شاخه، ν، بر اساس متوسط تعداد تغییرات در هر مکان از توالی اندازه‌گیری می‌شود، داریم:

$\beta =1/(1-\pi _{A}^{2}-\pi _{C}^{2}-\pi _{G}^{2}-\pi _{T}^{2})$

$P_{ij}(\nu )=\left\{{\begin{array}{cc}e^{-\beta \nu }+\pi _{j}\left(1-e^{-\beta \nu }\right)&{\mbox{ if}}i=j\\\pi _{j}\left(1-e^{-\beta \nu }\right)&{\mbox{ if}}i\neq j\end{array}}\right.$

مدل (HKY85 (Hasegawa, Kishino and Yano 1985

این مدل را می‌توان به عنوان تلفیقی از مدل‌های گسترش‌یافتهٔ Kimura80 و Felsentein81 در نظر گرفت. مدل HKY85 میان نرخ جایگزینی انتقالی و تراگشت با کمک پارامتر κ تفاوت قایل می‌شود و از سوی دیگر اجازه می‌دهد تا فراوانی پایهٔ میان بازهای مختلف متفاوت باشد $({\displaystyle \pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G}})$

[مدل F84 در سال ۱۹۸۴ با پارامترهای دیگری با در نظر گرفتن عدم برابر احتمال‌های پایه توسط Felsenstein ارائه شد]. ماتریس نرخ تغییرات در این مدل به شکل زیر است:

$Q={\begin{pmatrix}{*}&{\kappa \pi _{C}}&{\pi _{A}}&{\pi _{G}}\\{\kappa \pi _{T}}&{*}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{*}&{\kappa \pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{\kappa \pi _{A}}&{*}\end{pmatrix}}$

در صورتی که طول شاخه، ν، را با کمک متوسط تعداد تغییرات صورت گرفته در هر حرف از توالی بیان کنیم داریم:

$\beta ={\frac {1}{2(\pi _{A}+\pi _{G})(\pi _{C}+\pi _{T})+2\kappa [(\pi _{A}\pi _{G})+(\pi _{C}\pi _{T})]}}$

$P_{AA}(\nu ,\kappa ,\pi )=\left[\pi _{A}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)+\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/(\pi _{A}+\pi _{G})$

$P_{AC}(\nu ,\kappa ,\pi )=\pi _{C}\left(1.0-e^{-\beta \nu }\right)$

$P_{AG}(\nu ,\kappa ,\pi )=\left[\pi _{G}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)-\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/\left(\pi _{A}+\pi _{G}\right)$

$P_{AT}(\nu ,\kappa ,\pi )=\pi _{T}\left(1.0-e^{-\beta \nu }\right)$

و فرمول برای سایر حالت‌های ممکن از وضعیت‌ها را می‌توان با جایگزینی احتمال مناسب به دست آورد.

مدل (T92 (Tamura 1992

T92 یک مدل سادهٔ ریاضیاتی برای تخمین تعداد جانشینی‌های نوکلئوتیدها در هر مکان توالی میان دو توالی دی‌ان‌ای با گسترش مدل Kimura80 بوده، به‌طوری‌که نسبت به پیوند G+C متمایل است. این روش زمانی کاربردی است که جایگزینی انتقالی-تراگشت بالایی وجود داشته و نسبت به G+C متمایل باشد مانند حالتی که در دی‌ان‌ای میتوکندری مگس سرکه اتفاق می‌افتد.

با داشتن مقدار $\pi _{GC}$

داریم:

$\pi _{G}=\pi _{C}={\pi _{GC} \over 2}$

$\pi _{A}=\pi _{T}={(1-\pi _{GC}) \over 2}$

ماتریس تغییرات بازها به شکل زیر است:

$Q={\begin{pmatrix}{*}&{\kappa (1-\pi _{GC})/2}&{(1-\pi _{GC})/2}&{(1-\pi _{GC})/2}\\{\kappa \pi _{GC}/2}&{*}&{\pi _{GC}/2}&{\pi _{GC}/2}\\{(1-\pi _{GC})/2}&{(1-\pi _{GC})/2}&{*}&{\kappa (1-\pi _{GC})/2}\\{\pi _{GC}/2}&{\pi _{GC}/2}&{\kappa \pi _{GC}/2}&{*}\end{pmatrix}}$

فاصلهٔ فرگشتی میان دو رشتهٔ بی‌رمز بر اساس این مدل به شکل زیر است:

$d=-h\ln(1-{p \over h}-q)-{1 \over 2}(1-h)\ln(1-2q)$

که در آن $h=2\theta (1-\theta )$

و

{\displaystyle \theta \in (0,1)}

محتوای GC است.

مدل (TN93 (Tamura and Nei 1993

این مدل تفاوت میان دو حالت جایگزینی انتقالی را در نظر می‌گیرید، به این معنی که (A <-> G) می‌تواند نرخ متفاوتی نسبت به (C<->T) داشته باشد، اما تراگشت‌ها دارای نرخ برابر هستند (هرچند نرخ تراگشت می‌تواند عددی متفاوت از نرخ‌های جایگزینی انتقالی باشد).

در این مدل، احتمال هرکدام از پایه‌ها می‌توانند متفاوت باشند $(\pi _{T}\neq \pi _{C}\neq \pi _{A}\neq \pi _{G})$

.

${\displaystyle Q={\begin{pmatrix}{*}&{\kappa _{1}\pi _{C}}&{\pi _{A}}&{\pi _{G}}\\{\kappa _{1}\pi _{T}}&{*}&{\pi _{A}}&{\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{*}&{\kappa _{2}\pi _{G}}\\{\pi _{T}}&{\pi _{C}}&{\kappa _{2}\pi _{A}}&{*}\end{pmatrix}}}$

GTR: مدل تعمیم‌یافته و بازگشت‌پذیر در زمان (Tavaré 1986)

این مدل، بی‌طرف‌ترین مدل با استقلال میان حروف و نواحی محدود است که اجازهٔ برگشت‌پذیری در مدل وجود دارد. مدل برای اولین بار توسط Simon Tavaré در سال ۱۹۸۶ توضیح داده شد.

پارامترهای مدل GTR شامل برداری از احتمالات پایدار برای پایه‌های مختلف به شکل $\pi _{GC}$

است. ماتریس ارتباط میان وضعیت‌های حروف توالی به شکل زیر است:

$Q={\begin{pmatrix}{-(\alpha \pi _{C}+\beta \pi _{A}+\gamma \pi _{G})}&{\alpha \pi _{C}}&{\beta \pi _{A}}&{\gamma \pi _{G}}\\{\alpha \pi _{T}}&{-(\alpha \pi _{T}+\delta \pi _{A}+\epsilon \pi _{G})}&{\delta \pi _{A}}&{\epsilon \pi _{G}}\\{\beta \pi _{T}}&{\delta \pi _{C}}&{-(\beta \pi _{T}+\delta \pi _{C}+\eta \pi _{G})}&{\eta \pi _{G}}\\{\gamma \pi _{T}}&{\epsilon \pi _{C}}&{\eta \pi _{A}}&{-(\gamma \pi _{T}+\epsilon \pi _{C}+\eta \pi _{A})}\end{pmatrix}}$

که در آن

${\begin{aligned}\alpha =r(T\rightarrow C)=r(C\rightarrow T)\\\beta =r(T\rightarrow A)=r(A\rightarrow T)\\\gamma =r(T\rightarrow G)=r(G\rightarrow T)\\\delta =r(C\rightarrow A)=r(A\rightarrow C)\\\epsilon =r(C\rightarrow G)=r(G\rightarrow C)\\\eta =r(A\rightarrow G)=r(G\rightarrow A)\end{aligned}}$

پارامترهای بالا پارامترهای جایگزینی انتقالی هستند.

بنابراین، GTR نیازمند ۶ پارامتر جانشینی است بوده و ۴ پارامتر برای مقادیر تعادل نهایی است. با توجه به روابط میان پارامترها، تعداد پارامترها می‌تواند به ۹ پارامتر به اضافهٔ پارامتر $\mu$

(تعداد جانشینی‌ها در واحد زمان) کاهش پیدا کند.

به‌طور کلی برای محاسبهٔ تعداد پارامترها، باید تعداد درایه‌های بالای قطر اصلی در ماتریس را شمارش کنیم، به‌طور مثال برای $n$

وضعیت ممکن در یک مکان از توالی

{\displaystyle {{n^{2}-n} \over 2}}

و سپس

n

وضعیت برای نقاط تعادل اضافه شده و چون

\mu

ثابت در نظر گرفته می‌شود، یکی از این تعداد کم می‌شود.

{{n^{2}-n} \over 2}+n-1={1 \over 2}n^{2}+{1 \over 2}n-1.

برای مثال برای توالی‌های امینواسیدها (۲۰ نوع امینواسید استاندارد وجود دارد که پروتئین‌ها را تشکیل می‌دهند)، در این مدل ۲۰۹ پارامتر وجود دارد. در هنگام مطالعهٔ نواحی رمزشده، معمولاً از مدل جانشینی کدون استفاده می‌شود (هر رمز ژنتیکی یک توالی ۳تایی از حروف پایهٔ دی‌ان‌ای است که یک امینواسید را در پروتئین نشان می‌دهد). $4^{3}=64$

کدون وجود دارد، اما نرخ جانشینی میان کدون‌هایی که در بیش از یک حرف با هم تفاوت دارند، صفر در نظر گرفته می‌شود، بنابراین

{{20\times 19\times 3} \over 2}+64-1=633

پارامتر در مدل وجود دارد.

جستارهای وابسته

مولکولی و فرگشت
ساعت مولکولی
UPGMA

منابع

↑ «Models of sequence evolution for DNA sequences containing gaps». Molecular Biology and Evolution. SMBE. 2001. دریافت‌شده در 12/30/2016.
↑ T. P. Speed, K. J. Kechris, And S. K. Mcweeney. "Molecular Evolution, Substitution Models, and Phylogenies" (PDF) (به انگلیسی).
↑ Munro, H. N. (2013-09-24). Mammalian Protein Metabolism (به انگلیسی). Elsevier.
↑ Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.
↑ Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.
↑ "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.
↑ "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.
↑ "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.
↑ Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.
↑ "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.
↑ Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86. Archived from the original (PDF) on 16 May 2021. Retrieved 23 December 2016.

پیوند به بیرون

DAWG: DNA مجمع با شکاف — رایگان نرم‌افزار برای شبیه‌سازی توالی، فرگشت،

[1] «Models of sequence evolution for DNA sequences containing gaps». Molecular Biology and Evolution. SMBE. 2001. دریافت‌شده در 12/30/2016.

[2] T. P. Speed, K. J. Kechris, And S. K. Mcweeney. "Molecular Evolution, Substitution Models, and Phylogenies" (PDF) (به انگلیسی).

[3] Munro, H. N. (2013-09-24). Mammalian Protein Metabolism (به انگلیسی). Elsevier.

[4] Kimura M (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences". Journal of Molecular Evolution. 16 (2): 111–120. doi:10.1007/BF01731581. PMID 7463489.

[5] Felsenstein J (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". Journal of Molecular Evolution. 17 (6): 368–376. doi:10.1007/BF01734359. PMID 7288891.

[6] "Dating of human-ape splitting by a molecular clock of mitochondrial DNA". Journal of Molecular Evolution. 22 (2): 160–174. 1985. doi:10.1007/BF02101694. PMID 3934395.

[7] "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". Journal of Molecular Evolution. 29 (2): 170–179. 1989. doi:10.1007/BF02100115. PMID 2509717.

[8] "A Hidden Markov Model approach to variation among sites in rate of evolution, and the branching order in hominoidea". Molecular Biology and Evolution. 13 (1): 93–104. 1996. doi:10.1093/oxfordjournals.molbev.a025575. PMID 8583911.

[9] Tamura K (1992). "Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C content biases". Molecular Biology and Evolution. 9 (4): 678–687. PMID 1630306.

[10] "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Molecular Biology and Evolution. 10 (3): 512–526. 1993. PMID 8336541.

[Tavare1986-11] Tavaré S (1986). "Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences" (PDF). Lectures on Mathematics in the Life Sciences. American Mathematical Society. 17: 57–86. Archived from the original (PDF) on 16 May 2021. Retrieved 23 December 2016.