همترازسازی توالی
در بیوانفورماتیک، همتراز کردن توالی (به انگلیسی: Sequence Alignment) به روشهای مرتب کردن توالیهای آرانای، دیانای و پروتئین گفته میشود بهطوریکه مکانهای مشابهت بین توالیها را مشخص کند. این مکانهای مشابهت بین دو یا چند توالی، میتواند نشانگر ارتباط عملکردی، ساختاری یا تکاملی مابین توالیها باشد. توالی یک دیانای یا آرانای، دنبالهای از نوکلئوتیدهای تشکیل دهندهٔ آن و توالی یک پروتئین، دنبالهای از پس ماندههای تقطیر اسیدهای آمینه آن است. توالیهای همتراز شده را معمولاً به شکل سطرهایی زیر هم درون یک ماتریس نشان میدهند. در صورت لزوم در برخی مکانهای توالی بین نوکلئوتیدها(پس ماندهها) فاصله اضافه میکنند تا در چند ستون پی در پی کاراکترهای یکسان زیر هم قرار بگیرند.
همتراز کردن توالیها برای دنبالههای غیر زیستی مانند دنبالههای موجود در زبانهای طبیعی یا دادههای مالی نیز استفاده میشود.
تفسیر زیستی
اگر دو توالی که همتراز کردن بر روی آنها صورت میگیرد دارای یک جد مشترک باشند، پس از همتراز کردن، مکانهایی که دو دنباله با یکدیگر مطابقت ندارند را میتوان به عنوان جهش نقطهای تفسیر کرد. همچنین فاصلهها را میتوان به عنوان جهش رخنهای یا جهش حذفی در یکی یا هر دو از اجداد در هنگام انشعاب یافتن از یکدیگر تفسیر کرد. در همتراز کردن توالیهای پروتئینی، درجه شباهت بین اسیدهای آمینه یک ناحیه خاص در توالی را میتوان به عنوان مقیاسی برای اینکه یک منطقه چقدر بین اجداد حفظ شدهاست در نظر گرفت. عدم وجود جانشینی یا وجود تنها تعدادی جانشینی بسیار حفظ شده(جانشینی اسیدهای آمینهای که زنجیرههای جانبیاشان خواص بیوشمیایی مشابه دارند) در ناحیهای خاص از توالی، این ناحیه را به عنوان ناحیهای مهم از لحاظ ساختاری یا کارکردی پیشنهاد میدهد. هر چند در دیانای و آرانای بازهای نوکلئوتیدها نسبت به آمینواسیدها بیشتر به هم شباهت دارند، جفت بازهای حفظ شده نیز میتوانند نشان دهندهٔ وظیفهٔ ساختاری یا کارکردی مشابه باشند.
روشهای همتراز کردن
توالیهای بسیار کوچک یا بسیار مشابه میتوانند به صورت دستی همتراز شوند. اما، اکثر مسائل جالب توجه نیاز به همتراز کردن توالیهای طولانی، بسیار متغیر یا با تعداد بسیار زیاد دارند که نمیتوانند تنها توسط تلاش انسانی همتراز شوند. در عوض، دانش انسان، در ساختن الگوریتمهایی که همتراز کردن توالیها را با کیفیت بالا را انجام میدهند، و گاهی در تنظیم نتایج نهایی برای منعکس ساختن الگوهایی که نمایش آنها به صورت الگوریتمی سخت است ( مخصوصاً در مورد توالیهای نوکلوئوتیدی )، به کار میرود. رویکردهای محاسباتی برای همتراز کردن توالیها بهطور کلی در دو دسته جا میگیرد: همتراز کردن سراسری و همتراز کردن محلی. محاسبه همترازی سراسری، شکلی از بهینهسازی سراسری است که به همترازی فشار میآورد تا در کل طول توالیهای مورد جستجو گسترده شود. بلعکس، همتراز کردن محلی، نواحی مشابه درون توالیهای بلند را که معمولاً در طول توالی بسیار متفاوت اند، تشخیص میدهد. معمولاً همتراز کردن محلی ترجیح داده میشود، اما محاسبهاش میتواند به علت مشکلات تشخیص نواحی مشابه، مشکل تر باشد. الگوریتمهای محاسباتی گوناگونی برای مسئله همتراز کردن توالیها به کار رفته است، که شامل روشهای آهسته ولی بهینهکنندهای مانند برنامهریزی پویا، و روشهای کارآمد اما نه دارای الگوریتمهای کاملاً ابتکاری یا روشهای احتمالاتی، که برای جستجو در پایگاه دادههای در مقیاس بزرگ به کار میرود، میباشد.
شیوههای نمایش
بهطور معمول همترازی توالیها هم به صورت گرافیکی و هم در قالب متنی ارائه میشود. در اکثر روشهای نمایش همترازی توالیها، توالیها به صورت سطری مرتب و نوشته میشوند، بهطوریکه در نتیجه، پس ماندهای همتراز شده درستونهای پشت سر هم ظاهر میشوند. در قالبهای متنی، ستونهای همتراز شده شامل کاراکترهای یکسان یا مشابه، با سیستمی از سمبلهای محافظت شده نمایش داده میشوند. همانطور که در تصویر بالا میبینید، سمبل ستاره و سمبل پایپ برای نشان دادن یکسان بودن دو ستون استفاده شدهاست؛ بقیه نشانههای کمتر معمول شامل دو نقطه برای جانشینی محافظت شده و نقطه برای جانشینی نیمه محافظت شدهاست. بسیاری از برنامههای مشاهده توالی از رنگها نیز برای نمایش اطلاعات دربارهٔ ویژگیهای عناصر توالی به صورت تکی استفاده میکند؛ در توالیهای دیانای و آرانای، این کار معادل نشان دادن هرنوع نوکلئوتید با یک رنگ ویژه آن میباشد. در همترازیهای پروتئینها، مانند تصویر بالا، رنگ کردن معمولاً برای نشان دادن خصوصیات اسیدهای آمینه استفاده میشود که به تشخیص جانشینیهای حفظ شدهٔ یک آمینو اسید مشخص کمک میکند. برای چند توالی با هم، آخرین سطر در هر ستون معمولاً توالی توافقی است که توسط همترازی تعیین شدهاست؛ توالی توافقی همچنین معمولاً در قالب گرافیکی با یک لوگو که اندازه هرحرف نوکلئوتید یا اسید آمینه در آن متناظر با درجه حفاظت شدگی آن است، نمایش داده میشود.
همترازی توالیها میتواند به شکلهای گوناگونی در قالبهای فایلهای متنی ذخیره شود، که بسیاری از این قالبها در آغاز از برنامههای همتراز کردن خاصی تولید شدهاند. اکثر ابزارهای مبتنی بر وب تعداد محدودی قالب ورودی و خروجی را پشتیبانی میکنند؛ مانند قالب FASTA و قالب ژن بانک، و خروجیاشان نیز به سادگی قابل ویرایش نیست. چند برنامه نیز برای تبدیل قالبهای مختلف به یکدیگر موجود است، مانند READSEQ یا EMBOSS که دارای واسط کاربر گرافیکی یا نوشتاری هستند. همچنین بستههای برنامهسازی مانند بیوپرل و BioRuby توابعی را برای انجام این کار فراهم کردهاند.
همتراز کردن سراسری و همتراز کردن محلی
همتراز کردن سراسری، که تلاش میکند هر پس ماندی را در هر توالی همتراز کند، وقتی توالیهای مجموعهٔ جستجو مشابه هستند و کاملاً اندازه یکسانی دارند، بهترین کاربرد را دارد( این به معنی آن نیست که همترازی سراسری در فواصل ( گپ) نمیتواند پایان یابد). یک تکنیک عمومی همتراز کردن سراسری، الگوریتم نیدلمن–وانچ است، که بر پایه برنامهریزی پویا است. همتراز کردن محلی برای توالیهای غیر مشابه که مظنون به داشتن نواحی همانندی یا داشتن موتیفهای مشابه درون فضای بزرگتر توالیاشان هستند، مفیدتر میباشد. الگوریتم اسمیت-واترمن یک روش عمومی همتراز کردن محلی است که آن نیز برپایه برنامهریزی پویا است. برای توالیهایی که به اندازه کافی شبیه باشند، تفاوتی بین همترازی محلی و سراسری وجود ندارد.
روشهای ترکیبی، که با عنوان روشهای نیمه سراسری یا "سرامحلی" شناخته میشوند، تلاش میکنند تا بهترین همترازی ممکن که شامل ابتدا و انتهای یکی از توالیها باشد را بیابند. این ایده میتواند به ویژه وقتی پایین دست یک توالی با بالا دست توالی دیگر همپوشانی دارد، مفید باشد. در این حالت، نه همتراز کردن سراسری و نه محلی کاملاً مناسب نیست: در حالی که همتراز کردن محلی نمیتواند کاملاً منطقه همپوشانی را بپوشاند، همترازی سراسری تلاش میکند تا بر همتراز کردن فشار آورد تا در آنسوی منطقهٔ همپوشانی گسترش یابد.
همتراز کردن دوبدو
روشهای همتراز کردن دوبدو، برای پیدا کردن بهترین همترازی جور تکهای محلی یا سراسری دو توالی مورد استفاده قرار میگیرد. همتراز کردن دوبدو میتواند تنها بین دو توالی در یک زمان مورد استفاده قرار گیرد، اما از لحاظ محاسباتی کارآمد است و معمولاً برای روشهایی که نیاز به دقت بسیار زیادی ندارند (مانند جستجوی یک پایگاه داده برای یافتن توالیهای با تشابه بالا با توالی مورد جستجو) مورد استفاده قرار میگیرد. سه روش اولیه برای تولید همترازی دوبدو؛ روش ماتریس–نقطه، برنامهریزی پویا، و روشهای کلمهای است؛ البته تکنیکهای همتراز کردن چندین توالی میتواند توالیهای دوبدو را نیز همتراز کند. اگرچه هر روش، نقاط قوت و ضعف خود را دارد، هر سه روش همتراز کردن دوبدو دارای مشکلاتی در توالیهای تکرار شونده بالا با محتوای اطلاعاتی کم میباشند-مخصوصا جایی که تعداد تکرارها در دوتوالیای که قرار است همتراز شوند متفاوت باشند. یک روش برای تعیین سودمندی یک همترازی دوبدو داده شده "حداکثر جفتهای یکتا"، یا بزرگترین زیر دنبالهای که در هر دو توالی اتفاق می افتد، میباشد. از توالیهای با حداکثر جفتهای یکتای بلندتر، نوعاً ارتباط نزدیکتری نتیجه میشود.
روشهای ماتریس-نقطه
رویکرد ماتریس–نقطه، که یک خانواده از همترازیها برای مناطق هر توالی تولید میکند، از نظر مقداری و مفهومی ساده است، با این وجود برای آنالیز در یک مقیاس بزرگ، زمان بر است. در غیاب نویز، میتوان به سادگی برخی از ویژگیهای توالی را-مانند درجها، حذفها، تکرارها، یا تکرارهای معکوس شده- به صورت دیداری در یک نمودار ماتریس-نقطهای تشخیص داد. برای ساخت یک طرح ماتریس-نقطه، دو توالی در امتداد بالاترین سطر و چپترین ستون از یک ماتریس دو بعدی نوشته میشود و سپس در هر مکانی که دو کاراکتر، سطر و ستون آنها با یکدیگر منطبق بود، یک نقطه گذاشته میشود. بعضی از پیادهسازیهای این روش، اندازه و شدت هر نقطه را بسته به درجه تشابه دو کاراکتر تغییر میدهند تا جانشینیهای حفظ شده را معین کنند. در این روش، نمودار نقطهای توالیهای بسیار نزدیک به هم، به صورت یک خط در امتداد قطر اصلی ماتریس ظاهر میشود.
مشکلات نمودارهای نقطهای، به عنوان یک تکنیک نمایش اطلاعات، شامل مواردی چون: نویز، کمبود وضوح، عدم درک مستقیم وشهودی، و دشواری استخراج خلاصه آماری جورشدهها و مکانهای جور روی دو توالی است. همچنین فضای هدر رفته بیشتری در جاییکه اطلاعات جورها در طول قطر تکثیرشدهاند و اکثر فضای نمودار خالی است یا توسط نویز اشغال شدهاست، وجود دارد؛ و نهایتاً، نمودارهای نقطهای برای دو توالی محدود شدهاند. هیچکدام از این محدودیتها در دیاگرامهای همترازی Miropeats وجود ندارد اما آنها نیز عیبهای خاص خود را دارند.
نمودارهای نقطهای همچنین میتوانند برای تعیین تکرار شوندگی در یک توالی منفرد استفاده شوند. یک توالی میتواند با خودش همتراز شود و نواحی که تشابهات مهمی را مشترک هستند به صورت خطوطی خارج از قطر اصلی ظاهر میشوند. این اثر میتواند هنگامی که پروتئینی دارای چند حوزهٔ مشابه است اتفاق بیفتد
سایر کاربردهای زیستی
در بازسازی توالی از همترازسازی توالی استفاده میشود تا همپوشانی مبان توالیهای را پیدا کرده و به وسیله آن پیوستارها(خطوط ممتد طولانی و بدون شاخه در رشته) را پیدا کنیم. همچنین آرانایهای توالییابی شده مانند امآرانایهای نابالغ میتوانند با یک ژنوم توالییابی شده همتراز شوند تا مکان ژنها را در آنها پیدا کرده و اطلاعاتی را راجع به پیوند جایگزین و ویرایش آرانای به دست آوریم. استفادهی دیگر همترازسازی در تحلیل چندریختی تک-نوکلئوتید میباشد که به وسیله همترازسازی توالی نمونههای مختلف انجام میگیرد.
کاربردهای غیرزیستی
روشهای استفاده شده برای همترازسازی توالی همچنین در سایر عرصهها استفاده پیدا کردند، که از مهمترین آنها میتوان به پردازش زبانهای طبیعی و علوم انسانی اشاره کرد. تکنیکهایی که مجموعهای از لغات را برای ساخت نسخههای زبانی اثباتهای ریاضی تولیدشده توسط کامپیوتر انتخاب میکنند، بسیاری از روشهای استفاده شده در همترازسازی در بیوانفورماتیک را استفاده میکنند. در زبانشناسی تاریخی و مقایسهای همترازسازی در خودکار کردن بخشی از روش مقایسهای که زبانشناسان به صورت سنتی جهت بازسازی زبانها استفاده میکردند کاربرد دارد. تحقیقاتی در اقتصاد و بازاریابی نیز از تکنیکهای همترازسازی جهت تحلیل توالی خریدها در طول زمان استفاده کردهاند.
نرمافزارها
لیست کامل نرمافزارهای همترازسازی دستهبندی شده بر اساس الگوریتم و نوع همترازسازی در نرمافزارهای همترازسازی توالی موجود میباشد، اما متداولترین نرمافزارهایی که برای همترازسازی توالی استفاده میشوند ClustalW2 و T-coffee میباشند و برای جستجوی پایگاهداده از BLAST و FASTA3x استفاده میشود. نرمافزارهای تجاری مانند DNASTAR Lasergene ،Geneious و PatternHunter نیز موجودند.
الگوریتمها و نرمافزارهای همترازسازی را میتوان توسط مجموعه همترازسازی های محک که معروف به BAliBASE هستند مستقیماً با یکدیگر مقایسه کرد. کارایی نسبی روشهای متداول همترازسازی برروی مسائل پرتکرار محاسبه شده و در وبسایت BAliBASE منتشر شده است. لیست کاملی از نمرات BAliBASE برای بسیاری از نرمافزارهای همترازسازی را میتوان توسط میزکار پروتئین STRAP محاسبه کرد.
منابع
- ↑ Kim N; Lee C (2008). Bioinformatics detection of alternative splicing. Methods Mol. Biol. Methods in Molecular Biology™. Vol. 452. pp. 179–97. doi:10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. PMID 18566765.
- ↑ Li JB, Levanon EY, Yoon JK, et al. (May 2009). "Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing". Science. 324 (5931): 1210–3. Bibcode:2009Sci...324.1210L. doi:10.1126/science.1170995. PMID 19478186.
- ↑ Blazewicz J, Bryja M, Figlerowicz M, et al. (June 2009). "Whole genome assembly from 454 sequencing output via modified DNA graph concept". Comput Biol Chem. 33 (3): 224–30. doi:10.1016/j.compbiolchem.2009.04.005. PMID 19477687.
- ↑ Duran C; Appleby N; Vardy M; Imelfort M; Edwards D; Batley J (May 2009). "Single nucleotide polymorphism discovery in barley using autoSNPdb". Plant Biotechnol. J. 7 (4): 326–33. doi:10.1111/j.1467-7652.2009.00407.x. PMID 19386041.
- ↑ Abbott A.; Tsay A. (2000). "Sequence Analysis and Optimal Matching Methods in Sociology, Review and Prospect". Sociological Methods and Research. 29 (1): 3–33. doi:10.1177/0049124100029001001.
- ↑ Barzilay R; Lee L. (2002). "Bootstrapping Lexical Choice via Multiple-Sequence Alignment" (PDF). Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 10: 164–171. arXiv:cs/0205065. Bibcode:2002cs........5065B. doi:10.3115/1118693.1118715.
- ↑ Kondrak, Grzegorz (2002). "Algorithms for Language Reconstruction" (PDF). University of Toronto, Ontario. Archived from the original (PDF) on 17 December 2008. Retrieved 2007-01-21.
- ↑ Prinzie A.; D. Van den Poel (2006). "Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM". Decision Support Systems. 42 (2): 508–526. doi:10.1016/j.dss.2005.02.004. See also Prinzie and Van den Poel's paper Prinzie, A; Vandenpoel, D (2007). "Predicting home-appliance acquisition sequences: Markov/Markov for Discrimination and survival analysis for modeling sequential information in NPTB models". Decision Support Systems. 44 (1): 28–45. doi:10.1016/j.dss.2007.02.008.
- ↑ EMBL-EBI. "ClustalW2 <Multiple Sequence Alignment <EMBL-EBI". www.EBI.ac.uk. Retrieved 12 June 2017.
- ↑ T-coffee
- ↑ "BLAST: Basic Local Alignment Search Tool". blast.ncbi.nlm.NIH.gov. Retrieved 12 June 2017.
- ↑ "UVA FASTA Server". fasta.bioch.Virginia.edu. Retrieved 12 June 2017.
- ↑ Thompson JD; Plewniak F; Poch O (1999). "BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs". Bioinformatics. 15 (1): 87–8. doi:10.1093/bioinformatics/15.1.87. PMID 10068696.
- ↑ BAliBASE
- ↑ Thompson JD; Plewniak F; Poch O. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Res. 27 (13): 2682–90. doi:10.1093/nar/27.13.2682. PMC 148477. PMID 10373585.
- ↑ "Multiple sequence alignment: Strap". 3d-alignment.eu. Retrieved 12 June 2017.
مشارکتکنندگان ویکیپدیا. «Sequence alignment». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۶ ژوئن ۲۰۱۱.