بیوانفورماتیک
زیستدادهورزی یا بیواَنفورماتیک (به فرانسوی: Bioinformatique) دانش استفاده از علوم رایانه و آمار و احتمالات در شاخه زیستشناسی مولکولی است. در چند دههٔ اخیر، پیشرفت در زیستشناسی مولکولی و تجهیزات مورد نیاز تحقیق در این زمینه باعث افزایش سریع تعیین توالی ژنوم و به دنبال آن ایجاد کلان دادهها (Big Data) بسیاری از گونههای موجودات شدهاست، تا جایی که پروژههای تعیین توالی ژنومها از پروژههای بسیار رایج این حوزه به حسب میآیند. امروزه توالی ژنوم بسیاری از موجودات ساده مانند باکتریها تا موجودات بسیار پیشرفته چون یوکاریوتهای پیچیده شناسایی شدهاست. پروژهٔ شناسایی ژنوم انسان در سال ۱۹۹۰ آغاز شد و در سال ۲۰۰۳ پایان یافت و اکنون اطلاعات کامل مربوط به توالی
هر ۲۳ کروموزوم انسان موجود است.
بیوانفورماتیک یک دانش بین رشتهای است که شامل روشها و نرمافزارهایی برای فهم اطلاعات زیستی است. بیوانفورماتیک به عنوان یک دانش بین رشتهای، به منظور تجزیه و تحلیل و تفسیر اطلاعات زیستشناسی، از ترکیب علوم رایانه، آمار، ریاضی و مهندسی استفاده میکند. به عبارتی دیگر از بیوانفورماتیک برای تجزیه و تحلیل درون رایانهایِ مسائل زیستشناسی با استفاده از تکنیکهای ریاضی و آمار استفاده میشود.
بیوانفورماتیک از برنامهریزیهای رایانهای برای تجزیه و تحلیل اختصاصی ژنومیک استفاده میکند. از دیگر کاربردهای متداول بیوانفورماتیک، شناسایی چند شکلیهای تک نوکلئوتیدی (SNPs) و ژنهای کاندید است. چنین شناساییهایی اغلب، با هدف فهم بهتر پایه ژنتیکی بیماریها، تطابق و ایجاد خواص مطلوب (بهویژه در گونههای کشاورزی) یا شناخت تفاوتهای میان جمعیتها انجام میشود. بیوانفورماتیک همچنین به دنبال فهم بیشتری از اصول ساختاری نوکلئیک اسیدها و توالی پروتئینها در غالب علم پروتومیک میباشد.
در زیستشناسی مولکولی تجربی، تکنیکهای بیوانفورماتیک مانند پردازش سیگنال و تصویرسازی سه بعدی منجر میشود مقادیر بالایی از اطلاعات خام بدست بیاید. تفسیر این اطلاعات نتایج جالبی را به ما ارائه میکند. برای مثال در زمینه ژنتیک و ژنومیک، بیوانفورماتیک با طراحی پرایمر به تعیین توالی، تفسیر اطلاعات ژنومی و جهشهای مشاهده شده در انسان کمک میکند. که این اطلاعات به تشخیص بیماریها یا مداوای آنها کمک میکند.
بیوانفورماتیک همچنین نقش مهمی در تجزیه و تحلیل تنظیم و بیان ژن (Gene Expression) و پروتئین ایفا میکند. در حالت کلی بیوانفورماتیک به مقایسه ژنتیک و اطلاعات ژنومیک و به دنبال آن به فهم چگونگی تکامل زیست مولکولی کمک میکند. بیوانفورماتیک همچنین در شبیهسازی و مدلسازی رنا، دناو پروتئینها و تعاملات زیست مولکولی کمککننده است.
گسترش روزافزون حجم عظیم دادههای ژنومی و نیاز به ذخیره، بازیابی و تحلیل مناسب این دادهها، موجب پیدایش علم بیوانفورماتیک گردید. این دانش نوظهور، به عنوان یک دانش بین رشتهای، تلاش میکند تا با استفاده از تکنیکهای موجود در علوم رایانه، ریاضیات، ژنتیک، شیمی، فیزیک و علوم مرتبط دیگر، مسایل مختلف زیستشناختی را که معمولاً در سطح مولکولی هستند حل کند. تلاشهای پژوهشی اصلی در این رشته عبارتند از: تطابق توالی، کشف ژن، گردآوری ژنوم، تنظیم ساختار پروتئینی، پیشبینی ساختارهای دوم و سوم پروتئین، پیشبینی بیان ژن و تعاملات پروتئین- پروتئین و مدلسازی تکامل.
واژههای بیوانفورماتیک و زیستشناسی محاسباتی اغلب بهجای یکدیگر بهکار میروند. بههرحال بیوانفورماتیک، بهگونه مناسبتری به ایجاد و توسعه الگوریتمها، تکنیکهای محاسباتی و آماری و تئوری اشاره میکند که برای حل مسایلی رسمی و عملی بهکار میروند که توسط مدیریت و تحلیل دادههای زیستشناختی مطرح شده یا از آن الهام میگیرند. از طرف دیگر زیستشناسی محاسباتی به تحقیق مبتنی بر فرضیه در مورد یک مسئله خاص زیستشناسی با استفاده از پردازش رایانه میپردازد که با دادههای عملی و شبیهسازی شده انجام میشود و با هدف اصلی کشف و توسعه دانش زیستشناختی همراه است. تحقیق در زیستشناسی محاسباتی، با زیستشناسی سیستمها همپوشانیهایی دارد.
تمایز مشابهی توسط مؤسسه ملی سلامت آمریکا در کار بر روی تعریف بیوانفورماتیک و زیستشناسی محاسباتی انجام شدهاست که در آن تأکید بیشتر بر این است که پیوند محکمی از پیشرفتها و دانش میان تحقیقات بیشتر مبتنی بر فرضیه زیستشناسی محاسباتی و پژوهش مبتنی بر تکنیک بیوانفورماتیک وجود دارد. همچنین زیستشناسی محاسباتی شامل دو زیرشاخه کمتر شناخته شده ولی به یک اندازه مهم است: بیوشیمی محاسباتی و بیوفیزیک محاسباتی.
یک خط مشترک در بیوانفورماتیک و زیستشناسی محاسباتی، استفاده از ابزارهای ریاضی و آماری برای استخراج اطلاعات مفید از دادههای تولیدشده توسط تکنیکهای زیستشناختی با برونده بالا نظیر توالی ژنوم است. یک مسئله نمونه در بیوانفورماتیک، گردآوری توالی ژنوم با کیفیت بالا از یک توالی DNA تکهتکه شده تفنگ ساچمهای(Shotgun sequencing) است. دیگر مسایل معمول عبارتند از مطالعه قواعد ژن با استفاده از دادههایی از ریزآرایهها (Microarray) یا طیفسنجی جرمی (Mass Spectophotometry). دادههای ریزآرایه در queryها ذخیره می شودو با مراجعه به کتابخانهها میتوان به آنها دسترسی پیدا کرد.
تاریخچه
از لحاظ تاریخی، اصطلاح بیوانفورماتیک به معنای امروزی آن نیست. پائولین هوگوگ و بن هسپر بیوانفورماتیک را در سال ۱۹۷۰ برای اشاره به مطالعه در زمینه پردازش اطلاعات و سیستمهای زنده اختراع کردند). این تعریف از بیوانفورماتیک این علم را به عنوان یک حوزه در موازات با بیوفیزیک (مطالعه فرایندهای فیزیک در سیستمهای زیستی) یا بیوشیمی (مطالعه فرایندهای شیمی در سیستمهای زیستی) قرار میدهد.
پس از اینکه توالی انسولین در اوایل ۱۹۵۰ توسط فریدریک سانگر مشخص شد، وجود رایانهها در زیست مولکولی ضرورت پیدا کرد. چرا که مقایسهٔ توالیهای متعدد به صورت دستی طاقت فرسا بود. در این زمینه مارگارت دایهوف پیشگام شد و نخستین پایگاه داده توالی پروتئینی را گردآوری و به عنوان کتاب و روشهای پیشگام در هم ترازی (alignment) توالی و ارزیابی مولکولی منتشر کرد. از جمله افراد دیگر در حوزه شکلگیری بیوانفورماتیک الوین کابات بود که در تجزیه و تحلیل توالی زیستی در سال ۱۹۷۰ پیشقدم شد.
اهداف
به منظور درک بهتر از چگونگی تغییر فعالیتهای سلولی نرمال در بیماریهای مختلف، باید اطلاعات زیستی ترکیب شوند تا تصویری جامع از این فعالیتها شکل بگیرد. از اینرو بیوانفورماتیک در زمینه تجزیه و تحلیل و تفسیر انواع مختلفی از دادهها به کمک ما میآید. این دادهها شامل توالی نوکلئوتیدها و اسیدهای آمینه، دومینها و ساختارهای پروتئینی است. فرایند تجزیه و تحلیل و تفسیر اطلاعات شامل: - توسعه و پیادهسازی برنامههای رایانهای به منظور دسترسی کارآمد، استفاده و مدیریت از انواع مختلفی از اطلاعات - توسعهٔ الگوریتمهای جدید (فرمولهای ریاضی) و مقیاسهای آماری به منظور ارزیابی ارتباطات میان اعضای مجموع دادههای حجیم
به عنوان مثال میتوان در شرایط رایانهای، یک ژن را در داخل یک توالی خاص قرار داد و ساختار یا عملکرد پروتئین آن را پیشبینی کرد. هدف اولیه بیوانفورماتیک افزایش سطح فهم و درک از فرایندهای زیستی است و تمرکز آن در توسعه و کاربرد تکنیکهای محاسباتی جامع به منظور کسب این هدف است برای مثال میتوان به تشخیص الگو، داده کاوی، الگوریتمهای یادگیری و تصویرسازی اشاره کرد. تلاشهای تحقیقاتی گستردهای در این زمینه (شامل هم ترازی توالی، ژن یابی، گردآوری ژنوم، طراحی و کشف دارو، پیشبینی ساختار پروتئین، پیشبینی بیان ژن، برهم کنش پروتئین-پروتئین، مطالعات مربوط به ژنوم، مدلسازی تکامل و تقسیم سلولی) در حال انجام است.
در چند دهه گذشته، پیشرفت سریع در علم ژنومیک و دیگر تکنیکهای تحقیقات مولکولی با تکنیکهای تجمیع اطلاعات (به منظور تولید مقادیر بسیار بالای از اطلاعات مرتبط با زیست مولکولی)، ترکیب شدهاند.
فعالیتهای متداول در بیوانفورماتیک شامل نقشهکشی و آنالیز توالیهای DNA و پروتئین، هم ترازی توالیهای DNA و پروتئین به منظور مقایسه آنها و ایجاد مدلهای سه بعدی از ساختارهای پروتئین است.
کاربردهای بیوانفورماتیک
-تجزیه و تحلیل توالیها: از زمان توالی یابی فاژ Φ-X174در سال ۱۹۷۷ توالی DNA هزاران موجود تعیین و در پایگاههای داده ذخیره شد. این اطلاعات توالی به منظور تعیین ژنهای کدکننده پروتئین، RNA، توالیهای تنظیمی، موتیفهای ساختاری و توالیهای تکرای تجزیه و تحلیل میشوند.
مقایسه ژنها درون و میان گونهها میتواند شباهت میان عملکرد پروتئینها یا ارتباطات میان گونهها (درخت فیلوژنیک) را نشان دهد. امروزه برنامههای رایانهای مانند BLAST به صورت روزمره برای جستجوی توالی بیشتر از ۲۶۰۰۰۰ موجود زنده شامل بیشتر از ۱۹۰ میلیارد نوکلئوتید استفاده میشود. آنالیز توالی در بیوانفورماتیک برای توالی یابی، گردآوری ژنوم، تفسیر ژنوم و موارد دیگر به کار میرود. -تجزیه و تحلیل ساختار سلولی: روشهای متعددی برای تجزیه و تحلیل موقعیت اندامکها، پروتئینها و دیگر اجزا داخل سلولی ایجاد شدهاند. این روشها به ما کمک میکند تا بتوانیم رفتارهای سیستمهای زیستی را به درستی پیشبینی کنیم.
-بیوانفورماتیک ساختاری (Structural Bioinformatics): پیشبینی ساختار پروتئین یکی دیگر از کاربردهای بیوانفورماتیک است. توالی اسیدآمینهای پروتئین که ساختار اولیه نامیده میشود میتواند به راحتی توسط توالی ژن رمزکننده اش تعیین شود. شناخت ساختار اولیه در فهم عملکرد پروتئین حیاتی است. بیوانفورماتیک می-تواند ساختار یک پروتئین را از طریق بررسی شباهت بین ژن رمزکنندهٔ پروتئین و ژنی که عملکرد آن مشخص شدهاست پیشبینی کند.
از مهمترین کارها در بیوانفورماتیک تجزیه و تحلیل اطلاعات توالی است. زیستشناسی محاسباتی نامی است که به این فرایند داده شدهاست و شامل موارد زیر است:
- پیدا کردن ژنها در توالیهای دی ان ای
- توسعهٔ روشهای پیشبینی ساختار یا وظایف پروتئینهای تازه کشف شده و توالیهای ساختاری RNA
- صف بندی پروتئینهای مشابه و ایجاد درختهای نژادشناسی برای بررسی روابط تکاملی.
دو فعالیت برجسته در بیوانفورماتیک، پروتئومیک و ژنومیک هستند. از شاخههای دیگر علوم زیستی همچون متابولیک و ترانسکریپتومیک نیز استفاده میشود. لازم است ذکر شود سه بانک DDBJ در ژاپن و EBI در اروپا و NCBI در آمریکا روزانه تمام اطلاعات ژنتیکی که به هر کدام از این سه بانک ارسال میشود را در بین هم به اشتراک میگذراند. این سه بانک به علت ارائه ابزارهای جانبی میتوانند کاربردهای متفاوتی داشته باشند. سایت پیش تاز در بین این سه سایت در ارائه نرمافزارها و بانکهای کاربردی NCBI میباشد.
زمینههای مهم بیوانفورماتیک
۱. تحلیل توالیهای ژنوم(Genomics Data Analysis)
- در این زمینه بررسی میشود که آیا یک توالی به دست آمده برای یک DNA در برگیرندهٔ یک ژن هست یا خیر. اگر وجود دارد در کجای زنجیرهٔ DNA قرار دارد و آنزیمی که کد میکند چه نقشی در سلول یا فرایندهای حیاتی ایفا میکند.
۲. پیشبینی ساختار سه بعدی پروتئین(3D Structure Prediction)
- کاربرد مولکولهای بزرگ پروتئین بستگی زیادی به شکل فضایی و ساختار سه بعدی آنها دارد. ژنها با عملکرد پروتئینهایی که میسازند نقش خود را اعمال میکنند؛ بنابراین لازمهٔ شناخت کامل ژنها، شناخت کامل پروتئینها است.
- پیشرفت پروژههای پروتیوم به دلایل زیر کند است:
- هزینهٔ زیاد
- کندی روند تعیین توالی پروتئینها
- مشکل بودن تعیین ساختار سه بعدی پروتئینها در آزمایشگاه
دو اصل مهم برای تعیین ساختار سه بعدی پروتئین از روی توالی آن وجود دارد که هر کدام روش جداگانهای ارائه میدهند:
- پروتئینها با توالی نسبتاً مشابه، شکل فضایی شبیه به هم پیدا میکنند. (جستجو برای یافتن توالیهای مشابه)
- شکل فضایی مولکول به گونهای است که به حداقل سطح انرژی برسد (استفاده از قوانین شیمی، فیزیک و ترمودینامیک)
۳. تحلیل کارکردی در سطح ژنوم
- با بهکارگیری روشهای آماری پیشرفته و کلاستربندی، مسائلی چون بررسی همزمان میزان فعالیت هزاران ژن در سلول، تحلیل نحوه تعامل تعداد زیادی پروتئین و تحلیل خصوصیات هزاران سلول جهش یافته در آن واحد حل شدهاند. دانش مربوط به این بخش ژنومشناسی کارکردی نام دارد و از دستاوردهای مهم در این زمینه میتوان پیشبینی نقش و کارکرد ژنها در سلول بدون نیاز به آنالیز دادههای پروتئینی را نام برد.
۴. ایجاد و مدیریت پایگاههای دادهای
- دادههای تولید شده در زیستشناسی مولکولی باید از طریق پایگاه در اختیار پژوهشگران قرار گیرد. نحوهٔ حصول اطمینان از صحت دادهها و چگونگی نمایش مفید دادهها از دغدغههای اداره کنندگان پایگاههای بزرگ بیوانفورماتیکی هستند.
۵. مدلسازی ریاضی و فرایندهای حیات
- یکی از اهداف مهم بیوانفورماتیک درک کامل سازوکار ارگانیسمهای زنده در سطح مولکولی است. برای تحقق این هدف، تلاش میکنند فرایندهای خاص سلولی را شبیهسازی کرده و با یک پارچهسازی آنها به یک سلول کامل برسند.
موضوعات سیستم نرمافزاری بیوانفورماتیک
- ماهیت اطلاعات و دادههای زیستی
- ذخیرهسازی اطلاعات، تجزیه و تحلیل و بازیابی
- محاسبه، مدلسازی و شبیهسازی
- بیولوژی با معنی اطلاعات و یکپارچگی آنها
- کندوکاو در دادهها
- مجسم کردن پردازش و تجسم فکری آن
- خاتمهٔ این چرخه
مراکز و ابزار
- مرکز ملی اطلاعات زیستفناوری (NCBI)
جستارهای وابسته
- علم دادهها
- زیستشناسی سلولی
- زیستشناسی ملکولی
- ژنتیک مولکولی
- تمایز سلولی
- رویانشناسی
- زیست فناوری
- مهندسی ژنتیک
- مهندسی پروتئین
- نانوبیوتکنولوژی
- میکروبیولوژی
- زیسترایانه
پیوند به بیرون
- انجمن بیوانفورماتیک ایران
- مرکز بیوانفورماتیک دانشگاه تهران
- مرکز ملی تحقیقات بیوانفورماتیک
- انستیتو بیو-آیتی بایگانیشده در ۲۹ اوت ۲۰۱۷ توسط Wayback Machine
- بانک دادههای دی ان ای، کشور ژاپن
- مرکز ملی اطلاعات بیوتکنولوژی، کشور آمریکا
- انستیتوی بیوانفورماتیک اروپا، اروپا
- پورتال بیوانفورماتیک ایران
منابع
- ↑ زیستدادهورزی از واژههای مصوب فرهنگستان زبان و ادب فارسی به جای bioinformatics در انگلیسی و در حوزهٔ ژنشناسی است. «فرهنگ واژههای مصوب فرهنگستان ـ دفتر هشتم، بخش لاتین». فرهنگستان زبان و ادب فارسی. ص. ۱۲. بایگانیشده از اصلی در ۲۶ دسامبر ۲۰۱۱. دریافتشده در ۱۱ فروردین ۱۳۹۱.
- ↑ 1. Sim, Adelene YL; Minary, Peter; Levitt, Michael (2012-06-01). "Modeling nucleic acids". Current Opinion in Structural Biology. Nucleic acids/Sequences and topology. 22 (3): 273–278. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125.
- ↑ Dawson, Wayne K. ; Maciejczyk, Maciej; Jankowska, Elzbieta J. ; Bujnicki, Janusz M. (2016-07-01). "Coarse-grained modeling of RNA 3D structure". Methods. Advances in RNA Structure Determination. 103: 138–156. doi:10.1016/j.ymeth.2016.04.026.
- ↑ 3. Kmiecik, Sebastian; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (2016-06-22). "Coarse-Grained Protein Models and Their Applications". Chemical Reviews. 116: 7898–936. doi:10.1021/acs.chemrev.6b00163. ISSN 0009-2665. PMID 27333362.
- ↑ 6. Spiga, Enrico; Degiacomi, Matteo Thomas; Dal Peraro, Matteo (2014-01-01). Karabencheva-Christova, Tatyana, ed. Chapter Three - New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly. Biomolecular Modelling and Simulations. 96. Academic Press. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008
- ↑ 5. Jump up^ Joyce, Adam P. ; Zhang, Chi; Bradley, Philip; Havranek, James J. (2015-01-01). "Structure-based modeling of protein: DNA specificity". Briefings in Functional Genomics. 14 (1): 39–49. doi:10.1093/bfgp/elu044. ISSN 2041-2649. PMC 4366589. PMID 25414269.
- ↑ 4. Wong, KC (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press (Taylor & Francis Group). ISBN 978-1-4987-2497-5.
- ↑ 7. Hogeweg P (2011). Searls, David B. , ed. "The Roots of Bioinformatics in Theoretical Biology". PLoS Computational Biology. 7 (3): e1002021. Bibcode:2011PLSCB...7E0020H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479.
- ↑ 8. Hesper B, Hogeweg P (1970). "Bioinformatica: een werkconcept". 1 (6). Kameleon: 28–29.
- ↑ 9. Hogeweg P (1978). "Simulating the growth of cellular forms". Simulation. 31 (3): 90–96. doi:10.1177/003754977803100305
- ↑ 10. Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2.
- ↑ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
- ↑ Eck RV, Dayhoff MO (1966). "Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences". Science. 152 (3720): 363–6. Bibcode:1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169.
- ↑ 13. Johnson G, Wu TT (January 2000). "Kabat Database and its applications: 30 years after the first variability plot". Nucleic Acids Res. 28 (1): 214–218. doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229
- ↑ "Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective". Bioinformatics – Trends and Methodologies. InTech. Retrieved 8 Jan 2012.
- ↑ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Nature. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828.
- ↑ 16. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). "GenBank". Nucleic Acids Res. 36 (Database issue): D25–30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190
- ↑ 17. Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). "Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport.". Journal of Molecular Biology. 371 (1): 168–79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601.
Baldi P. and Brunak S. (2001), Bioinformatics: The Machine Learning Approach, 2nd edition. MIT Press.
Barnes, M.R. and Gray I.C. (2003), Bioinformatics for Geneticists, first edition. Wiley.
Baxevanis, A.D. and Ouellette, B.F.F. , eds. , Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005.
Claverie, J.M. and C. Notredame (2003), Bioinformatics for Dummies. Wiley.
Durbin, R. , S. Eddy, A. Krogh and G. Mitchison (1998), Biological sequence analysis.
Cambridge University Press.