اینترپرو
اینترپرو (به انگلیسی: InterPro) پایگاه دادهای است که تجزیه و تحلیل دنبالههای پروتئینها را با طبقهبندی آنها در گروههای متفاوت و پیشبینی حضور دامنهها و سایتهای مهم ارائه میدهد. برای گروهبندیها، اینترپرو از مدلهای پیشبینی کننده (امضا) که توسط پایگاه دادههای دیگر ارائه شدهاست، استفاده میکند. این امضاها از مدلهای ساده (مانند عبارت باقاعده) یا مدلهای پیچیده (مانند مدل پنهان مارکوف) تشکیل میشوند که میتوانند معرف گروهها، دامنهها یا موقعیتهای پروتئینها باشند. اطلاعات در اینترپرو از نظر دستهبندی میتوانند عضو یک پایگاه داده، نوع ورودی (خانواده، دامنه و غیره) یا گونه دستهبندی شوند.
هدف بنیان اینترپرو، دسترسی به چند پایگاه داده متفاوت و کاهش افزونگیهای آنهاست. این کار به کاربران در تفسیر نتایج تحلیل دنبالهها کمک میکند. اینترپرو با متحد کردن پایگاه دادهها به ابزار قدرتمندی برای تشخیص و پیشبینی تبدیل شدهاست.
اعضای اینترپرو
اینترپرو از تعدادی پایگاه داده تشکیل شدهاست. کار اصلی اینترپرو ادغام و همسان سازی این پایگاه دادهها است. گروههای مختلفی از محققان هر کدام از این پایگاه دادهها را جمعآوری کردهاند. این پایگاه دادهها شباهتهایی به هم دارند که در ادامه میبینید:
- CATH-Gene3D: این پایگاه داده از دو قسمت تشکیل شدهاست:
- CATH یک طبقهبندی ساختار پروتئینهای بانک دادهٔ پروتئین است.
- Gene3D از اطلاعات موجود در CATH برای پیشبینی موقعیتهای حوزههای ساختاری بر روی میلیونها دنبالهٔ پروتئینها در بانک اطلاعاتی استفاده میکند.
- CCD: مخفف Conserved Domain Database است. این پایگاه داده مجموعه ای از مدلهای همترازسازی چند توالی تفسیر شده برای خوزههای باستانی و پروتئینهای تمام طول تشکیل شدهاست.
- HAMAP: این پایگاه داده نیز برای طبقهبندی و تفسیر دنبالههای پروتئینی تشکیل شدهاست. در این پایگاه داده مجموعه پروفایلهای طراحی شده برای دستهبندی پروتئینها و قوانین تفسیری وجود دارند که اعضای خانوادههای پروتئینها به کار میروند.
- PANTHER: این پایگاه داده برای طبقهبندی پروتئینها و ژن آنها به منظور تسهیل و توان بالا در تجزیه و تحلیل طراحی شدهاست. برای هر خانواده مدل پنهان مارکو برای هر خانواده و زیرخانواده تشکیل شدهاست تا به تشخیص کمک کند.
- Pfam: همانند سایر پایگاه دادههای یادشده در این قسمت، این پایگاه داده نیز پروتئینها را با کمک همترازسازی چند توالی (که خود از مدل پنهان مارکو کمک میگیرد) تفسیر و دستهبندی میکند.
- PIRSF: این پایگاه داده، سیستم طبقهبندی پروتئین یک شبکه با سطوح مختلفی از تنوع توالی از خانوادههای خانوادگی به زیر خانوادهها است که منعکس کننده رابطه تکاملی پروتئینها و دامنههای تمام طول است.
- PRINTS: در این پایگاه داده، برای هر خانواده پروتئین یک اثر انگشت مطرح میشود. اثر انگشت هر گروه از تعدادی نقوش خاص تشکیل شدهاست. معمولاً این نقوش با یکدیگر همپوشانی ندارند، اما میتوانند در کنار هم بیایند تا در فضای ۳ بعدی یک شکل اتصال مولکولی را بسازند.
- PROSITE: در این پایگاه داده با استفاده از الگوها و مشخصات بیولوژیکی، میتوان تشخیص داد که یک دنبالهٔ جدید به کدام خانوادهٔ پروتئینی تعلق دارد.
- SFLD: این پایگاه داده بر روی شناسایی ویژگی و ساختارهای خاص هر دنباله که گونههای مختلفی از واکنشها یا ویژگیهای بستر هستند، تمرکز میکند. در این پایگاه داده، دنبالههای آنزیم، ساختار و مأموریت مولکولی را به طرح طبقهبندی سلسله مراتبی توسط خانوادههای آنزیمی پیوند میدهد.
- SUPERFAMILY: کتابخانه ای از مدلهای مارکوف پنهان است که نشان دهندهٔ تمام پروتئینهای ساختار-شناخته شدهاست. این کتابخانه براساس طبقهبندی SCOP پروتئینها ساخته شدهاست: هر مدل با یک دامنه SCOP مطابقت دارد و قصد دارد کلیه خانوادههای SCOP را که دامنه به آن تعلق دارد را نشان دهد.
- TIGRFAMs: مجموعه ای از خانوادههای پروتئینی است، که شامل ترازهای متوالی چندگانه، مدلهای مارکوف پنهان و یادداشتهایی است که ابزاری برای شناسایی پروتئینهای مرتبط با عملکردی بر اساس همسانی دنبالهها فراهم میکند.
منابع
- "What is CATH-Gene3D?" (به انگلیسی). Retrieved 1 June 2020.
- "Conserved Domains and Protein Classification" (به انگلیسی). Retrieved 1 June 2020.
- "What is HAMAP?" (به انگلیسی). Retrieved 1 June 2020.
- "InterPro" (به انگلیسی). Retrieved 1 June 2020.
- "SFLD" (به انگلیسی). Archived from the original on 5 June 2020. Retrieved 1 June 2020.