معلومة

العثور على أشكال البروتين عن طريق إجراء تحليل التسلسل في بروتين BLAST

العثور على أشكال البروتين عن طريق إجراء تحليل التسلسل في بروتين BLAST


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لقد قمت بتشغيل التسلسل التالي (أسفل الصفحة) في بروتين NCBI BLAST وتم تحديده على أنه نازع هيدروجين الكحول المعتمد على الزنك. بعد ذلك ، أريد أن أرى ما هي أشكال البروتين الموجودة في هذا البروتين. أين يمكن رؤية الزخارف في البرنامج؟

شكرا لك مقدما!

تسلسل:

MDRNRLAIVFPIFARCISAADFSTDLYLSEIYQQKVVTMKAAVITKDHTIDVKDTKLRPLNYGEALLEIE YCGVCHTDLHVKNGDFGDETGRISGHEGIGIVKQDGEGVTSLNAGDRASVAWFFKGCGHCEYCVSGNETL CRNVENAGYTVDGAIAEECIVVAEYSVRVPDGLDPAVASRITCAGVTTYKAVKVSQLQPGQWLAIYGYGR FRQSSPSICQDMYFNAKDEQLAYYAKELGGADMVINPKNEAAKIIQEKLGGAHATVVTAVAKSAFNSAVE AIRAGGRVVVVVAVGLPPPEKMDLSIPPRLVLVGIEVLGSLVGTREKEAFQFAAEGKVKPKVTKRKVEEI NQIFDEMEHGKFTGRMILPTHHIWIVIGWQSFSLYSQDVSQPQIFRLTSISPRYINKRSPKQPSLLKIIR STKTPNYALITGKRFWKSNIAGYVIPISMKTGISAMKPAEFQGMKVVSSSRTGKGLLLMPVTAPVLHGSS KAAAIANIVSAGMKRFAATLKMPVIRLTALQKNASSSPNTRSACQMVLILRLPAGSLARVPPIKQRFLSY SPDNGWPSMATGGLGNLALRYAKTCISTPKMNSSHTTPKSWAAQIWSSIRKTKLPKSFRKSSGEHTRRWR LLPNPPLTRLLRLSARVAVLLLLSPLVCLLLKKWIAFLLVWCLSVSKSVPWSERGKRRPSSLQPKVRSSR KLPSVKSKKSTKSLTKWNMVNSQAVYYQPITYGSSAGNRFPYIRKMYLSRRFFDPLSLRDISTKGSHHES SRHYRSYDRRERHQITPSELRGSASGNRILRGMSYRSPCEKRGFRRNRQNFRARYRYRQAGRGRGYFSEC RPRQCCMVLQRLRPLRILCQRENALPQRKCRLYGRRYSRRMHRRRRILGPRARWSSCGCQQDHLRGCNHL SSKGFSATARTMAGHLWLRAVAIPFDMETPRHVFQRQRTARILRQRVGRRRYGHQSEKRSCQNHSGKARG STRDGG DGCCQIRLLGCGYPRGWPCCCCCRRWSASSKNGFEHSSSFGACRYRSPRFLGRNAGKGGLPVCS RRGQAESYQASRRNQPNLRNGTWIHRPYDITNPSHILYVMGWYHTACEFTMFHFVKDLVDFFDFTLGNFR LDLTFGCKLEGLLFPRSDQGTDFDTDKHQTRRNAQIHFFRRRQTNGDNNNNTATRADSLNSRVKGGFGNS RHHRRVCSPELFLNDFGSFVFRIDDHICAAQLFGVVCELFIFGVEIHVLAYRRARLPKPPVAIDGQPLSG LLRNLYCFIGGYTRASDPAGNRRIKTIWHADRVFGDDDAFFCYSAVNRITGIFNVAAKRFIPADTIFAMA AAFEEPCNTGAVTGIQRSNPFPVLLDDTYTFMPNSAGFIAEIPVFHMEIGMTYPAIFDFQKRFPVIQRAF GVFHVDRMIFSNDGCFHGDYLLLIYLGEIEVSRKICGDTSCEYRENDCQPITIHYMWVGNIIRPVNLPCS ISSKIWLISSTLRLVTFGLTLPSAANWKASFSRVPTKEPRTSIPTSTKRGGMLKSIFSGGGRPTATTTTT RPPARIASTAELKADLATAVTTVACAPPSFSMILAASFFGLMTISAPPNSLAYASCSSLALKYMSWHIEG LDCLNRPPMASHCPGCSETFTALVVTPAQVILLATAGSRPSGTRTEYSATTMHSSAIAPSTVPAFSTLRQ SVSFPLTQYSQWPQPLKNHATLARSPAFREVTPSPSCLTIPIPSCPEILPVSSPKSPFFTWRSVHTPQYS ISRSASPFRGRNLVSFTSIVSLVMTAAFMVTTFCYISERRSVEKSAAEIHLANIGKTIASRLRSICDGLV ISYGLIYHVPFRQRFGFLRLYAWLSAPYLRLQTGRPPFPAFRPRNLGLRYRQAPNEEECSNPFFQEEADQ RRQQQQHGHPRGPQQPSRRIWQQPSPPSRVLPRAFPEFWQLRFSDPYLRRPTLWRSMRAVHLWRNTCLGI SKGIATARSHRW PAIVRAVAEKPLLLYRWLHPRKSCWQPQDQDHLARGPSIRRRRRCILLLRQPYNRHFQ RCGKAFHSRHNIRNGRSLRTMQHWRGHRHSEKPLPRYLYLYLHALKFCRFHRRNPRFSHGDRYDIPRNY RFP


بحث MOTIF
بادئ ذي بدء ، هذا ليس ممكنا في بلاست (على الأقل على الأقل مباشرة). هناك الكثير من الأدوات للبحث عن الزخارف في تسلسلك. أعتقد أن الطريقة الجيدة للبدء هي استخدام بحث MOTIF. يبحث هذا عن الزخارف في التسلسل الخاص بك بناءً على المعلومات في: Pfam و NCBI-CDD و PROSTIE PATTERN و PROSITE PROFILE (يمكنك تحديد أي منها تريد استخدامه). علاوة على ذلك ، يمكنك أيضًا استخدام INTERPRO (الذي يبحث أيضًا من خلال قاعدة بيانات الخادم ، لاحظ أن بحث INTERPO يمكن أن يستغرق بعض الوقت ولكنه سيعطي عرضًا رسوميًا لطيفًا). إذا كنت ترغب في العثور على أشكال جديدة ، يمكنك استخدام MEME (كما هو مقترح بواسطةmxwsn). ومع ذلك ، للقيام بذلك ، عليك أن تجد (أو لديك) مجموعة من التسلسلات التي تشبه تسلسلك للعثور على الزخارف. لأن الخوارزمية غير قادرة على العثور على الزخارف في تسلسل واحد لأنها تحتاج إلى مقارنة مجموعة من التسلسلات للعثور على بعض الأشكال التي تحدث بشكل متكرر ، والتي قد تكون من اهتمامك.
وبالتالي كي تختصر يمكنك استخدام بحث MOTIF (أو INTERPRO إلخ ...) للعثور على الأشكال في تسلسلك معروف مسبقا. أو اجمع مجموعة من المتواليات واعثر عليها زخارف جديدة فيها باستخدام MEME أو أداة مشابهة.


لكن، كيف استنتجت أن تسلسلك هو ملفنازعة هيدروجين الكحول المعتمد على الزنك؟ لأن تفجير التسلسل الذي قدمته سيعطي تطابقًا مع هذا الإنزيم ولكنه يغطي فقط 17٪ تقريبًا. ومع ذلك ، فإن الطريقة الجيدة للعثور على معلومات حول التسلسل الخاص بك هي في الواقع العثور على الزخارف ومقارنة التسلسل مع البروتينات المعروفة HMM أو PSSM. على سبيل المثال ، سيعطي بحث MOTIF هذه النتائج:

البروزيت: توقيع نازعات هيدروجين الكحول المحتوي على الزنك. PFAM: نازعة هيدروجيناز الكحول المرتبط بالزنك ، مجال شبيه بنزع الهيدروجين والكثير أكثر >>>

سيعطيك البحث في PFAM هذا:

لاحظ أن المجال الثاني (نازعة هيدروجين الارتباط بالزنك) غير موجود بالكامل ، يمكن رؤية المزيد من المعلومات في نظرة عامة تفصيلية:

أود أن أنصح أيضًا بإلقاء نظرة على مدى أهمية هذه البقايا "المفقودة" (على سبيل المثال ، استخدام MSA وإلقاء نظرة على الحفظ). لأن التسلسل الخاص بك يمكن أن يحتوي على هذه المجالات ولكن هذا لا يعني بالضرورة أن هذا هو نازعة هيدروجين الكحول المعتمد على الزنك. يمكن أن تكون غير وظيفية على سبيل المثال.


لايجاد من جديد الأشكال الموجودة في تسلسل البروتين الخاص بك ، يجب عليك استخدام MEME أو أي أداة أخرى لإيجاد الحافز بدلاً من BLAST.

يكتشف MEME زخارف جديدة غير معطلة (أنماط متكررة ذات طول ثابت) في التسلسلات الخاصة بك.


كابرا: خوارزمية نتائج الانفجار العنقودية والتعليمية

تُستخدم عمليات البحث الأساسية في أداة المحاذاة المحلية (BLAST) بشكل متكرر للبحث عن التسلسلات المتماثلة ولإدخال تعليقات توضيحية على بروتين الاستعلام ، ولكن الحجم المتزايد لقواعد بيانات البروتين يجعل من الصعب مراجعة جميع النتائج من بحث التشابه.

الموجودات

قمنا بتطوير أداة ويب تسمى Cluster and Annotate Blast Results Algorithm (CABRA) ، والتي تتيح البحث السريع في مجموعة متنوعة من البروتينات المرجعية المحدثة ، وتوفر طريقة جديدة لتقييم النتائج وظيفيًا من خلال التجميع اللاحق للنتائج والتعليقات التوضيحية لـ المجموعات. يمكن الوصول إلى الأداة من مورد الويب التالي: http://cbdm-01.zdv.uni-mainz.de/

الاستنتاجات

تعمل خوارزمية Cluster and Annotate Blast Results على تبسيط تحليل نتائج بحث BLAST من خلال تقديم نظرة عامة على التعليقات التوضيحية للنتيجة المنظمة في مجموعات يمكن للمستخدم تعديلها بشكل متكرر.


توصيف الكيمياء الحيوية لبروتين GH70 من Lactobacillus kunkeei DSM 12361 مع مجالين محفزين يشتملان على نشاط سوكريز المتفرّع

البكتيريا المحبة للفركتوفيليك Lactobacillus kunkeei لها تطبيقات واعدة مثل البروبيوتيك التي تعزز صحة كل من نحل العسل والبشر. هنا ، نُبلغ عن توليف ديكستران شديد التشعب بواسطة L. kunkeei DSM 12361 والتوصيف الكيميائي الحيوي لإنزيم GH70 (GtfZ). كشف تحليل التسلسل أن GtfZ يحتوي على قلبين محفزين منفصلين (CD1 و CD2) ، من المتوقع أن يكون لهما خصوصية جلوكانسوكراز وسكريز متفرعة ، على التوالي. لم يتم تمييز GtfZ-CD1 كيميائيًا حيويًا بسبب تعبيره غير الناجح. مع السكروز فقط كركيزة ، وجد أن GtfZ-CD2 يحفز بشكل أساسي التحلل المائي للسكروز وتخليق الليكروز. عندما كان ديكستران متاحًا كركيزة متقبلة ، أظهر GtfZ-CD2 نشاطًا فعالًا للترانسجليكوزيداز مع السكروز كركيزة مانحة. أظهر التحليل الحركي أن تفاعل التحلل الجليكوزيل المحفز بواسطة GtfZ-CD2 يتبع آلية Ping Pong Bi Bi ، مما يشير إلى الارتباط بدوره بين الركائز المانحة والمقبولة في الموقع النشط. كشف التوصيف الهيكلي للمنتجات أن GtfZ-CD2 يحفز تخليق الفروع المرتبطة بالجلوكوزيل الفردي (α1 → 3) على ديكستران ، مما يؤدي إلى إنتاج منتجات α-glucan شديدة التشعب. يمكن تشكيل هذه الفروع (α1 → 3) في المواضع المجاورة ، كما هو موضح عندما تم استخدام isomaltotriose كركيزة متقبلة. تشير نمذجة التماثل لبنية البروتين GtfZ-CD1 و GtfZ-CD2 بقوة إلى أن اختلافات الأحماض الأمينية في الأشكال المحفوظة II و III و IV في المجال التحفيزي تساهم في خصوصية المنتج. تسلط دراستنا الحالية الضوء على قدرة بكتيريا حمض اللاكتيك المفيدة على إنتاج α-glucans المعقدة هيكليًا وتوفر رؤى جديدة حول الآلية الجزيئية لـ (α1 → 3) سوكريز المتفرعة.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


3. المواد والطرق

3.1. اعتبارات PepFun الفنية

تم تصميم وظائف Pepfun في الأصل تحت نظام التشغيل Ubuntu 16.04. ومع ذلك ، يمكن تثبيت المشروع في أي بيئة افتراضية لـ Conda مع التبعيات المطلوبة ، أي أدوات الطرف الثالث لتشغيل تحليل المعلوماتية الحيوية وتحليل المعلوماتية مثل Biopython و RDKit. يمكن استخدام PepFun في ظل أنظمة تشغيل أخرى مع توفير المسارات المقابلة. يتوفر دليل لتشغيل أمثلة مختلفة في مستودع الأكواد https://github.com/rochoa85/pepfun الذي تم الوصول إليه في 12 مارس 2021.

3.2 وظائف PepFun

3.2.1. الوظائف القائمة على التسلسل

ينقسم هذا القسم إلى ثلاث فئات رئيسية: المحاذاة والخصائص وتوقع المطابقة. تتضمن المحاذاة تنفيذ مصفوفات التسجيل الخاصة بالموقع لإجراء تطابق موضع على حدة بين الاستعلام والببتيدات الموضوع [28]. بالإضافة إلى ذلك ، يتم توفير وظيفة blastp عبر الإنترنت مع معلمات محسّنة لمحاذاة الببتيدات ضد قواعد البيانات الضخمة [36]. هذه تختلف عن المعلمات الشائعة المستخدمة لمحاذاة تسلسل البروتين ، والتي تعتمد على فتح وتسجيل الفجوات المرتبطة بأحداث التطور ، والتي ليست مطلوبة للتحليل القائم على الببتيد.

يتم حساب خصائص الببتيد باستخدام استراتيجيات المعلوماتية الحيوية والكيميائية التي تم اختبارها والتحقق من صحتها على نطاق واسع في الماضي. على وجه التحديد ، يتم استخدام تسلسل الأحماض الأمينية للحصول على معلومات من معلمات الأحماض الأمينية المبلغ عنها ، بما في ذلك كره الماء [23] ، والشحنات ، والخصائص من مشروع ProtParam مثل العطرية ، ومؤشر عدم الاستقرار ، والنقطة الكهروضوئية [9]. يمكن أيضًا استخدام تسلسل الأحماض الأمينية لحساب القواعد التجريبية المرتبطة بتوليف الببتيد وقابلية الذوبان. يمكن أن يوحي تحديد أنماط معينة داخل تسلسل الببتيد ما إذا كان يمكن أن يقيد التحليل التجريبي [26]. وكلما زاد عدد القواعد التي تم انتهاكها ، قلت احتمالية تصنيعها وحلها بنجاح. ومن الأمثلة على هذه القواعد إذا كان عدد الأحماض الأمينية المشحونة و / أو الكارهة للماء يتجاوز 45٪ من التسلسل ، أو إذا كان إجمالي شحنة الببتيد المطلقة عند الرقم الهيدروجيني 7 أكثر من 1 ، فمن المحتمل ألا يكون من الممكن تصنيعها. تم تفصيل القائمة الكاملة للقواعد في ملف التعليمات البرمجية README والتقارير التي تم إنشاؤها. أخيرًا ، يتم استخدام تمثيل SMILES للببتيد كمرجع لحساب عدد من الخصائص المتاحة من حزمة RDKit ، بما في ذلك عدد المانحين والمقبلين للهيدروجين والوزن الجزيئي ومعامل Crippen logP [24] ، وهو تقدير لـ معامل تقسيم الأوكتانول / الماء باستخدام نهج Ghose / Crippen المتاح في مشروع RDKit.

من خلال معلومات التسلسل ، من الممكن أيضًا التنبؤ بمطابقة الببتيد باستخدام البروتوكولات المتاحة في RDKit. على وجه التحديد ، يتم استخدام SMILES الببتيد كمدخل ، والذي يتم إنشاؤه وفقًا لاتفاقية قياسية للذرات & # x02019 ، مما يتيح إنشاء ملف PDB مع ترقيم المخلفات وترتيبها وفقًا لروابط الببتيد الخاصة بهم [37]. الطريقة المستخدمة في RDKit للتنبؤ بالمطابقة هي طريقة هندسة المسافة [38]. وهو يتألف من حساب مصفوفة حدود المسافة التي يتم صقلها باستخدام خوارزمية تجانس حدود المثلث. بعد ذلك ، يتم إنشاء مصفوفة مسافة عشوائية تحقق مصفوفة الحدود. مصفوفة المسافة مضمنة في ثلاثة أبعاد ، مما ينتج الإحداثيات المقابلة التي يتم تنظيفها باستخدام حقول القوة مثل حقل القوة الجزيئية Merck (MMFF94) [39].

3.2.2. الوظائف القائمة على الهيكل

نظرًا لتوافر الهياكل المعقدة للببتيد والببتيد البروتيني (على سبيل المثال ، من PDB) ، تم تصميم مجموعة من وظائف PepFun لتحليل خصائصها وتفاعلاتها. يستخدم PepFun حزمة DSSP v3 لاستخراج عناصر البنية الثانوية ، بالإضافة إلى حساب منطقة المذيب النسبية التي يمكن الوصول إليها لكل بقايا في الببتيد [40].

يتضمن تحليل التفاعلات حساب الروابط الهيدروجينية المحتملة والاتصالات غير المرتبطة بين الببتيد والبروتين عبر الواجهة. يتم حساب الروابط الهيدروجينية المحتملة باستخدام DSSP ، ويتم إنشاء تصور للتفاعل باستخدام وحدة igraph من Python [41]. على وجه التحديد ، يتم تمثيل الببتيد وبقايا البروتين المتفاعلة بواسطة العقد ، ويتم تمثيل الروابط الهيدروجينية المحتملة بخطوط ويعتمد عرضها على عدد الروابط الهيدروجينية المكتشفة لكل زوج من البقايا. يمكن أن يتغير تخطيط الرسم البياني اعتمادًا على ما إذا كان الببتيد خطيًا أم دوريًا. يتم حساب جهات الاتصال غير المرتبطة باستخدام وحدات Biopython القادرة على اكتشاف جميع ذرات الأحماض الأمينية التي تتفاعل باستخدام المسافات بين الذرات. يجب توفير عتبة لتحديد جهة الاتصال. عادة ، يتم استخدام عتبة 4.0.

3.2.3. وظائف لتخصيص مكتبات الببتيد

بالإضافة إلى الفئات المصممة لتشغيل التسلسل أو الوظائف القائمة على الهيكل ، تتوفر مجموعة من الوظائف لإنشاء المحتوى وتحليله من مكتبات الببتيد. يمكن إنشاء المكتبات - من نقطة الصفر - باتباع توزيعات موحدة للأحماض الأمينية ، أو بناءً على الأنماط المطلوبة في التسلسلات. تعد الوحدات التوافقية المتاحة في Python مفيدة لتوليد مجموعة المتواليات بسرعة ، والتي تشمل استخدام الأحماض الأمينية غير الطبيعية (أي الأحماض الأمينية D) ، كمحاولة للإصدارات المستقبلية لدراسة محاكاة الببتيد.

3.3 اختبار PepFun مع مجموعات من مواد رابطة الببتيد المعروفة

لاختبار تنفيذ PepFun ، تم استخدام نظامين معروفين من بروتين الببتيد مع مجموعات متاحة من مواد رابطة الببتيد. يتضمن أحدهما مجمع التوافق النسيجي الرئيسي (MHC) من الدرجة الثانية ، والذي يحتوي على مجموعة بيانات كبيرة من مواد رابطة الببتيد المتاحة للأليلات المختلفة [42]. تم اختيار مجموعة من الببتيدات مع بيانات النشاط الحيوي (I C 50 & # x0003c 50 نانومتر) لتحليل توزيع الخصائص المتعددة داخل مجموعة البيانات [43]. تحتوي المكتبة على 655 ببتيدًا مكونًا من 15 حمضًا أمينيًا. تم تصميم هياكل الببتيد في معقد مع MHC class II allele DRB1 * 0101 ، مع معرف PDB 1t5x. تتألف النمذجة من إنشاء تسلسل جديد من خلال بدائل مفردة متكررة لقالب الببتيد. تم إجراء الطفرات باستخدام حزمة fixbb من Rosetta [44] ، والتي تم اختيارها بناءً على معيار سابق لبروتوكولات الطفرات الأخرى المتاحة [45]. بعد كل استبدال ، يتم اختيار الروتامر الأكثر احتمالا من قاموس المطابقات المعتمدة على العمود الفقري ، ويتم استرخاء ذرات السلسلة الجانبية مع تثبيت العمود الفقري.

النظام الثاني هو سيرين بروتياز ، جرانزيم ب ، الذي يحتوي على بيانات متاحة عن ركائز نشطة فسيولوجيًا [46] ، مخزنة في قاعدة بيانات MEROPS [47]. تم اختيار ما مجموعه 599 ببتيدات من 8 أحماض أمينية. تم نمذجة جميع الببتيدات باستخدام البنية مع PDB id 1iau كمرجع ، بناءً على المنهجية الموضحة للنظام السابق.


عضلة

MUSCLE لتقف على موltiple سمعادلة جomparison إلog- هxpectation. يُزعم أن MUSCLE يحقق متوسط ​​دقة أفضل وسرعة أفضل من ClustalW2 أو T-Coffee ، اعتمادًا على الخيارات المختارة.

ملاحظة مهمة: يمكن لهذه الأداة محاذاة ما يصل إلى 500 تسلسل أو حجم ملف بحد أقصى 1 ميغابايت.

إذا كنت تستخدم هذه الخدمة ، فيرجى التفكير في الاستشهاد بالمنشور التالي: أدوات البحث وتحليل التسلسل EMBL-EBI واجهات برمجة التطبيقات في عام 2019

يرجى قراءة "التعليمات & amp ؛ التوثيق والأسئلة الشائعة" المقدمة قبل طلب المساعدة من فريق الدعم لدينا. إذا كان لديك أي ملاحظات أو واجهت أي مشاكل ، فيرجى إخبارنا عبر دعم EMBL-EBI. إذا كنت تخطط لاستخدام هذه الخدمات أثناء الدورة ، فيرجى الاتصال بنا. اقرأ إشعار الخصوصية الخاص بنا إذا كنت مهتمًا بخصوصيتك وكيفية تعاملنا مع المعلومات الشخصية.

EMBL-EBI، Wellcome Trust Genome Campus، Hinxton، Cambridgeshire، CB10 1SD، UK +44 (0) 1223 49 44 44


خلفية

تم الانتهاء من العديد من مشاريع تسلسل الجينوم الكامل أو هي قيد التنفيذ ، والتي تغطي مجموعة واسعة من الأنواع بين أوامر مختلفة. تقدم تسلسل الجينوم رؤى جديدة حول التطور وتنظيم الجينات التي كان من الممكن أن تكون مستحيلة بدون جهود التسلسل واسعة النطاق هذه. في حين تم تطبيق مجموعة متنوعة من استراتيجيات التسلسل ، فإن الأكثر شيوعًا في الاستخدام حاليًا والاستراتيجية المختارة لجينوم الأبقار تعتمد بشكل أساسي على تسلسل بندقية الجينوم الكامل (WGS) وتجميع قراءات التسلسل بناءً على تداخل تشابه التسلسل. سيتم استكمال تجميع الأبقار بتغطية أقل بكثير للتسلسل من الحيوانات المستنسخة ذات الإدراج الكبير (الكروموسوم الاصطناعي البكتيري ، BAC) لتوفير اتصالات بين كونتيجس التسلسل غير المتداخل الذي يمثل مواقع الكروموسومات على مقربة من بعضها البعض. يضيف البناء الأكثر شمولاً لتسلسل الجينوم معلومات من الخرائط الفيزيائية والجينية إلى تسلسل WGS و BAC لطلب contigs على نطاق أوسع. يمكن توفير مستوى متوسط ​​من الدقة وفحص نقدي لدقة الطرق الأخرى من خلال تحديد ما إذا كان يتم الحفاظ على التوجيه الصحيح والترتيب والتباعد بين exons في الجينات المعبر عنها في البنية. يتطلب هذا النهج معرفة تسلسل النص المعبر عنه للمقارنة ببناء الجينوم.

استخدام آخر لتسلسل النسخ هو في التعليق التوضيحي ، وهو مفتاح لفائدة تسلسل الجينوم الكامل. أثبتت مشاريع تسلسل (كدنا) كاملة الطول السابقة أهمية تسلسل الرنا المرسال المشتق تجريبياً لإنتاج نماذج جينية تحدد حدود إكسون-إنترون دقيقة [1-5]. قدمت هذه المشاريع معلومات حيوية حول أشكال لصق بديلة للمنتجات الجينية التي تولد تباينًا في الشكل والوظيفة يعتقد أنها مساهم رئيسي في التنوع في التعبير والنمط الظاهري. ساعدت تسلسلات FLIC أيضًا في التمييز بين التضفير البديل وتكرار الجينات أو الجينات الخادعة ، وهو إجراء صعب وعرضة للخطأ إذا كان يعتمد فقط على متواليات EST المجمعة.

كان الاستخدام الرئيسي الآخر لتسلسلات FLIC هو توليد تسلسل بروتين متوقع ، مما يوفر موردًا لدعم الأساليب البروتينية والتحليل المقارن للكشف عن تفاصيل وظيفة البروتين. يتطلب هذا الهدف إعادة بناء دقيقة لأجزاء CDS من النصوص الحسنة النية المعبر عنها في الأنسجة المستهدفة ، والتي قد تكون مشكلة مع EST العنقودية كما هو مذكور أعلاه.

تم بذل الجهد الحالي لدعم جميع الاستخدامات المحتملة لبيانات bFLIC. أصدر الاتحاد الدولي لتسلسل جينوم الأبقار [6] بقيادة كلية بايلور للطب مؤخرًا المجموعة الثانية من الجينوم ذات التغطية السداسية (Worley ، K. سيتم تسهيل صقل التجميع من خلال دمج bFLICs في عملية النمذجة الجينية والتجميع ، على غرار فائدتها في تجميع جينومات الكائنات الحية الأخرى. ستدعم bFLICs أيضًا الجهود في NCBI و ENSEMBL لاشتقاق نماذج جينية دقيقة ، واشتقاق قواعد بيانات تسلسل البروتين المتوقع. بهذا المعنى ، فإن الدراسة الحالية مشابهة لمشاريع cDNA السابقة كاملة الطول التي تم تنفيذها على البشر [1] ، والفئران [3] ، وأنواع أخرى [5،7]. ومع ذلك ، تم استخدام نهج مختلف لتوليد البيانات مقارنة بالجهود الموصوفة سابقًا ، حيث استخدمت الخطوة الأولى من هذا المشروع تسلسل الأنسجة المجمعة والمكتبات الطبيعية [8،9] التي لم يتم إنشاؤها بواسطة إجراءات لإثراء كامل استنساخ الطول ، لأن مثل هذه الإجراءات يمكن أن تؤدي إلى تحيز من شأنه أن يقلل من تنوع مرنا المرصود. علاوة على ذلك ، كان الهدف الأساسي للمشروع هو تطوير طريقة لاختيار نسخ CDS كاملة باستمرار من هذه المكتبات بناءً على مقارنة التسلسل الفردي ، 5 'التسلسل المرجعي البشري [10] (RefSeq) قاعدة بيانات mRNA.

يصف هذا التقرير تسلسل استنساخ البقري الكامل CDS المختار بطريقة تستخدم بيانات تسلسل 5 'end EST كمدخل. حددت هذه الطريقة بكفاءة متماثلات الأبقار الظاهرة لتسلسلات RefSeq mRNA البشرية ، وجمعت تسلسل الإدراج الكامل ، ووضعت تعليقات bFLICs الناتجة باستخدام GeneIDs ، والمنتج ، والعناصر المتكررة ، وتسلسل البروتين المتوقع. يجب أن تكون الطريقة الموصوفة مفيدة بشكل خاص لتوليد CDS الكامل وتسلسل البروتين المتوقع للكائنات ذات قواعد بيانات ناضجة للتسلسل من الأنواع الأخرى بالترتيب (مثل الثدييات الأخرى) ولكنها غير مدرجة في مشاريع تسلسل الجينوم الكامل. تميز نجاح الطريقة بمقارنة متواليات bFLIC مع Refseq mRNA البشري والثدييات UTRdb [11]. نظرًا لبدء التحقيق قبل إطلاق جينوم الأبقار المجمع ، كانت المقارنة المباشرة بين جينوم الأبقار وتسلسل bFLIC مشكلة.

بدون تسلسل الجينوم المتوفر أو تسلسل cDNA الكامل CDS ، من الشائع الاعتماد على مجموعات الجينات مثل Unigene [12] أو مؤشرات TIGR الجينية [8،9،13،14] للتنبؤات النصية. يتم إنشاء تجميعات الإجماع المشتقة الحسابية التي تحتوي على إطارات قراءة مفتوحة (ORFs) من قراءات التمرير الفردي من خلال مكتبات cDNA. توفر هذه المجموعات موردا هاما جدا لنماذج الجينات المفترضة والمنتجات. النمر بوس توروس مؤشر الجينات (BtGI) بتسلسلات CDS الكاملة البقري لتأكيد وجود نصوص محددة تجريبياً في المجموعات المحسوبة. قد يساعد هذا التوصيف لمجموعات الجينات لتسلسل CDS الكامل الباحثين على تفسير أهمية عمليات البحث الخاصة بهم مقابل قواعد بيانات مجموعة الجينات.


2. المواد والأساليب

في هذا القسم ، سنصف بنية النظرة العامة لنهجنا في الكشف والتصحيح. بعد ذلك ، نصف توليد مجموعة البيانات وكيف ننتج شجرة النشوء والتطور من التعيينات التصنيفية. بعد ذلك ، نناقش خوارزمية الكشف الخاصة بنا للعثور على التسلسلات المصنفة بشكل خاطئ. بعد ذلك ، نصف نهجنا لاقتراح تخصيصات تصنيفية للتسلسلات التي تم تحديدها على أنها خاطئة التصنيف. أخيرًا ، سوف نصف تحليل الحساسية لتغيير المعلمات المختلفة لاقتراح التخصيصات التصنيفية.

2.1 نظرة عامة على الطريقة

يوضح الشكل 1 نظرة عامة على نهجنا. تم تنزيل ملفات قاعدة بيانات NCBI'NR من (ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/) في 20 أكتوبر 2018. تم الحصول على المعلومات التصنيفية من ملفات XML على NCBI (https: / /ftp.ncbi.nlm.nih.gov/blast/temp/DB\_XML/). CD-HIT (Fu وآخرون.، 2012) (الإصدار v4.6.8-2017-1208) لتجميع تسلسلات بروتين NR في مجموعات بتشابه 95٪ باستخدام المعلمات التالية (-n 5 -g 1 -G 0 -aS 0.8 -d 0 -p 1 - T 28 -M 0). تستخدم هذه المعلمات طول كلمة 5 وتتطلب أن تكون محاذاة التسلسلات القصيرة 80٪ على الأقل من طولها. استغرق الحصول على البيانات والمعالجة المسبقة والتجميع حوالي 3 أيام. استغرق جزء الكشف والتصحيح حوالي 8 ساعات.

نظرة عامة على بنية الطريقة المقترحة لاكتشاف التسلسلات المصنفة بشكل خاطئ تصنيفيًا في قاعدة بيانات NR. يوضح الرسم التخطيطي مجموعة البيانات الأولية وخطوات العمل المقترح

نظرة عامة على بنية الطريقة المقترحة لاكتشاف التسلسلات المصنفة بشكل خاطئ تصنيفيًا في قاعدة بيانات NR. يوضح الرسم التخطيطي مجموعة البيانات الأولية وخطوات العمل المقترح

أخذنا ملفات FASTA الخاصة ببروتين NR التي تحتوي على خطوط تعريف تحتوي على تعليقات توضيحية من قواعد بيانات مختلفة وقمنا بإنشاء تنسيق BoaG الذي استغرق حوالي ساعتين. يتضمن كل سطر تعريف في البيانات الأولية معرف البروتين واسم البروتين متبوعًا باسم كائن حي بين قوسين مربعين ، على سبيل المثال '& gtAAB18559 منتج بروتين غير مسمى [بكتريا قولونية شارع. K-12 substr. MG1655] ". BoaG هي لغة خاصة بالمجال تستخدم بنية تحتية قائمة على Hadoop للبيانات البيولوجية (Bagheri وآخرون.، 2019). يتم تقديم برنامج BoaG للبنية التحتية BoaG. يتم تجميعها وتنفيذها على مجموعة Hadoop الموزعة لتنفيذ استعلام على قاعدة البيانات بتنسيق BoaG للبيانات الأولية. يحتوي BoaG على مجمعات يمكن تشغيلها على قاعدة البيانات بأكملها أو مجموعة فرعية من قاعدة البيانات مع الاستفادة من تصميم المخطط المستند إلى protobuf المحسّن لمجموعة Hadoop لكل من البيانات والحساب. هذه المجمعات تشبه على سبيل المثال لا الحصر المجمعات الموجودة تقليديا في قواعد بيانات SQL وقواعد بيانات NoSQL مثل MongoDB. يتطلب برنامج BoaG النصي عددًا أقل من سطور التعليمات البرمجية ، ويوفر كفاءة التخزين والتحليل المتوازي على نطاق واسع تلقائيًا.

2.1.1 توليد مجموعة البيانات

لوصف مجموعة البيانات الخاصة بنا ، دع D تشير إلى مجموعة بيانات البروتين والتجميع في دراستنا: D =

⁠. هنا ، P =

هي مجموعة من جميع البروتينات في قاعدة بيانات NR. تمثل C = مجموعة من كل العناقيد عند 95٪ تشابه. | ص | و | ج | في مجموعة البيانات لدينا حوالي 174 م و 88 م على التوالي. τ عبارة عن مجموعة من التخصيصات التصنيفية للبروتينات ، و عبارة عن مجموعة من الوظائف في قاعدة بيانات NR. في هذا العمل ، نركز على استكشاف التعيينات التصنيفية.

في التعريف 1 ، ينتمي كل تسلسل بروتين إلى مجموعة واحدة بالضبط عند تشابه 95٪ ، ولكل مجموعة تسلسل تمثيلي واحد. إذا لم يكن البروتين متطابقًا في التسلسل والطول ، فسوف يقع في كتلة بدون أي عضو آخر.

2.1.2 توليد شجرة النشوء والتطور من التخصيصات التصنيفية

نحصل على قائمة التعيينات التصنيفية التي تنشأ من قواعد بيانات مختلفة (تمت مراجعتها يدويًا وتم إنشاؤها بواسطة الحساب) ونبني شجرة نسج من خلال استخدام مكتبة ETE3 (Huerta-Cepas وآخرون.، 2016). تستخدم هذه المكتبة قاعدة بيانات تصنيف NCBI التي يتم تحديثها بشكل متكرر.

على سبيل المثال ، يحتوي تسلسل البروتين AAB18559 على تعيينات تصنيفية من "511145" و "723603" ظهرت مرة واحدة.

في التعريف 3 ، يتم حساب التعليقات التوضيحية من GenBank و trEMBL و PDB بطريقة حسابية ، بينما تتم مراجعة التعليقات التوضيحية من RefSeq و SwissProt يدويًا. على سبيل المثال ، prov (511145) = GenBank يعني أن المعرف الضريبي "511145" للتسلسل AAB18559 ينشأ من قاعدة بيانات GenBank.

احتمالية التعليق التوضيحي

في التعريف 4 ، A i ، تمثل a ∈ Comp التعليق التوضيحي الذي تم حسابه حسابياً (Comp) من قواعد البيانات ، مثل GenBank و trEMBL و PDB و A i ، تشير a ∈ Rev إلى المراجعة (Rev) من RefSeq ، SwissProt. قد ينشأ تعليق توضيحي واحد من كل من قواعد البيانات التي تمت مراجعتها والحساب. نستخدم عامل ترجيح متحفظ ، ث، للدلالة على أهمية الشرح التجريبي (الذي تمت مراجعته يدويًا) حيث ث هو عدد صحيح و w ≥ 1 ⁠.

لبروتين معين صأنا، نحدد الشرح الأكثر احتمالا (MPA) كـ MPA (P i) = A i، j كتعليق توضيحي بأعلى احتمال بين مجموعة التعليقات التوضيحية. بالإضافة إلى ذلك ، نحدد الشرح الأقل احتمالا (LPA) ، مع أدنى احتمال ، والذي من المحتمل أن يتم تصنيفه بشكل خاطئ على أنه LPA (P i) = A i ، k ⁠ ، حيث i ≠ j ⁠.

2.2 نهج لاكتشاف سوء التصنيف التصنيفي

الخوارزمية 1 خوارزمية كشف التعيين الخاطئ في NR. المدخلات تأتي من استعلام BoaG (مادة تكميلية)

1: إجراء كشف الواجبات د

2: طول NR ← | ص | ▹ م = 174 م بروتين

3: في حين أنا ≤ NR الطول فعل

5: لو غير مخصص (phylo) & amp & amp ؛ غير محفوظ (صأنا) من ثم

6: طباعة (تم العثور على خطأ في التخصيص صأنا)

7: إجراء فيلوتريصأنا

8: ncbi ← ncbiTAXA () تستخدم لتوليد شجرة نسالة

9: phyloTree ← ncbi. الحصول على _ الطوبولوجيا (P i) ▹ من قائمة الأصناف

10: ل A i، a in τ (P i) فعل

11: V a ← prob (A i، a)، list (freq (A i، a)، prov (A i، a))

12: إرجاع phyloTree.

نهجنا هو كما يلي: أولاً ، نقوم بتشغيل استعلام BoaG (الشكل التكميلي S1) في قاعدة بيانات NR. يعمل هذا الاستعلام على قاعدة بيانات NR الكاملة في كتلة Hadoop. تصف الخوارزمية 1 طريقة الكشف عن التسلسلات المصنفة بشكل خاطئ. يتكرر عبر قاعدة بيانات NR بأكملها. في السطر 4 ، يأخذ بروتينًا صأنا ويولد شجرة نسالة من مجموعة التخصيصات التصنيفية لـ صأنا. ثم ، في السطر 5 ، يتحقق مما إذا كان هناك تصنيف خاطئ. إذا كان أدنى سلف مشترك (LCA) هو مستوى الجذر ، فهذا يعني أن هناك مسافة كبيرة بين التخصيصات التصنيفية لتسلسل البروتين المعين. لذلك ، هناك خطأ محتمل في التخصيص بين قائمة التخصيصات التصنيفية بسبب التلوث في العينة ، أو الخطأ في الطريقة الحسابية ، أو إدخال البيانات من قبل الباحثين الذين أودعوا التسلسل. نحن نسمي هذا انتهاكًا جذريًا أو صراعًا. نحن نعتبر أيضًا انتهاكات الملك الفائق واللجوء والطبقة والنظام والأسرة. بالإضافة إلى ذلك ، نظرنا في البروتينات المحفوظة بشكل كبير لإزالة الإيجابيات الخاطئة لأن البروتينات المحفوظة قد تظهر في الأنواع البعيدة عن بعضها البعض ، أي تنتمي إلى مجالات مختلفة في شجرة التطور. لم نزل قائمة البروتينات المحفوظة في مجموعة البيانات ، نظرًا لاحتوائها على معلومات تصنيفية تم استخدامها لاقتراح التعيين التصنيفي للتسلسلات التي تم تصنيفها بشكل خاطئ. افترض صأنا ينتمي إلى جي. بمجرد اكتشاف الانتهاك في صأنا، ننظر إلى الكتلة جي واعتبار التخصيص التصنيفي الأكثر شيوعًا هو التصنيف الصحيح. التفاصيل موضحة في القسم 2.3.

تتطلب الخوارزمية 1 وقت O (| P | * | τ |). هنا | ص | هو حجم البروتينات في قاعدة بيانات NR و | τ | هو الحد الأعلى لعدد التخصيصات التصنيفية لكل بروتين. في السطر 5 ، أخطأ(phylo) يتحقق مما إذا كان LCA للشجرة المُنشأة يُظهر انتهاكًا جذريًا أو أي انتهاكات أخرى. يتحقق التعبير المحفوظ (P i) مما إذا كان تسلسل البروتين محفوظًا (المعادلة 6). يتطلب هذا وقت O (1) لأن هذا إحضار مباشر للأمام ، ولدينا المؤشر إلى جذر الشجرة للتحقق من LCA. في السطر 5 ، للتحقق من أن البروتين ليس في قائمة محفوظة ، التعريف 5 ، فإنه يتطلب اختبار عضوية ويستغرق وقت O (1). هذه القائمة المحفوظة هي قائمة محسوبة مسبقًا من مجموعة البيانات الخاصة بنا والتي يتم عرضها في مستودعنا. كتبنا رمز Python متعدد الخيوط ، وكان إجمالي وقت تشغيل الخوارزمية 7 ساعات لقاعدة بيانات NR بأكملها على iMac (Retina 5 K ، 27 بوصة ، أواخر 2015) مع Core i7 و 32 جيجابايت من ذاكرة الوصول العشوائي. بالنسبة للإجراء الثاني ، في السطر 11 ، تتطلب الخوارزمية O (| τ |) لحساب احتمال كل ورقة في شجرة النشوء والتطور.

الخوارزمية 2 تصحيح الشرح: MPA للتسلسلات المصنفة بشكل خاطئ. المدخلات من استعلام BoaG (مادة تكميلية)

1: إجراء الأكثر احتمالا P i، p، c

2: top _ ann ← max (prob (τ (P i))) ▹ أكثر الأصناف احتمالية

3: لو احتمال (أعلى _ آن) ≥ ص من ثم

4: إرجاع (⁠ أعلى _ آن ⁠).

6: الكتلة ← C j فيها P i ∈ C j

7: أعلى _ آن ← ClusterMostProbable (الكتلة ، ص ، ج) ⁠.

8: إرجاع أعلى _ آن ⁠.

9: إجراء الكتلة الأكثر احتمالاًكلوستر, ص, ج

10: لو الحجم (الكتلة) ج من ثم

11: ل أ ، أ في τ (عنقود) فعل

12: V a ← prob (A i، a)، list (freq (A i، a)، prov (A i، a))

13: top _ ann ← max (prob (τ (Cluster))) ▹ أكثر الأصناف احتمالية

14: لو احتمال (أعلى _ آن) ≥ ص من ثم

15: إرجاع أعلى _ آن

17: إرجاع باطل ▹ لا يمكن إصلاح سوء التصنيف

2.3 التخصيص التصنيفي الأكثر احتمالا للتصنيفات الخاطئة المكتشفة

بالنسبة للتسلسلات المصنفة بشكل خاطئ التي تم اكتشافها ، حددنا المعايير لاقتراح التخصيص التصنيفي الأكثر احتمالا (MPA). أولاً ، قمنا بتشغيل استعلام BoaG (الشكل التكميلي S2) لاسترداد التعليقات التوضيحية ومعلومات التجميع عند تشابه 95٪. كما هو مبين في التعريف 4 ، نظرنا في الأصل أو قاعدة بيانات المنشأ ، وتكرار التعليقات التوضيحية لحساب التخصيص التصنيفي المحتمل (MPA) ، وهو أعلى احتمال. لنفترض ذلك صأنا ينتمي إلى الكتلة جي. إذا لم تعثر الخوارزمية على MPA ضمن عتبة معينة ، احتمالية ص، ثم ننظر إلى مجموعة تشابه 95٪ التي ينتمي إليها التسلسل. ثانيًا ، وجدنا التخصيص التصنيفي الأكثر احتمالًا في جي. If a particular taxonomic assignment was the most frequent one in جي then we return that annotation as the MPA for the protein sequence صأنا. For example, in cluster جي, 7 sequences out of 10 sequences have a specific annotation. Then, we consider this annotation to be the MPA protein sequence صأنا with 70% confidence.

Details are shown in the Algorithm 2. In line 2, for a particular protein صأنا, it returns the most frequent taxonomic assignment within a certain threshold ص. Let’s assume we want a taxonomic assignment that appears more than 70% of the time. If the algorithm does not find the MPA, it checks the cluster جي with 95% similarity that this sequence belongs to and finds the one with a certain probability, ص and a cluster size, ج (line 7). In line 9, ClusterMostProbable takes the cluster id and finds the most probable taxonomic assignment in the cluster (line 13).

The Algorithm 2 requires O ( | τ ( P ) | ) time, Definition 2, to find the top(1) or maximum probability of an annotation in the list of annotations.

2.4 Simulated and literature dataset

To evaluate the performance of our taxonomic misclassification approach, we generated a simulated dataset. We took a subset of one million proteins of the reviewed dataset, i.e. RefSeq database and randomly misclassified 50% of the proteins in the sample by adding a taxonomic assignment from another phylum or kingdoms. Then, we tested if the approach can detect these sequences. We also tested our approach for detecting misclassified sequences and correcting them on the real-world data, presented in the literature ( Edgar, 2018 Kozlov وآخرون.، 2016). These works have focused on the RNA dataset, and they quantified misclassified RNA sequences. We also used CD-HIT to cluster RNA databases based on 95% sequence similarity. Further details on the simulated dataset, scripts and data files can be accessed from https://github.com/boalang/nr.

2.5 Sensitivity analysis

We define sensitivity analysis as a way that an input parameter affects the output of the proposed approach. Here, probability based on annotation frequencies and the cluster size are the two input parameters that affect what percentages of detected misclassified sequences that we can fix, i.e. MPA, as shown in Algorithm 2 on the NR dataset. The algorithm will not give the same suggestion for changes in parameters. For example, if we change the cluster size, number of proteins in the cluster, it may or may not find correct taxa. We conducted a sensitivity analysis based on the probability of each annotation that we defined in Definition 4 and the size of the cluster of 95% that the sequence belongs to. We run the algorithm to find the most probable taxonomic assignments (MPA) with different clusters size, ج and with different probabilities, ص. As it is shown in ( Supplementary Fig. S3 ), with a probability of 0.4 and without giving more weight to the annotations that verified experimentally, we could provide a most probable taxonomic assignment to about 60% of the proteins that we detected as misclassified. We also extended sensitivity analysis by giving more weight to the experimental taxonomic assignment with the probability of 0.4 we could provide the most probable taxonomic assignment for more than 80% of the sequences that were identified as a misclassification.


Finding protein motifs by running sequence analysis in protein BLAST - Biology

Extracellular signal-regulated kinase 8 (ERK8) is the most recently identified member of the ERK subfamily of MAPKs. Although other members of the ERK subfamily are established regulators of signaling pathways involved in cell growth and/or differentiation, less is known about ERK8. To understand the cellular function of ERK8, a yeast two-hybrid screen of a human lung library was performed to identify binding partners. One binding partner identified was Hic-5 (also known as ARA55), a multiple LIM domain containing protein implicated in focal adhesion signaling and the regulation of specific nuclear receptors, including the androgen receptor and the glucocorticoid receptor (GR). Co-immunoprecipitation experiments in mammalian cells confirmed the interaction between Hic-5 and both ERK8 and its rodent ortholog ERK7. The C-terminal region of ERK8 was not required for the interaction. Although the LIM3 and LIM4 domains of Hic-5 were sufficient and required for this interaction, the specific zinc finger motifs in these domains were not. Transcriptional activation reporter assays revealed that ERK8 can negatively regulate transcriptional co-activation of androgen receptor and GRα by Hic-5 in a kinase-independent manner. Knockdown of endogenous ERK8 in human airway epithelial cells enhanced dexamethasone-stimulated transcriptional activity of endogenous GR. Transcriptional regulation of GRα and interaction with its ligand binding domain by ERK8 were dependent on the presence of Hic-5. These results provide the first physiological function for human ERK8 as a negative regulator of human GRα, acting through Hic-5, and suggest a broader role for ERK8 in the regulation of nuclear receptors beyond estrogen receptor α.

This work was supported in part by National Institutes of Health Grant HL073132 (to M. K. A.). تم تحمل تكاليف نشر هذا المقال جزئيًا عن طريق دفع رسوم الصفحة. لذلك يجب وضع علامة على هذه المقالة بموجب هذا "الإعلانات"وفقًا لـ 18 U.S.C. القسم 1734 فقط للإشارة إلى هذه الحقيقة.

Both authors contributed equally to this work.

Present address: the Whitehead Institute, Cambridge, MA 02142.

Supported in part by National Institutes of Health Training Grant HL07605.


CONSTRUCTION OF THE ANNOTATION SYSTEM

The way we designed our GO annotation system was mainly inspired by personal experience with the use of GO terms for annotation of in-house EST projects for model organisms like amphioxus or sea urchin. A common problem in these projects is how to compare large transcript libraries represented by ESTs (e.g. from different embryonic stages or different species) with respect to global functional classes like transcription regulation, energy metabolism, in order to find fundamental differences.

Typically in cases where no GO annotation is available it is imported by sequence similarity searches against data sets with existing links to GO terms. This procedure generates a wealth of information of high specificity, which is not always convenient for a more general classification. Here the well defined hierarchical structure of GO is an excellent resource, since all parent terms for a specific GO-Id can be traced up to the more general ontology classes like binding, enzyme, transcription regulation, cell communication, which are more suitable for a survey annotation of large data sets like whole cDNA libraries or complete genomes (1,4,15). An optimal automated annotation system should therefore use a broad data set of protein and gene sequences connected with GO terms and it must contain parsers, which allow effective screening of the GO hierarchy up to any level of specificity.

While the vast majority of data sets published on the GO web site has evidence code IEA (inferred from electronic annotation), which normally means that the annotation was based on sequence similarity searches without inspection by a curator, there is also a significant amount with more confident evidence codes (indicating that annotation was controlled by a curator). Especially the Gene Ontology annotations (GOA) for yeast (11), جيم الرجلين (16), ذبابة الفاكهة (17), mouse (18) and the human GOA (www.ebi.ac.uk/GOA/) maintained by the EBI have a large number of high-confidence evidence codes. The largest GOA set (as of February 2003) covers 566 342 protein IDs from SWISS-PROT (19) and TrEMBL from almost 50� taxa and is also provided by the EBI, but here the majority of entries only has evidence code IEA. We imported all these data sets into local protein databases (1 per GOA set), which contain the respective GO terms, and made them accessible by a local BLAST (6,7) server. Similarity searches can now be performed with any level of sensitivity, with DNA or protein sequences as query. The protein databases are regularly updated and build the core of the annotation system. Once a BLAST run is finished the relevant GO terms are extracted from the BLAST output files together with the functional description of the respective database proteins (Fig. ​ (Fig.1 1 A).

(أ و ب) Excerpts of a GOblet result web page for an Amphioxus RNA for caspase-6. Note that in the figure the original output is truncated for easier display. (A) Upper part of result page. The protein matches are shown in the order of their significance. Links to external databases and to the BLAST alignments are provided and the GO-Ids associated with the respective target protein are displayed. (B) Bottom of result page. All GO-Ids positive with the query sequence are condensed into a summary tree. Contributions of single database proteins are displayed. The numbers in brackets give the amount of distinct protein contributions for that branch.

The complete gene ontology (i.e. the hierarchy of GO identifiers and their description) is available in various formats from the GO consortium (www.geneontology.org). Since we wanted to set up a fully integrated local analysis system we developed a GO parser, which maps the GO hierarchy onto a set of linearised trees, with terms and nodes connected by hash tables, so that any partial hierarchy (starting backwards from a single GO-Id) can be easily reconstructed. For each query sequence the complete set of relevant GO-Ids (obtained from the BLAST output) is used then for construction of a summary tree (Fig. ​ (Fig.1B), 1 B), that lists all the single proteins leading to a specific leaf of the tree. Furthermore, the total counts per GO-Id are given, which allows easy identification of the most significant GO terms.

All the procedures described above are combined in a package of perl scripts. The web server handles the queries via Perl-CGI modules.


مناقشة

It is known that prior assumption regarding the MI calculation critically affects MI results ( Fernandes and Gloor, 2010). In this study, a sequence profile, equivalent to the independently estimated marginal probability, was utilized as prior information for the joint probability estimation. We showed that our novel ways to utilize sequence profile greatly improve the accuracy and usability of detecting coevolving residues. Our promising result has two important aspects. First, sequence profile information is valuable prior knowledge. The estimation of a joint probability that has 399 independent parameters requires MSA consisting of a large number of sequences ( Martin وآخرون., 2005 Ashkenazy وآخرون., 2009), which may not be feasible in many cases. On the other hand, a sequence profile that has only 19 independent parameters can be reliably estimated with a relatively small number of aligned sequences, and many accurate ways to calculate sequence profile have been developed ( Durbin وآخرون. ، 1998). Therefore, incorporating a sequence profile as prior knowledge is a reliable and efficient way of improving joint probability estimates and is, subsequently, beneficial to the detection of coevolving residues. Second aspect is that joint probability is adjusted to have the same marginal probability as the independently estimated value, whereas conventional methods do not account for such consistency constraint. In a previous study ( Fernandes and Gloor, 2010), it has been demonstrated that consistency is a critical assumption in MI estimates. Likewise, our study revealed that the consistency assumption is critically important in MI calculation in the detection of coevolving residues.

As the profile-based joint probability estimate can be used with any form of MI-based measure, we expect similar level of performance improvement for all MI-based measures that may be required for various applications using correlated mutation information. In this study, we showed that the use of sequence profile in state-of-the-art MI variants improves the prediction of intra- and inter-residue contacts. However, the use of correlated mutation is not limited to the described applications. Because the correlated mutation analysis has been applied to various biological studies solely or in combination with other techniques ( Göbel وآخرون., 1994 Pazos وآخرون., 1997 Wu وآخرون., 2003 Shackelford and Karplus, 2007 Lee وآخرون., 2008 Liu وآخرون., 2008 Skerker وآخرون., 2008 Aurora وآخرون., 2009 Halabi وآخرون., 2009 Jeong and Kim, 2010 Kowarsch وآخرون., 2010 Zhang وآخرون., 2010), the improvement achieved by the present method is still effective for those applications. Moreover, the strong robustness of the present method can expand the applications.

A fully automated web server, named CMAT (Correlated Mutation Analysis Tool), was developed based on the present method. The only input prepared by the user is a target sequence. Subsequently, the analysis procedure including MSA construction, redundancy removal and coevolution score estimation is automatically conducted. After the analysis is completed, the outputs including MI, MIp and MIc scores are reported. Additionally, the associated amino acid types are listed with their pointwise MI values, which might be helpful to users who are interested in experimental mutation studies for choosing targeting amino acids. The web server is freely available on the web at http://binfolab12.kaist.ac.kr/cmat/. Besides, for users who want to analyze a large amount of MSAs, the standalone program is also freely available.

Although the present method shows significant improvements over other methods in detecting coevolving residues, the factors that directly cause the coevolution are not easily identifiable without additional knowledge. It is known that a variety of structural and functional factors are related with correlated mutation ( Fitch and Markowitz, 1970 Lee وآخرون., 2008 Skerker وآخرون., 2008 Chakrabarti and Panchenko, 2009, 2010 Halabi وآخرون., 2009 Kowarsch وآخرون.، 2010). However, covariation analyses including the present and conventional algorithms have been focused on the quantification of residue–residue coevolution with less regard to the underlying biological mechanism. To be meaningful, the calculated coevolution scores need to be mapped onto additional features such as spatial distance and functional annotations. To overcome this limitation, prior knowledge related with biological background would be helpful ( Fernandes and Gloor, 2010). For example, coevolving residues at protein–protein interfaces have been effectively detected by using physicochemical compensation as prior knowledge ( Madaoui and Guerois, 2008). That is, meaningful coevolution signal for particular studies can be extracted by taking account of the relationship between correlated mutation and additional biological knowledge.

For future study, we will comprehensively investigate the structural and functional factors that induce residue–residue coevolution, and utilize them as prior biological knowledge for the detection of coevolving residues. Although some previous studies have performed the large-scale analyses ( Chakrabarti and Panchenko, 2010 Kowarsch وآخرون., 2010), their results are based on insufficient data due to the algorithmic limitations such as the MSA diversity and gap fractions. The present method is suitable for a large-scale analysis because of its robustness and reliability. Therefore, the comprehensive study based on the present method can reveal meaningful biological knowledge underlying correlated mutation, which also leads additional improvements in the detection of coevolving sites.


شاهد الفيديو: البروتينات استقلابها وانواعها وضرورتها لأجسامنا وأضرارها (قد 2022).


تعليقات:

  1. Mochni

    يا هلا!!!! لقد انتهت صلاحيتنا :)

  2. Baal

    برافو ما هي العبارة الصحيحة ... فكرة رائعة

  3. Maxwell

    آه ، أنت هراء!

  4. Domhnall

    كالعادة ، قام مشرف الموقع بنشرها بشكل صحيح!

  5. Geedar

    هذا ما احتاجه. شكرا لك على المساعدة في هذا الأمر.

  6. Dace

    ممنوع التكلم!

  7. Destry

    انه مشوق. أخبرني ، من فضلك - أين يمكنني العثور على مزيد من المعلومات حول هذا الموضوع؟

  8. Fallon

    في رأيي لم تكن على حق. يمكنني ان ادافع عن هذا المنصب. اكتب لي في PM.



اكتب رسالة