معلومة

من اخترع DN / DS؟

من اخترع DN / DS؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أكتب ورقة ، وأريد أن أشير إلى الورقة الأصلية التي صاغت مصطلح dN / dS (أو Ka / Ks لهذه المسألة). لقد وجدت أعمالًا مبكرة حول dN و dS (مثل مياتا وياسوناغا 1980) ، ولكن لا يمكن العثور على الورقة الأولى التي استخدمت نسبة dN / dS. هل يعرف أي شخص الورقة الأفضل للاستشهاد بـ dN / dS؟

تحرير: dN هو معدل الاستبدالات غير المترادفة لكل مواقع غير مترادفة ؛ dS هو معدل الاستبدالات المترادفة لكل مواقع مترادفة. dN / dS هو ببساطة النسبة بين dN و dS.

المرجع: Miyata، T.، & Yasunaga، T. (1980). التطور الجزيئي لـ mRNA: طريقة لتقدير المعدلات التطورية لبدائل الأحماض الأمينية والمترادفة من متواليات النوكليوتيدات المتماثلة وتطبيقها. مجلة التطور الجزيئي ، 16 (1) ، 23-36. https://doi.org/10.1007/BF01732067


في الورقة التي استشهدت بها ، نرى K.أ وكس التي حددها المؤلفون.

تسمح لنا المقارنة المباشرة بين زوج من متواليات النوكليوتيدات المعروفة في مناطق الترميز بتقييم كل من الاختلافات النوكليوتيدية لكل موقع بسبب بدائل النيوكليوتيدات التي تؤدي إلى تغيرات في الأحماض الأمينية ، Kأ، وتلك التي تؤدي إلى تغييرات مترادفة ، كس، الوقت ذاته.

في نفس العام ، نشر Motoo Kimura طريقة بسيطة لتقدير المعدلات التطورية للبدائل الأساسية من خلال الدراسات المقارنة لمتواليات النيوكليوتيدات، حيث اشتق مصطلحات مماثلة k '(nuc) S. و ك(نو).

الكتابة ك '(nuc) S. بدلا من kسللتأكيد على أن هذا يشير إلى المعدل لكل موقع نيوكليوتيد ، نحصل عليه ، باستخدام Eq. 14 ، الصيغة التالية.

$ k '_ {(nuc) S} = - frac {1} {4T} log_e (1 - 2P - Q) $

يمكن الحصول على الصيغة المقابلة لبدائل تغيير الأحماض الأمينية بواسطة

$ k _ {(nuc) A} = frac {K "} {2T} $

السبب في عدم استشهاد أي من الورقتين بالآخر هو ظهورهما في نفس إصدار مجلة التطور الجزيئي. استنادًا إلى الاقتباسات الشاملة بين هؤلاء المؤلفين ، بالإضافة إلى بعض التأليفات المشتركة ، من المحتمل أن يكون تطوير الحرف Kأ وكس كانت المقاييس متزامنة ، إن لم تكن تعاونية.


علم الأحياء وتنظيم الجينوم وتطور فيروسات البارفو في الجمبري البحري

آرون ك. دهار. ديليب ك.لاكشمان ، في التقدم في أبحاث الفيروسات ، 2014

4.2.2 الاختيار الإيجابي

نسبة الاستبدال غير المرادف (بدائل تغيير الأحماض الأمينية) والاستبدال المرادف (البدائل التي لا تغير الأحماض الأمينية) (د نس) على نطاق واسع كمؤشر لضغط الاختيار. كما هو الحال مع إعادة التركيب ، لم يتم تناول هذه الآلية على نطاق واسع في IHHNV. ومع ذلك ، تم اكتشاف إشارات الاختيار الإيجابي في العديد من سلالات IHHNV ، حيث تجاوزت معدلات بدائل الأحماض الأمينية تلك الخاصة بالبدائل المترادفة عند مقارنتها بالتوقعات المحايدة للانحراف الجيني والطفرة (Robles-Sikisaka et al. ، 2010). من المفترض أن الاختيار الإيجابي يساهم في زيادة التنوع الجيني الملحوظ في IHHNV.


من اخترع DN / DS؟ - مادة الاحياء

الطالب الجامعي هو جزء من التعاون البحثي بين مركز علم الوراثة الحاسوبية وعلم الجينوم (CCGG) ومعهد علم الجينوم والطب التطوري (iGEM).

نتج عن جهد بحثي تعاوني بين كيانين بحثيين تابعين لـ CST نشر في المرموقة وقائع الأكاديمية الوطنية للعلوم (PNAS). الورقة بعنوان "التحديد الضعيف للكودونات المترادفة يؤدي إلى تضخم تقديرات dN / dS في البكتيريا" من تأليف شكيبور رحمن ، متخصص في علم الأحياء ، والبروفيسور سيرجي بوند من iGEM وباحث ما بعد الدكتوراة أندرو ويب والبروفيسور جودي هاي من CCGG.

رحمن ، وهو طالب صاعد مع تخصص فرعي في اللغة الألمانية والدراسات الثقافية ، شارك مؤخرًا أفكاره حول البحث ، لماذا اختار CST وجامعة تمبل وخططه للمستقبل.

منذ متى وأنت تعمل في مختبر دكتور هي؟ ما الذي جذبك لعملهم؟

أعمل في مختبر Hey منذ أكتوبر 2018 تقريبًا ، خريف سنتي الأولى. لقد انجذبت إلى هذا المعمل على وجه الخصوص لأنه على الرغم من عدم وجود خبرة سابقة في الترميز ، إلا أنها كانت مهارة أردت بالتأكيد العمل عليها واكتشفت أنه من خلال البدء في بداية سنتي الأولى ، سيكون لدي الكثير من الوقت لمحاولة اكتساب الكفاءة في الترميز. اعتقدت أيضًا أن المشروع كان ممتعًا أيضًا.

هل يمكنك وصف البحث؟

هذا البحث هو في الأساس تحليل البدائل المترادفة ، وهي تغييرات في الكودون تؤدي إلى ترجمة نفس الحمض الأميني ، واستخدام الكودون في 13 نوعًا من البكتيريا وثيقة الصلة إلى حد ما.

أخذنا الطريقة الحالية لتقدير قوة الانتقاء الطبيعي على الجينات وقمنا بتعديلها بحيث يمكن أن تأخذ في الاعتبار المزيد من العوامل وبالتالي تكون أكثر دقة. قمنا بتصنيف الاستبدالات المترادفة على أنها إما محايدة أو مختارة ضمن نموذج استبدال مرادف متعدد الفئات يتم اختصاره على أنه MSS بدلاً من افتراض أن جميع البدائل المترادفة محايدة تمامًا.

تمت مقارنة نسبة الاستبدال غير المرادف إلى المرادف بين نموذج MSS ونموذج الكودون القياسي مع الافتراض المحايد. الاستبدال غير المرادف هو تغيير كودون ينتج عنه ترجمة حمض أميني مختلف.

تم العثور على تقدير مبالغ فيه لنسبة dN / dS في العمليات الحسابية باستخدام نموذج الكودون القياسي مع كون نموذج MSS في المتوسط ​​80 بالمائة من النسبة القياسية. تم العثور على تفسير تباين تحيز الكودون أو اختيار البدائل المترادفة بسبب التحديد الضعيف للغاية.

لماذا هذه الورقة مهمة؟

هناك العديد من الأوراق التي تستخدم الافتراض بأن البدائل المترادفة في البكتيريا محايدة بدلاً من الفئات المحتملة المحايدة والمختارة. يمكن أن يؤدي هذا إلى حساب التضخم الزائد لنسبة dN / dS والتي غالبًا ما تكون مقياسًا لما إذا كان هناك اختيار إيجابي أو سلبي وقوة الاختيار في مجموعة سكانية.

قد تؤدي نسبة dN / dS المتضخمة إلى المبالغة في تقدير الاختيار الإيجابي في الأنواع وأيضًا التقليل من قوة الاختيار السلبي. لقد وجدنا طريقة لتحديد مجموعة تحكم جيدة لا تتأثر تغييرات الكودون فيها بالانتقاء الطبيعي وباستخدام هذه المجموعة ، يمكننا تقدير قوة الانتقاء الطبيعي بشكل أفضل.

هل هذا هو أول منشور لك؟ ما هو شعورك عندما تكون المؤلف الأول؟

هذا هو أول منشور لي وأول تجربة حقيقية لي مع البحث بشكل عام. إنه شعور سريالي إلى حد ما ومكافئ للغاية أن تكون المؤلف الأول على الرغم من أن المشروع كان بالتأكيد جهدًا جماعيًا.

كيف وجدت طريقك إلى المعبد؟ ما الذي دفعك إلى المجيء إلى CST؟

جئت إلى تيمبل لعدة أسباب. كان أخي الأكبر طالبًا جديدًا في تمبل عندما تقدمت بطلب ، والجامعة قريبة بما يكفي من المنزل حيث لا يزال بإمكاني رؤية العائلة ولكن بعيدًا بما يكفي حتى أنضج بعيدًا عنهم. كان أيضًا خيارًا ميسور التكلفة وكان لديه التخصص الرئيسي والثانوي الذي أردت متابعته.

لقد جئت إلى CST لأنني أيضًا كنت مهتمًا جدًا بالبيولوجيا والعديد من الفصول تتداخل أيضًا مع متطلبات تمهيدي الطب. كما أقدر تركيز تمبل على البحث.

ما هي أهدافك المهنية؟

أنا أتقدم بطلب للحصول على دورة القبول في كلية الطب لعام 2022 مع الأمل النهائي في أن أصبح جراح قلب. آمل أيضًا أن أواصل البحث في بعض الصفة في جميع أنحاء كلية الطب وأثناء عملي كطبيب جراح ، إذا حدث ذلك.


روزاليند فرانكلين

سيراجع محررونا ما قدمته ويحددون ما إذا كان ينبغي مراجعة المقالة أم لا.

روزاليند فرانكلين، كليا روزاليند إلسي فرانكلين، (من مواليد 25 يوليو 1920 ، لندن ، إنجلترا - توفي في 16 أبريل 1958 ، لندن) ، عالمة بريطانية اشتهرت بإسهاماتها في اكتشاف التركيب الجزيئي للحمض النووي الريبي منقوص الأكسجين (DNA) ، وهو أحد مكونات الكروموسومات التي تعمل على ترميز المعلومات الجينية. ساهم فرانكلين أيضًا في رؤية جديدة حول بنية الفيروسات ، مما ساعد على وضع الأساس لمجال علم الفيروسات البنيوي.

بماذا تشتهر روزاليند فرانكلين؟

اكتشفت روزاليند فرانكلين كثافة الحمض النووي ، والأهم من ذلك أنها أثبتت وجود الجزيء في شكل حلزوني. أرسى عملها لتوضيح أنماط الأشعة السينية لجزيئات الحمض النووي الأساس لاقتراح جيمس واتسون وفرانسيس كريك بأن الحمض النووي هو بوليمر ثنائي الحلزون في عام 1953.

ماذا كانت إنجازات روزاليند فرانكلين؟

ساهمت روزاليند فرانكلين برؤية جديدة حول بنية الفيروسات ، مما ساعد على وضع الأساس لمجال علم الفيروسات البنيوي. أدى عملها في دراسة الكيمياء الفيزيائية للكربون والفحم إلى بحثها عن التغيرات الهيكلية الناتجة عن تكوين الجرافيت في الكربون المسخن - والتي أثبتت قيمتها في صناعة فحم الكوك.

كيف ماتت روزاليند فرانكلين؟

توقفت مشاركة روزاليند فرانكلين في أبحاث الحمض النووي المتطورة بسبب وفاتها المفاجئة من السرطان عن عمر يناهز 37 عامًا في عام 1958. تم تشخيص فرانكلين بسرطان المبيض في عام 1956. واصلت بحثها طوال نظام العلاج الخاص بها ، لكنها توفيت في لندن في 16 أبريل ، 1958.

التحق فرانكلين بمدرسة سانت بول للبنات قبل أن يدرس الكيمياء الفيزيائية في كلية نيونهام بجامعة كامبريدج. بعد تخرجها في عام 1941 ، حصلت على زمالة لإجراء بحث في الكيمياء الفيزيائية في كامبريدج. لكن تقدم الحرب العالمية الثانية غير مسار عملها: فهي لم تعمل فقط كمراقب للغارات الجوية في لندن ، ولكنها تخلت في عام 1942 عن زمالة من أجل العمل في الجمعية البريطانية لأبحاث استخدام الفحم ، حيث قامت بالتحقيق في الحالة المادية. كيمياء الكربون والفحم للمجهود الحربي. ومع ذلك ، تمكنت من استخدام هذا البحث في أطروحة الدكتوراه الخاصة بها ، وفي عام 1945 حصلت على درجة الدكتوراه من كامبريدج. من عام 1947 إلى عام 1950 عملت مع جاك ميرينج في المختبر الكيميائي الحكومي في باريس ، حيث درست تكنولوجيا حيود الأشعة السينية. أدى هذا العمل إلى بحثها حول التغييرات الهيكلية الناتجة عن تكوين الجرافيت في الكربون الساخن - وهو عمل أثبتت قيمته في صناعة فحم الكوك.

في عام 1951 ، انضم فرانكلين إلى مختبر الفيزياء الحيوية في كينجز كوليدج بلندن ، كزميل باحث. هناك طبقت طرق حيود الأشعة السينية لدراسة الحمض النووي. عندما بدأت بحثها في King’s College ، لم يكن يُعرف سوى القليل جدًا عن التركيب الكيميائي أو بنية الحمض النووي. ومع ذلك ، سرعان ما اكتشفت كثافة الحمض النووي ، والأهم من ذلك أنها أثبتت وجود الجزيء في شكل حلزوني. أرسى عملها لجعل أنماط الأشعة السينية أكثر وضوحًا لجزيئات الحمض النووي الأساس لجيمس واتسون وفرانسيس كريك ليقترح في عام 1953 أن بنية الحمض النووي عبارة عن بوليمر ثنائي الحلزون ، وهو حلزوني يتكون من شريطين من الحمض النووي ملفوفين حول بعضهما البعض.

من 1953 إلى 1958 عمل فرانكلين في مختبر علم البلورات في كلية بيركبيك بلندن. وأثناء وجودها هناك أكملت عملها على الفحم والحمض النووي وبدأت مشروعًا حول التركيب الجزيئي لفيروس موزاييك التبغ. تعاونت في الدراسات التي أظهرت أن الحمض النووي الريبي (RNA) في هذا الفيروس كان جزءًا لا يتجزأ من بروتينه وليس في تجويفه المركزي وأن هذا الحمض النووي الريبي كان عبارة عن حلزون أحادي الخيط ، بدلاً من اللولب المزدوج الموجود في الحمض النووي للفيروسات البكتيرية و الكائنات الحية الأعلى. توقفت مشاركة فرانكلين في أحدث أبحاث الحمض النووي بسبب وفاتها المفاجئة بسبب السرطان في عام 1958.


مناقشة

استخدمت العديد من الدراسات السابقة شبكات الجينات لتحديد الجينات التي يمتلك تعبيرها المشترك سمات خاصة بالإنسان [8 ، 12 ، 18] ، وعادة ما تركز على عدد واحد أو صغير من مناطق الدماغ بسبب توافر البيانات. هنا ، نجري أول مقارنة شاملة متعددة المناطق ومتعددة الأنواع للتباعد التطوري لشبكات التعبير المشترك المتولدة من دماغ الإنسان المستمدة من أكثر من 100 فرد [23]. تم اختبار حفظ التعبير المشترك في أكثر من 15000 عينة من 116 دراسة مستمدة من الإنسان و NHP والماوس (ملف إضافي 3: الجدول S2). سمحت مقارنة حفظ النسخ على أساس كل من الدماغ ومنطقة حسب المنطقة بتحديد العمليات البيولوجية والجينات التي تباعدت في علاقات التعبير المشترك على مدار الزمن التطوري. يشير الحفاظ على معظم وحدات الفأر في البشر ، والعديد من الوحدات البشرية في الفئران بشكل عام ، إلى مستوى أساسي من بنية التعبير المشترك المشتركة بين الإنسان والفأر ، وهو ما يتوافق مع التوقعات والدراسات السابقة [8 ، 38 ، 66 ، 67]. ومع ذلك ، فإن الاختلاف القوي للعديد من الوحدات البشرية المحددة من الماوس يدعم اكتساب التعقيد النسخي على النسب البشري غير المشترك في الماوس. علاوة على ذلك ، يرتبط اختلاف الوحدة بشكل كبير بمقاييس الاختيار المستقلة ، بما في ذلك تباين القيود التنظيمية وقيد ترميز البروتين ، مما يشير إلى أنه يلتقط خصائص التسلسل الجيني ذات الصلة تطوريًا.

إن الاختلاف الأقوى بين الوحدات البشرية والماوس مقارنةً بوحدات الفأرة بالنسبة للإنسان يكمن وراء ملاحظتنا "للتباعد غير المتماثل" في علاقات التعبير المشترك. على مستوى نوع الخلية ، يكون هذا الاختلاف غير المتماثل أكبر بالنسبة للوحدات الدبقية الصغيرة ، بينما على المستوى الإقليمي ، يكون هذا الاختلاف أكبر في القشرة الدماغية ، وهي ملاحظة تتفق مع التسلسلات الهرمية التطورية المعروفة [12 ، 18]. نحن نستخدم بنية الشبكة المحددة بشكل صارم لتحديد عدد من الجينات المرتبطة بالأمراض ، بما في ذلك PSEN-1 ، والتي سبق أن تبين أنها متباينة بناءً على تحليل مستقل لبيانات المصفوفات الدقيقة [8]. بالاقتران مع التحليل الحالي ، يشير هذا بقوة إلى أن نماذج الفئران الخاصة بـ PSEN-1 لن تقوم بنمذجة العمليات البشرية بدقة عالية ، ولا سيما الفئران التي تحتوي على طفرات PS-1 مهيمنة للغاية ولا تظهر تنكسًا عصبيًا صريحًا أو نموذجًا للإصابة بمرض AD البشري [68]. تتضمن جينات الأمراض الأخرى التي تظهر نقصًا في الحفاظ على علاقات التعبير المشترك للإنسان في الفئران عشرات الجينات المعروفة لخطر التوحد ، بما في ذلك SCN2A و SHANK3. تميل الجينات المتباينة إلى التعبير عنها عند مستويات أعلى في الإنسان مقارنة بالماوس. نلاحظ أن هذا لا يرجع على نطاق واسع إلى التغييرات في تكوين نوع الخلية ، ولكنه يعكس بشكل عام التأثيرات التنظيمية الخلوية.

تقييم الاختلاف التطوري باستخدام شبكات التعبير المشترك

في تحليلنا ، نستخدم اختلاف الوحدة (نسبة نوعين من درجات Zsum) كبديل للتباعد التطوري. يسمح لنا هذا المقياس بالتغلب على تأثير حجم الوحدة على الحفظ (ملف إضافي 1: الشكل S1D) ويوفر أساسًا كميًا أكثر لمقارنة اختلاف النسخ بين العمليات المختلفة. يسمح تقييم الحفاظ على الوحدة في الرئيسيات غير البشرية (NHP) بالتنبؤ بما إذا كانت الاختلافات النسخية بين الإنسان والماوس قد نشأت قبل LCA مع NHP ، أو تعكس الاختلافات التي حدثت بعد LCA مع NHP وبالتالي فهي أكثر تحديدًا للإنسان [69 ، 70]. نحدد 13 وحدة حيث كانت درجات الحفاظ على NHP أقرب بكثير إلى الماوس من الإنسان ، مما يشير إلى تباعد أكبر على سلالة الإنسان بدلاً من الرئيسيات. وبالتالي قد تساهم هذه الوحدات في التمايز بين دماغ الإنسان ودماغ NHP. في المستقبل ، عندما يتم إنشاء مجموعات بيانات تعبيرية إضافية من NHPs مختلفة ، يجب أن يكون المرء قادرًا على إنشاء مجموعات فرعية NHP وإجراء مزيد من الصقل عند الحصول على اختلافات التعبير هذه.

تستخدم طرق علم الوراثة التقليدية متوسط ​​التعبير الجيني المشتق من جميع الأنواع ذات الأهمية وتستخدم الأساليب القائمة على المسافة لبناء شجرة تطورية [71 ، 72]. تقيّم هذه الأساليب تشابه التعبير الجيني بين الأنواع وإنشاء نسالة لتقليل الاختلافات في التعبير وفقًا لمسافاتها في التسلسل الهرمي. يسمح لنا تقييم الحفاظ على التعبير المشترك عبر الأنواع المختلفة بتقييم الاختلاف التطوري للعمليات البيولوجية المختلفة بشكل صريح وعندما تم الحصول على اختلافات نسجية في النسب. تعمل مناهج التعبير المشترك على تقييم علاقة كل جين بوحدة eigengene النمطية التي يتم إنشاؤها في نوع معين. لذلك ، سيكون من الصعب تطبيق نهج قائم على المسافة بين NHP والماوس عند استخدام القيم المشتقة من a بشري شبكة التعبير المشترك.

من خلال إنشاء شبكات في كل نوع ومنطقة على حدة ، يمكننا تحديد العمليات البيولوجية وأنواع الخلايا لكل نوع على حدة. جمعت دراسات أخرى مجموعات بيانات التعبير من أنواع أو مناطق مختلفة في مصفوفة تعبير شاملة قبل إنشاء شبكة تعبير مشترك [12 ، 16]. يمكن أن تسلط هذه الدراسات الضوء على العمليات الخاصة بالأنواع حيث أن وحدات التعبير المشترك مدفوعة إلى حد كبير بالجينات التي تعرض التعبير التفاضلي بين الأنواع. لكن هذه الأساليب لا تستفسر عن اختلافات الأنواع في التعبير المشترك ، والتي قد لا تكون مرتبطة بالتعبير التفاضلي وبالتالي فهي مكملة للنهج المتبع في دراستنا.

ينتج عن إنشاء الشبكات الإقليمية وحدات تتعلق بأنواع الخلايا المختلفة عبر المناطق ، مما يسمح بتحليل الحفظ في التعبير المشترك عبر الأنواع المختلفة في الأنواع الفرعية للخلايا. أتاح التسلسل أحادي الخلية اكتشاف العديد من فئات الخلايا في كل من الإنسان والفأر ، مما يسمح بتحديد الاختلافات بين الأنواع على مستوى نوع الخلية. في حين أن مطابقة نوع الخلية بين الأنواع تسمح بتحديد الجينات المعبر عنها تفاضليًا بين الأنواع [7] ، فإن مستويات التعبير نفسها قد تتبع نموذجًا محايدًا إلى حد كبير [17]. نظرًا لأن التعبير المشترك يعكس آليات وظيفية مثل التنظيم المشترك ، فإن التغييرات في موضع الشبكة تعكس التغييرات في الوظيفة [18 ، 21]. في هذا الصدد ، نلاحظ أن الجينات التي ينظمها الإنسان تميل إلى إظهار تباعد أقوى في kME ، بما يتوافق مع التطور التكيفي المحتمل. ومع ذلك ، فإن جزءًا كبيرًا (73٪) من الجينات المتباينة kME يُظهر مستويات تعبير مماثلة أو منخفضة في البشر (ملف إضافي 1: الشكل S4E) ، ويمكن تفسير الأخير على أنه أكثر توافقًا مع نموذج التطور المحايد [17] . على سبيل المثال ، يُظهر الجين النجمي ، PARD3B ، مستويات تعبير مستقرة بين الأنواع (& lt 0.5 logFC) في كل من بيانات التعبير المجمع والخلية المفردة ، لكنه يُظهر تباعدًا قويًا بين الإنسان والفأر على مستوى التعبير المشترك (kME div = 0.51 ص & lt 0.01) ، مما يشير إلى تغيير وظيفي. من ناحية أخرى ، يُظهر IL17D تعبيرًا أعلى إلى حد كبير (& gt 2 logFC) في بيانات الكتلة البشرية وبيانات الخلية المفردة ، ومع ذلك فهي ليست متباينة بشكل كبير للتعبير المشترك ، بما يتوافق مع النموذج المحايد. كان التعبير التفاضلي ناجحًا في تحديد اختلافات التعبير الجيني بين أنواع الخلايا أو مناطق الدماغ ، ومع ذلك ، فقد تم اقتراح أن الحفاظ على التعبير المشترك للجين كان أكثر نجاحًا في تلخيص التسلسلات الهرمية التطورية [18 ، 70] وبالتالي قد يكون أكثر ملاءمة لتقييم الاختلافات الوظيفية بين الأنواع.

قد لا يكتشف التسلسل أحادي الخلية الجينات ذات المستويات المنخفضة من التعبير ، والتي توجد عمومًا في محيط وحدات التعبير المشترك من نوع الخلية (ملف إضافي 1: الشكل S5A-B). نظرًا لأن الجينات الموجودة على محيط الوحدات النمطية من نوع الخلية تُظهر الاختلاف الأكبر في التعبير المشترك (ملف إضافي 1: الشكل S5C-D) ، حتى يتم توفير عمق أكبر ، سيظل تحليل التعبير المشترك لتسلسل الأنسجة الكتلية مهمًا لـ تحديد الاختلافات التطورية ، حيث أن تحليل التعبير المشترك لبيانات التعبير الجماعي يلتقط الجينات عبر نطاق أوسع من التعبير وموضع الشبكة ، وليس فقط الأكثر مركزية [73].

استخدمت دراسة حديثة مهمة تحليل التعبير المشترك لتحديد العلامات "عالية الدقة" لفئات الخلايا العريضة عبر عدد من مناطق الدماغ في كل من الإنسان والفأر [19]. على الرغم من أن جينات الفأر البشرية التي تم تحديدها تتداخل بشكل كبير مع العلامات "عالية الدقة" الخاصة بالأنواع [19] ، فقد تناولت دراستنا مشكلة الاختلاف هذه بشكل مختلف ، بدءًا من مجموعة بيانات الاكتشاف ، ثم تقييم التعبير المشترك في مجموعات بيانات الاختبار المستقلة من أنواع مختلفة. قد تكون الاختلافات في الحفظ بين الدراسات بسبب الاختلافات التقنية ، مثل طريقة استخراج الحمض النووي الريبي ومنصة التسلسل ، أو الاختلافات البيولوجية مثل عمر الموضوع وظروف السكن. وبالتالي ، فإن تحديد الاختلافات التطورية غير المرتبطة بهذه الاختلافات في الدراسة سيزيد من الإشارة المرتبطة بالاختلافات التطورية الحقيقية بين الأنواع. قمنا بتمهيد تأثير الدراسة لإنشاء فترات ثقة حول جميع درجات اختلاف الوحدة والجينات ، مما يسمح لنا بتقييم التأثير المحتمل لهذه التأثيرات التقنية والبيولوجية "للدراسة".

نمذجة وظائف المخ ومرض الفأر

نظرًا لطبيعة انتشار الفأر في كل مكان في البحوث الطبية الحيوية لنمذجة الأمراض العصبية [2] ، فمن المهم فهم الاختلافات الخاصة بالأنواع. نلاحظ أن الخلايا الدبقية البشرية متباينة للغاية عن الفئران مما يشير إلى أنه قد يكون من الصعب إجراء استقراء لأنواع الخلايا هذه في الإنسان ، خاصة عند النظر في النسخ. على سبيل المثال ، ترتبط العديد من الاضطرابات النسخية في الأمراض العصبية والنفسية (الشكل 6 د [44 ، 74]) بالتنشيط المناعي الدبقي ، وهي استجابة من المحتمل أن تكون من أعراض خلل التنظيم العصبي. لذلك ، قد يتم تلخيص الأسباب البيولوجية العصبية الأولية لهذه الأمراض في نماذج الفئران ، ولكن قد تختلف مخرجاتها النصية في المصب.

من خلال حساب الاختلاف على مستوى الجينات ، نسلط الضوء على الجينات التي قد تؤدي إلى اختلاف أنواع الخلايا والعمليات البيولوجية الأخرى في الإنسان. على سبيل المثال ، تم تمييز كل من ACBD7 و CYBRD1 ، وكلاهما في الوحدة النجمية WB.M6 ، في ورقة حديثة لتكون علامات نجمية خاصة بالبشر [19] ، والتي أكدناها في تحليلنا (kMEdiv ≥ 0.4 ص & لتر 0.01). كيلي وآخرون. أظهر أيضًا أن PMP2 ، وهو جين آخر من الجينات النجمية الخاصة بالإنسان تم تحديده سابقًا ، عند تنظيمه في الخلايا النجمية للفأر ، كان قادرًا على زيادة عدد العمليات الأولية وحجم الخلايا النجمية للفأر [19] ، وهو تمييز معروف بين الإنسان والفأر [ 6]. في مجموعة البيانات الخاصة بنا ، من بين جميع الجينات ، أظهر PMP2 أكبر تغيير في التعبير بين الإنسان والفأر وأظهر اختلافًا قويًا في التعبير المشترك في CTX (kMEdiv = 0.54 ص & لتر 0.01). كما هو مدعوم ببيانات أحادية الخلية ، يرتبط PMP2 بكل من الخلايا النجمية (متوسط ​​WB.M6 kME = 0.48) وخلايا قليلة التغصن (WB.M7 ، يعني kME = 0.29) ، مما قد يحول دون تعيين الوحدة النمطية في مناطق أخرى [7]. بالإضافة إلى هذه الجينات المحددة ، نحدد المئات من الجينات المتباينة بشكل كبير للخلايا النجمية وأنواع الخلايا الأخرى ، والتي قد توضح التجارب الوظيفية تأثير الجينات على جعل نوع الخلية الخاصة بها في الماوس أكثر "بشرية" (ملف إضافي 4: الجدول S3) . على سبيل المثال ، نظرًا لأن التأثير الوظيفي لانتعاش PMP2 كان متواضعًا نسبيًا [19] ، فإننا نتوقع أن تنظيم جينات إضافية قد يسمح لأنواع الخلايا البشرية والفأرية أن تصبح قابلة للمقارنة بشكل متزايد.

يمكن أن يبرز تقييم أفضل 100 زوج جيني متباين من كل وحدة إجماع "الدماغ الكامل" وظائف جديدة خاصة بالإنسان لكل نوع خلية (ملف إضافي 7: الجدول S6). تقترح الجمعيات الخاصة بالإنسان لناقلات الغلوتامات SLC1A3 و SLC1A2 (EAAT1 / EAAT2) في الوحدة النجمية WB.M6 بشري تتمتع الخلايا النجمية بقدرة متزايدة على توفير الغلوتامات للخلايا العصبية المجاورة. ترتبط العديد من الجينات شديدة التباين لوحدة قليلة التغصن WB.M7 (على سبيل المثال ، PSEN-1 ، HSPA2) بمرض الزهايمر (AD) [40 ، 75]. علاوة على ذلك ، يشير الاختلاف القوي لأزواج الجينات WB.M7 المشاركة في استقلاب الكارنوزين (CARNS1 ، CNDP1) والنحاس (SLC31A2) إلى دور خاص بالإنسان لاستتباب المعادن في الخلايا قليلة التغصن. بالإضافة إلى ذلك ، فإن جين خطر الإصابة بمرض الزهايمر TREM2 [76] يتواجد بين الجينات شديدة التباين WB.M10. تشكل جينات الشلال التكميلية C1QA-C و C3 و C3AR1 أيضًا العديد من أزواج الجينات شديدة التباين داخل الوحدة النمطية الدبقية الصغيرة M10 ، مما يشير إلى دور خاص بالإنسان للتشذيب المتشابك بوساطة تكميلية في الخلايا الدبقية الصغيرة ، والتي قد يكون لها آثار على كليهما. الفيزيولوجيا المرضية لمرض AD و ASD [77 ، 78].

نحدد العشرات من الجينات المرتبطة حاليًا بخطر الإصابة بالاضطرابات التنكسية العصبية والنمائية العصبية التي يختلف تعبيرها المشترك بشكل كبير عن الماوس (ملف إضافي 9: الجدول S8). بشكل ملحوظ ، يظهر alpha-synuclein (SNCA) ، وهو جين خطر PD ، تباعدًا بشكل أساسي في المادة السوداء - المنطقة الأولى التي تظهر انحطاطًا في مرضى PD [79]. أظهر Presenilin-1 (PSEN-1) ، وهو جين خطر للإصابة بمرض الزهايمر ، تباعدًا عن الماوس عبر العديد من مناطق الدماغ ، ولكن تم حفظه في NHP. كل من PAX6 و ERLIN2 ، في الوحدة النجمية WB.M6 ، متورطان في الإعاقة الذهنية ويعرضان اختلافًا في التعبير المشترك عبر جميع مناطق القشرة الدماغية. كان SHANK3 من بين 57 جينًا آخر من الجينات الخطرة لاضطراب طيف التوحد ("الطرق والمواد" [46،47،48]) ، حيث أظهر تباعدًا كبيرًا في kME في منطقة دماغية واحدة على الأقل ونقدم قائمة كاملة في الجدول S8. والجدير بالذكر أن بياناتنا تقدم دليلًا قويًا على أن بعض المسارات البيولوجية الأساسية التي يشارك فيها SHANK3 متباينة أيضًا ، مما يشير إلى أن النمذجة في الرئيسيات أو الإنسان في الأنظمة المختبرية من المرجح أن تلخص بدقة أكبر فيزيولوجيا المرض. تُظهر هذه النتائج معًا عددًا من الجينات التي تساهم في الإصابة بأمراض الإنسان ، ولكن من غير المرجح أن يتم إعادة تلخيص وظيفتها بأمانة في الفئران.

النماذج المختبرية لأنواع الدماغ والخلايا البشرية

تقدم التطورات الحديثة في النمذجة المخبرية للدماغ البشري القدرة على نمذجة وظائف الدماغ البشري في طبق [50،51،52،53]. أعادت العضيات القشرية إعادة تلخيص الخلايا النجمية والدبقية النشطة ومعظم إشارات التعبير المشترك للخلايا العصبية في الجسم الحي. على الرغم من أنه لم يتم التقاط تواقيع الخلايا الدبقية قليلة التغصن والتوقيعات الدبقية الصغيرة المتجانسة ، يجب أن تحاول التحليلات المستقبلية دمج هذه الأنواع من الخلايا بشكل مناسب [60 ، 80]. حاليًا ، نظرًا لأن دماغ الفأر المتقدم في السن قد نجح في إعادة تلخيص توقيع التعبير المشترك الدبقي الدبقي ، فقد تكون بعض العمليات ذات الصلة بالدبق الصغير أكثر ملاءمة للدراسة في الفئران المسنة. ولكن بمجرد أن يتم دمج الخلايا الدبقية الصغيرة بأمانة في النماذج العضوية ثلاثية الأبعاد ، يجب اختبار حفظها بعناية [80 ، 81]. الميزة الأكثر بروزًا للعضويات القشرية مقارنة بالماوس هي التلخيص الصادق للخلايا النجمية البشرية ، والتي يبدو أنها نموذج للخلايا النجمية البشرية بشكل مشابه لـ NHP في الجسم الحي. على سبيل المثال ، ARHGEF6 ، وهو عضو في الوحدة النجمية WB.M6 يرتبط بالتخلف العقلي المرتبط بـ X ويتم الحفاظ عليه بشكل أكبر في العضيات أكثر من الفئران ، مما يجعل العضيات نموذجًا مفضلًا لدراسة الآليات الكامنة وراء دور هذا الجين في المرض.

ومن المثير للاهتمام ، أن علامات الخلايا النجمية (و oligodendrocyte) المشتقة من تجارب الفرز [30] لم تظهر تباعدًا قويًا في التعبير المشترك من الإنسان إلى الفأر (ملف إضافي 1: الشكل S2D). تم فرز أنواع الخلايا هذه بناءً على علامات HepaCam و GalC على التوالي ، وبالتالي ربما لم تلتقط جميع المجموعات الفرعية الدبقية ، والتي ربما يمثل بعضها جوانب أكثر تباينًا خاصة بالإنسان من البيولوجيا الدبقية. بدلاً من ذلك ، قد يؤدي التحليل المناعي واستنبات الخلايا النجمية البشرية إلى إزالتها من حالتها المثلى من الناحية الفسيولوجية في بيئة ثلاثية الأبعاد وتسبب في فقدها لخصائصها الخاصة بالإنسان ، من حيث النسخ والوظيفة. ومن المثير للاهتمام ، أن الفئران التي لديها أسلاف بشرية وخلايا نجمية مطعمة في الدماغ أظهرت تعزيزًا لكل من اللدونة المعتمدة على النشاط والتعلم [82]. لذلك ، على الرغم من أن البيئة الفسيولوجية قد تكون مهمة للخلايا النجمية لإظهار مكوناتها الخاصة بالبشر ، فقد تكون هذه البيئة مشتركة إلى حد ما بين الدماغ البشري ، والعضويات القشرية ، ودماغ الفأر.

القيود والمزيد من العمل

تسلط هذه الدراسة الضوء على عدد من الاختلافات النسخية بين الأنواع ، خاصةً لأنواع الخلايا الدبقية. من المحتمل أن تكون معظم الاختلافات المحددة بسبب الاختلافات التطورية بين الأنواع ، ومع ذلك ، لا يمكننا استبعاد تأثير العوامل الخارجية المربكة مثل البيئة أو النظام الغذائي أو الحالة المؤلمة. على سبيل المثال ، نظرًا لظروف السكن المعقمة للفئران ، نفترض أن الاختلافات المناعية في الإنسان يمكن أن تكون بسبب ظروف غير معقمة. لا يمكننا استبعاد بعض مساهمة الاختلافات البيئية في تباين هذا التوقيع الدبقي المنشط. لكن من المهم ملاحظة أنه بغض النظر عن السبب ، لا يتم التقاط حالة الخلية هذه في الماوس. للتخفيف من المساهمة الرئيسية أو الواسعة الانتشار للتأثيرات البيئية في هذه الاختلافات ، نجد أن اختلاف التعبير المشترك كان مرتبطًا ارتباطًا وثيقًا باختلاف التسلسل ، والذي من شأنه أن يقود التنظيم التفاضلي للتعبير الجيني [38 ، 83]. علاوة على ذلك ، لاحظنا أن هذا التوقيع الدبقي الصغير المنشط لم يكن خاصًا بالبشر ، ولكن لوحظ أيضًا في NHP الموجود في ظروف معملية.

ركزنا أيضًا على العلاقات بين أخصائي تقويم العظام ، والتي تمثل أكثر من 90٪ من العلاقات الجينية بين الإنسان والفأر. هذا التركيز على أخصائيي تقويم الأسنان الفرديين ساعد بشكل كبير في تبسيط تفسير الحفاظ على التعبير المشترك بين الأنواع. على الرغم من صغر عددها نسبيًا ، إلا أن الجينات ذات أخصائيي تقويم العظام المميزين في أحد الأنواع أو الأنواع الأخرى من المرجح أن تكون متباعدة مما يشير إلى أن تحليلنا قد يقلل من مدى الاختلاف النسبي بين الأنواع [84]. يمكن للعمل المستقبلي تقييم مدى ملائمة أخصائيي تقويم العظام داخل إطار التعبير المشترك المحدد هنا [85].

بالإضافة إلى ذلك ، لتقييم الحفاظ على الوحدة النمطية ، فإننا نستخدم مزيجًا من العديد من مجموعات بيانات تعبير الاختبار التي لم يتم اختبارها بشكل موحد في جميع مناطق الدماغ في هذه الدراسة. لذلك ، قد يستخدم الحفاظ على الوحدة النمطية لكل منطقة دماغية مجموعة مختلفة من مجموعات بيانات الاختبار ، والتي قد تختلف باختلاف إعداد العينة أو النقطة الزمنية التنموية أو الحالة البيئية. لتقييم تأثير اختيار الدراسة على الاختلاف الإقليمي ، تراجعنا عن أي تأثيرات "خاصة بالدراسة" عند اختلاف الوحدة النمطية ولاحظنا أن الاختلاف الإقليمي بعد انحدار الدراسة يرتبط بدرجات الاختلاف الإقليمي الخام (ملف إضافي 1: الشكل S1E). يشير هذا إلى أن التوزيع غير المنتظم لمجموعات بيانات التعبير عن الاختبار عبر مناطق الدماغ لا يؤدي إلى تحيز درجات الحفظ الإقليمية ، على الرغم من أنه قد لا يزال هناك ارتباك صغير بين منطقة الدماغ والعوامل الكامنة وراء تصميم الدراسة. نقوم بإجراء التباديل على مستوى الدراسة لحساب فروق التباعد الخاصة بالمنطقة لمزيد من الاعتبار للتباين في اختيار الدراسة للتخفيف من هذه المشكلة.

توفر هذه الدراسة مقارنة متعددة المناطق ومتعددة الأنواع للتباعد التطوري لشبكات النسخ المتولدة من دماغ الإنسان البالغ. ومع ذلك ، فإن الدماغ موجود أيضًا في ظل عدد من الحالات التنموية المختلفة أو الظروف البيئية ، والتي ستحتاج إلى مزيد من التحقيق لتحقيق فهم أكثر اكتمالاً لاختلافات الأنواع. ومع ذلك ، فإن هذه التحليلات ، المستندة إلى عشرات مجموعات البيانات ومناطق الدماغ المتعددة ، توفر إطارًا قويًا لفهم الاختلافات الرئيسية بين الأنواع.


عينة من الطفرات المرصودة

رقم (ط)المرجعيعينةغير مجهول (nd)مرادف (sd)
1ATGATG00
2AAAAAA00
3CCCCGC10
4GGGGGC01
5TTTتاك11
6TAATAA00
المجموع 2 (بدون تاريخ)2 (اس دي)

فيما سبق ، هناك ثلاثة أكواد لها طفرات:

Codon 3: CCC (pro) - & gt CGC (arg): يحتوي هذا على طفرة نوكليوتيد واحدة (المسافة = 1) مما يؤدي إلى استبدال AA غير مجهول ، وبالتالي ند = 1 و سد = 0 لهذا الكودون.

Codon 4: GGG (gly) -> GGC (gly): This has a single nucleotide mutation (distance = 1) resulting in a synonymous AA substitution, and therefore ند = 0 and سد = 1 for this codon.

Codon 5: TTT (phe) -> TAC (tyr): This has two nucleotide mutations (distance = 2) and is a nonsynonymous AA substitution. However, due to the double mutation it is a more complex situation, as one must consider the two mutation pathways that could have led to this state (you can not assume that as the AA is nonsynonymous then both mutations are nonsynonymous):

  1. TTT (phe) –> TAT (tyr) -> TAC (tyr): 1 nonsynonymous and 1 synonymous mutation
  2. TTT (phe) –> TTC (phe) -> TAC (tyr): 1 synonymous and 1 nonsynonymous mutation
  • As we consider the two above pathways to occur with equal probability, for this codon ند = 1 and سد = 1 (sums to two as we have two mutations in the codon).

Hypothetically, let us expand the example above to a three mutation (distance = 3) situation from TTT (phe) to GAC (asp). A three mutation situation results in 6 possible mutation pathways:

  1. TTT (phe) -> TTC (phe) -> TAC (tyr) -> GAC (asp): 2ن و 1س
  2. TTT (phe) -> TTC (phe) -> GTC (val) -> GAC (asp): 2ن و 1س
  3. TTT (phe) -> TAT (tyr) -> TAC (val) -> GAC (asp): 3ن
  4. TTT (phe) -> TAT (tyr) -> GAT (val) -> GAC (asp): 3ن
  5. TTT (phe) -> GTT (val) -> GTC (val) -> GAC (asp): 2ن و 1س
  6. TTT (phe) -> GTT (val) -> GAT (val) -> GAC (asp): 2ن و 1س
  • As we consider the six above pathways to occur with equal probability, for this codon ند = 2.333 and سد = 0.666 (sums to three as we have three mutations in the codon).

So, for a protein encoding DNA sequence of length ص codons, the total number of observed nonsynonymous (ند) and synonymous (سد) mutations between two sequences can therefore be calculated by summing up the individual ند و سد values from all codons using the formulas:

One then calculates the proportion of nonsynonymous (صن) and synonymous (صس) differences with the following equations:

Then to estimate the number of nonsynonymous substitutions (دن) and synonymous substitutions (دس) per site, and the dN/dS ratio itself, we use the formulas:

So using our reference and sample sequence examples above we now have the following values:

  • ن = 14.666
  • س = 3.333
  • ند = 2
  • سد = 2
  • صن = 0.1364
  • صس = 0.6001
  • دن = 0.1505
  • دس = 1.2074
  • dN/dS = 0.1247

NGS Datasets

The expansion of all of the above to NGS datasets is relatively straightforward. The calculation of the number of nonsynonymous and synonymous sites in the reference sequences proceeds the same as above.

One must then calculate the number of observed nonsynonymous and synonymous mutations in the reads when compared to the reference (this will need information on where the open reading frame [ORF] starts and stops). There are two options when calculating the observed numbers:

  1. Consider all observed mutations in the reads covering any part of the codon.
  2. Consider only those mutations where the read fully covers the codon the mutation occurs in, i.e. ignore partially covered codons at the read ends, or partially covered codons due to indels.

To adapt to NGS datasets, one must consider read coverage. The approach taken by Morelli et al (2013) adjusts the formula for صن (and likewise صس) as follows to take into account the read coverage (ج) at each codon:

Essentially, for each read (c) that covers a particular codon, the observed number of nonsynonymous mutations in the read compared to the reference codon is calculated, and divided by the expected number. The values for all reads at the codon are then summed and averaged. Then the value for all codons is summed to give a single value for the whole ORF. This value of صن و صس can they be plugged in to the same dN و dS formulas to calculate the dN/dS ratio.


خلفية

Flies in the genus جلوسينا (tsetse flies) are vectors of African trypanosomes, which are of great medical and economic importance in Africa. Sleeping sickness (human African trypanosomiasis or HAT) is caused by two distinct subspecies of the African trypanosomes transmitted by tsetse. In East and Southern Africa, المثقبية البروسية الروديسية causes the acute Rhodesiense form of the disease, while in Central and West Africa تي. ب. gambiense causes the chronic Gambiense form of the disease, which comprises about 95% of all reported HAT cases. Devastating epidemics in the twentieth century resulted in hundreds of thousands of deaths in sub-Saharan Africa [1], but more effective diagnostics now indicate that data concerning sleeping sickness deaths are subject to gross errors due to underreporting [2]. With hindsight, it is thus reasonable to infer that in reality, millions may have died from sleeping sickness since the implementation of trypanosomiasis surveillance and record-keeping by African colonial powers at the beginning of the twentieth century. Loss of interest and funding for control programs within the endemic countries resulted in a steep rise in incidence after the post-independence period of the 1960s. In an ambitious campaign to control the transmission of trypanosomiasis in Africa, multiple groups came together in a public/private partnership. These include the WHO, multiple non-governmental organizations, Sanofi Aventis, and Bayer. The public sector groups developed and implemented multi-country control strategies, and the companies donated the drugs required for the treatment of the disease. The campaign reduced the global incidence of Gambiense HAT to < 3000 cases in 2015 [3]. Based on the success of the control campaign, there are now plans to eliminate Gambiense HAT as a public health problem by 2030 [4]. In contrast, control of Rhodesiense HAT has been more complex as disease transmission involves domestic animals, which serve as reservoirs for the parasite. Hence, the elimination of the Rhodesiense disease will require treatment or elimination of domestic reservoirs and/or reduction of tsetse vector populations. These strategies play a key part while medical interventions are used largely for humanitarian purposes. In addition to the public health impact of HAT, animal African trypanosomiasis (AAT or nagana) limits the availability of meat and milk products in large regions of Africa. It also excludes effective cattle rearing from ten million square kilometers of Africa [5] with wide implications for land use, i.e., constraints on mixed agriculture and lack of animal labor for plowing [6]. Economic losses in cattle production are estimated at 1–1.2 billion US dollars, and total agricultural losses caused by AAT are estimated at 4.75 billion US dollars per year [7, 8].

Achieving disease control in the mammalian host has been difficult given the lack of vaccines. This is due to the process of antigenic variation the parasite displays in its host. Hence, accurate diagnosis of the parasite and staging of the disease are important. This is of particular importance due to the high toxicity of current drugs available for the treatment of late-stage disease although the introduction of a simpler and shorter nifurtimox and eflornithine combination therapy (NECT) [9] and discovery of new oral drugs, such as fexinidazole [10] and acoziborole, are exciting developments. Although powerful molecular diagnostics have been developed in research settings, few have yet to reach the patients or national control programs [11]. Further complicating control efforts, trypanosomes are showing resistance to available drugs for treatment [12, 13]. While vector control is essential for zoonotic Rhodesiense HAT, it has not played a major role in Gambiense HAT as it was considered too expensive and difficult to deploy in the resource-poor settings of HAT foci. However, modeling, historical investigations, and practical interventions demonstrate the significant role that vector control can play in the control of Gambiense HAT [14,15,16], especially given the possibility of long-term carriage of trypanosomes in both human and animal reservoirs [17, 18]. The African Union has made removal of trypanosomiasis via tsetse fly control a key priority for the continent [19].

في حدود Glossinidae, 33 extant taxa are described from 22 species in 4 subgenera. The first three sub-genera Austenina Townsend, Nemorhina Robineau-Desvoidy, and جلوسينا Wiedemann correspond to the Fusca, Palpalis، و Morsitans species groups, respectively [20]. The fourth subgenus Machadomia was established in 1987 to incorporate G. austeni. The relationship of G. austeni Newstead with respect to the Palpalis و Morsitans complex flies remains controversial [21]. While molecular taxonomy shows that Palpalis و Morsitans species groups are monophyletic, the Fusca species group emerges as a sister group to all remaining Glossinidae [22]. Morsitans group taxa are adapted to drier habitats relative to the other two subgenera [23]. Palpalis group flies tend to occur in riverine and lacustrine habitats. Fusca group flies largely inhabit moist forests of West Africa. The host specificity of the different species groups vary, with the Palpalis group flies displaying strong anthropophily while the others are more zoophilic in preference. The principal vectors of HAT include G. palpalis s.l., G. fuscipes، و G. m. morsitans م. The riverine habitats of Palpalis group flies and their adaptability to peridomestic environments along with human blood meal preferences make them excellent vectors for HAT. Other species belonging to the Morsitans group (such as G. pallidipes) can also transmit human disease, but principally play an important role in AAT transmission. خاصه، G. pallidipes has a wide distribution and a devastating effect in East Africa. Also, of interest is G. brevipalpis, an ancestral tsetse species within the Fusca species complex. This species exhibits poor vectorial capacity with T. بروسي على صلة قربى ب G. m. morsitans in laboratory infection experiments using colonized fly lines [24]. Comparison of the susceptibility of G. brevipalpis إلى المثقبية الكونغولية (a species that acts as a major causative agent of AAT) also showed it has a much lower rate of infection relative to Glossina austeni [25].

To expand the genetic/genomic knowledge and develop new and/or improved vector control tools, a consortium in 2004, the International Glossina Genome Initiative (IGGI), was established to generate genetic and molecular resources for the tsetse research community [26]. The first tsetse fly genome from the Glossina m. morsitans species was published in 2014 [27]. However, questions regarding the genetics underlying tsetse species-specific traits, such as host preference and vector competence, required additional context. As such, we have assembled genomes from four species representing the three major جلوسينا sub-genera: Morsitans (G. m. morsitans, G. pallidipes), Palpalis (G. palpalis, G. fuscipes)، و Fusca (G. brevipalpis) as well as one species with conflicted phylogenetic associations Morsitans/Machadomia (G. austeni). These species represent flies with differences in geographical localization, ecological preferences, host specificity, and vectorial capacity (Fig. 1). Here, we report on the evolution and genetics underlying this genus by comparison of their genomic architecture and predicted protein-coding sequences as well as highlighting some of the genetic differences that hold clues to the differing biology between these species.

Geographic distribution, ecology, and vectorial capacity of sequenced جلوسينا محيط. Visual representation of the geographic distribution of the sequenced جلوسينا species across the African continent. Ecological preferences and vectorial capacities are described for each associated group


As a boy, Francis Crick had a keen interest in physics, chemistry, and mathematics. Before World War II, he studied physics at University College in London. For two years after the war he was admitted to the British Admiralty Research Laboratory. He was influenced by the works of Erwin Schrödinger to alter his professional career from physics to biology.

After working at a Cambridge University laboratory he joined Cavendish Laboratory at Cambridge in 1949. The scope of his learning included biology, organic chemistry, protein structure and x-ray diffraction technology. In 1951, he was joined by James Watson. Both of them worked closely and presented their visual model of DNA in 1953. They shared Nobel Prize in 1962. He continued his professional career in various institutions and authored couple of books in later years.


Who invented dN/dS? - مادة الاحياء

OLGenie is a Perl program for estimating دن/دس to detect selection and function in overlapping genes (OLGs). It relies on no external dependencies, facilitating maximum portability. Just download and run.

To test the software with the example data, execute the program at the Unix command line or Mac Terminal as follows:

Find some real examples below. For more details, check out our Advance Access paper في علم الأحياء الجزيئي والتطور.

Given the codon triplet and antiparallel nature of the genetic code, a single segment of double-stranded nucleic acid has the potential to encode six reading frames: three in the forward (sense) direction and three in the reverse (antisense) direction. This allows for the possibility that two or more genes may overlap the same nucleotide positions in a genome. Indeed, a substantial fraction of genes in taxa ranging from viruses to humans may encode overlapping gene (OLG) pairs, running in either the same (ss sense-sense) or opposite (sas sense-antisense) directions (على سبيل المثال, see Pavesi وآخرون. 2018 and Sabath 2009). We use the nomenclature of Wei and Zhang (2015), referring to these overlapping frames as ss12, ss13, sas11, sas12, or sas13, where the first number refers to the codon position in a reference gene, and the second number refers to the codon position in an alternate (overlapping) gene:

The choice of which gene to consider the reference gene is arbitrary. عادةً ما يكون ملف reference gene (mother/ORF1 gene) is the gene whose functional status is known, while the functionality of the alternate gene (daughter/ORF2 gene) may be in question. Thus, in practice, the reference gene is usually larger than the alternate gene, and the alternate gene is either partially or fully embedded within the reference. For example, in sas12, genes overlap in a sense-antisense relationship such that position 1 of codons in the sense (reference) gene correspond to position 2 of codons in the reverse strand (alternate) gene. In other words, the sense gene's first codon position overlaps the antisense gene's second codon position:

It is common to detect natural selection in a DNA sequence alignment using دن/دس, بمعنى آخر., the ratio of nonsynonymous (changes the amino acid) to synonymous (does not change the amino acid) differences per site. في حين دن/دس = 1 implies neutrality (بمعنى آخر., the null hypothesis of no effect), negative (purifying) selection may lead to دن/دس < 1 and positive (Darwinian) selection may lay to دن/دس > 1. Thus, دن/دس can be used to detect functional protein-coding genes. Unfortunately, standard methods for estimating دن/دس do not apply to OLGs, because a mutation that is synonymous in one frame may be nonsynonymous in another, and والعكس صحيح. Although some methods for detecting natural selection in OLGs have been developed, they are generally computationally intensive and limited in utility (على سبيل المثال, Wei and Zhang 2015 Sabath وآخرون. 2008). Thus, it is necessary to develop improved approaches for detecting selection in OLGs that can be implemented with genome-scale data.

OLGenie represents a simplification and extension of the method of Wei and Zhang (2015), utilizing the approach of SNPGenie (Nelson وآخرون. 2015), and tailored for detecting selection in OLGs. The method considers the effects of mutations in the overlapping frame to determine the numerator (number of differences) and denominator (number of sites) of دن و دس. على سبيل المثال، دن is usually calculated as the mean number of nonsynonymous nucleotide differences per nonsynonymous nucleotide site, and دس is similarly calculated for synonymous differences and sites. In order to control for the possibility that synonymous sites in the frame of interest may be under selection in the alternate overlapping reading frame, Wei-Zhang further considers the expanded measures دNN, دSN, دNS، و دSS, where the first subscript refers to the reference gene, and the second to the alternate gene. على سبيل المثال، دSN refers to the mean number of differences per site that are synonymous in the reference frame but nonsynonymous in the alternate frame (بمعنى آخر., SN). Using these measures, it is possible to estimate دن/دس for the reference gene using دNN/دSN أو دNS/دSS, and to estimate دن/دس for the alternate gene as دNN/دNS أو دSN/دSS, بمعنى آخر., the subscript in the alternate OLG is held constant to control for OLG effects.

For more details, please refer to our manuscript.

OLGenie is written in Perl with no dependencies for maximum portability (just download and run). The program examines a user-provided FASTA alignment of one protein-coding gene region from the reference gene point of view. This means that the alignment begins at the first site of a reference gene codon, and ends at the last (third) site of a reference gene codon. In practice, depending on the goal of the user, the alignment may contain a reference gene in which a smaller OLG is embedded just that portion of a reference gene known to contain an OLG a portion of a reference gene thought not to contain an OLG (بمعنى آخر., a negative control) or a region in which no OLG is known, but one is being sought.

After reading in the user-provided alignment, OLGenie calculates the number of NN, SN, NS, and SS sites and differences, reporting the mean of all pairwise comparisons. This is done separately for each focal reference codon by considering all unique nonamer (9nt) alleles of which the reference codon is the center, and of which 6nt constitute a minimum overlapping unit: one reference gene codon and its two overlapping alternate gene codons. (Note that sas13 is unique in that one reference codon overlaps exactly one alternate codon.) OLGenie is sufficiently fast that these tasks require no parallelism beyond the level of the single gene alignment. Thus, for datasets with many genes, the user can implement their own parallelization by running numerous alignments (genes) simultaneously.

After results are obtained for each focal codon in the alignment, significant deviations from the null expectation of neutrality (دن - دس = 0) may be tested using a ض-test, where the standard error is estimated using bootstrapping (focal codon unit). Don't worry — we provide scripts to do it all!

مكالمة OLGenie using the following options:

  • --fasta_file (مطلوب): a FASTA file containing multiple aligned sequences of one coding sequence. The entire coding sequence will be analyzed as an OLG, even if only part (or none) of the alignment constitues a true OLG. The frame of the alignment must be the frame of the reference gene (see the --frame option). If the user wishes to align their own sequences, it is recommended to translate the gene sequences, align at the amino acid level, and then impose the amino acid alignment on the DNA alignment to preserve complete codons. (If you need a tool to help with this, see align_codon2aa.pl at Evolutionary Bioinformatics Toolkit.)
  • --frame (مطلوب): the frame relationship of the overlapping gene (OLG): ss12, ss13, sas11, sas12, or sas13 (see description above).
  • --output_file (OPTIONAL): name of the TAB-delimited output file to be placed in the working directory unless a full path name is given. If not specified, a file will be printed in the working directory by the name OLGenie_codon_results.txt (DEFAULT).
  • --verbose (OPTIONAL): tell OLGenie to report all unique nonamers (9nt) overlapping each reference codon, along with their counts, in the output file. May lead to large output files in cases with many and/or divergent sequences. If not specified, verbose output will not be reported (DEFAULT).

Example input and output files for OLGenie.pl are available in the EXAMPLE_INPUT and EXAMPLE_OUTPUT directories at this GitHub page, where reproducible examples are numbered (على سبيل المثال, example1.out). This script produces TAB-delimited output with one row for each (non-terminal) codon, with columns as described in the Codon Results Output File section.

Note that, if your input file(s) (على سبيل المثال, alignment.fasta) are not in the working directory (بمعنى آخر., where your Terminal is currently operating), you will need to specify the full path of the file name (على سبيل المثال, /Users/ohta/Desktop/OLGenie_practice/alignment.fasta). Also note that, in the examples below, a is used simply to continue the previous command on the line.

Note that this is a 'real' example and may take up to 60 seconds!

EXAMPLE 2: VERBOSE OUTPUT TO A USER-SPECIFIED FILE

Remember to replace the --output_file path with a location that exists on your machine.

EXAMPLE 3: TESTING FOR SIGNIFICANCE WITH BOOTSTRAPPING

Use our script OLGenie_bootstrap.R . We provide this script separately so that users can take advantage of the accessible statistical resources offerred by R without having to install Perl modules. Just make sure the R packages readr and boot have been installed (على سبيل المثال, by calling install.packages("readr") and install.packages("boot") at the R console).

Call the script with the following 3-6 (unnamed) arguments (in this order):

  1. CODON RESULTS FILE. The name/path of the file containing the codon results file from the OLGenie analysis. This file must not have been modified, and should only contain the results for one analysis (i.e., one gene product and frame).
  2. MINIMUM NUMBER OF DEFINED CODONS PER CODON POSITION (≥2 موصى به=6). Alignment positions with very few defined (non-gap, non-ambiguous) codons may be prone to erroreous دن/دس estimates.
  3. NUMBER OF BOOTSTRAP REPLICATES (≥2 موصى به=10000). The number of bootstrap replicates to perform (typically 1,000 or 10,000).
  4. NUMBER OF CPUS (OPTIONAL ≥1 DEFAULT=1). The number of parallel processes (CPUs) to use when bootstrapping. A typical personal laptop computer can utilize 4-8 CPUs, while a high performance computing cluster might provide access to 10s or 100s.
  5. MULTIPLE HITS CORRECTION (OPTIONAL "NONE" or "JC" DEFAULT=NONE). When the raw ص-distance (mean number of pairwise differences per site) exceeds 0.1, the possibility that sites have undergone multiple hits (recurrent changes at the same hit which cannot be measured) increases. Although no known correction is technically applicable to overlapping genes, we offer Jukes-Cantor as an option.
  6. STRING TO PREPEND TO OUTPUT LINES (OPTIONAL DEFAULT="").

For example, try the following using the results from Example 2:

This produces TAB-delimited output, as described in the Bootstrap Output section.

EXAMPLE 4: SLIDING WINDOWS WITH BOOTSTRAPPING

Use our script OLGenie_sliding windows.R . Make sure the R packages dplyr , readr , stringr , and boot have been installed (على سبيل المثال, by calling install.packages("boot") at the R console).

Call the script with the following 5-10 (unnamed) arguments (in this order):

  1. CODON RESULTS FILE. The name/path of the file containing the codon results file from the OLGenie analysis (OLGenie_codon_results.txt). This file must not have been modified, and should only contain the results for one analysis (i.e., one gene product and frame).
  2. NUMERATOR SITE TYPE. NN, SN, or NS.
  3. DENOMINATOR SITE TYPE. SN, NS, or SS.
  4. SLIDING WINDOW SIZE. Measured in CODONS must be ≥2 ≥25 recommended.
  5. SLIDING WINDOW STEP SIZE. Measured in CODONS must be ≥1.
  6. NUMBER OF BOOTSTRAP REPLICATES PER WINDOW (OPTIONAL ≥2 DEFAULT=1000).
  7. MINIMUM NUMBER OF DEFINED CODONS PER CODON POSITION (OPTIONAL ≥2 DEFAULT=6).
  8. MULTIPLE HITS CORRECTION (OPTIONAL "NONE" or "JC", Jukes-Cantor DEFAULT=NONE). Keep in mind that no correction is truly applicable to OLGs.
  9. NUMBER OF CPUS (OPTIONAL ≥1 DEFAULT=1). A typical personal laptop computer can utilize 4-8 CPUs, while a high performance computing cluster might provide access to 10s or 100s.
  10. STRING TO PREPEND TO OUTPUT LINES (OPTIONAL DEFAULT="").

For example, a real command might look like the following:

This produces TAB-delimited انتاج, as described in the Sliding Window Output section. The output file is placed within the same directory using the name of the input file as a prefix, but adding the suffix *_WINDOWS_<RATIO>.tsv .

OLGenie outputs the following data:

At the command line (Terminal), OLGenie will first report the date and time, the file and frame relationship used in the analysis, and any warning messages. Following completion of the analysis, OLGenie will report the following summary statistics:

  • Mean numbers of sites and differences: the total numbers of NN, SN, NS, and SS sites and differences for the entire alignment, obtained by summing the results for all codons.
  • Mean substitution rates (between-species) or nucleotide diversities (within-species):: OLGenie's estimates of دNN, دSN, دNS، و دSS for the entire alignment, calculated as (*_diffs / *_sites) for each site type.
  • dN/dS estimates: OLGenie's estimates of دن/دس for the reference gene (دNN/دSN, دNS/دSS) and alternate gene (دNN/دNS و دSN/دSS) for the entire alignment.

Codon Results Output File

OLGenie will report codon-by-codon results in the file OLGenie_codon_results.txt (or any file specified with the --output_file option). The columns contain the following information:

  • codon_num : the codon position in the alignment, starting at codon 2 and ending at the penultimate codon. The first and last codons are excluded because their values cannot be estimated, as one of their overlapping (alternate gene) codons is unknown, occurring before or after the alignment begins or ends, respectively. (Note that sas13 is an exception.)
  • ref_codon_maj : the major (most common) allele for the reference gene codon at this position.
  • alt_codon1_maj : the major (most common) allele for the alternate gene codon overlapping the beginning (5' side) of the reference codon at this position.
  • alt_codon2_maj : the major (most common) allele for the alternate gene codon overlapping the end (3' side) of the reference codon at this position. Note that only alt_codon1_maj will be reported for the sas13 frame, since OLG codons form one-to-one overlaps in this frame.
  • nonamers : only included when using the --verbose option. This column contains all unique nonamer (9nt) alleles occuring at this position, with the reference focal codon at the center. Different alleles are separated using the colon ( : ) delimiter.
  • nonamer_counts : only included when using the --verbose option. This column contains the counts (number of sequences) having each unique nonamer (9nt) allele at this position, in the same order given in the nonamers column. Values for different alleles are separated using the colon ( : ) delimiter.
  • multiple_variants : whether the nonamer at this position contains more than one nucleotide variant. If so, the OLGenie method may underestimate دس at this position. في هذه الحالة ، فإن ملف دن/دس ratio will constitute a conservative test of purifying (negative) selection, but positive (Darwinian) selection should be inferred with caution.
  • NN_sites : the number of sites (بمعنى آخر., possible nucleotide changes) that are nonsynonymous in both the reference and alternate genes at this reference codon.
  • SN_sites : the number of sites (بمعنى آخر., possible nucleotide changes) that are synonymous in the reference gene but nonsynonymous in the alternate gene at this reference codon.
  • NS_sites : the number of sites (بمعنى آخر., possible nucleotide changes) that are nonsynonymous in the reference gene but synonymous in the alternate gene at this reference codon.
  • SS_sites : the number of sites (بمعنى آخر., possible nucleotide changes) that are synonymous in both the reference and alternate genes at this reference codon.
  • NN_diffs : the number of differences (بمعنى آخر., observed nucleotide changes) that are nonsynonymous in both the reference and alternate genes at this reference codon.
  • SN_diffs : the number of differences (بمعنى آخر., observed nucleotide changes) that are synonymous in the reference gene but nonsynonymous in the alternate gene at this reference codon.
  • NS_diffs : the number of differences (بمعنى آخر., observed nucleotide changes) that are nonsynonymous in the reference gene but synonymous in the alternate gene at this reference codon.
  • SS_diffs : the number of differences (بمعنى آخر., observed nucleotide changes) that are synonymous in both the reference and alternate genes at this reference codon.

Note that any desired estimate of دن, دس, or their ratio can be obtained for any subregion of the alignment by summing the appropriate numbers of sites and differences and performing the appropriate calculations. For example, to calculate the alternate gene دن/دس = دSN/دSS ratio for a 25-codon window within an alignment:

  1. احسب دSN as sum( SN_diffs )/sum( SN_sites ) for those 25 codons
  2. احسب دSS as sum( SS_diffs )/sum( SS_sites ) for those 25 codons and
  3. Calculate the دSN/دSS القيمة.

Significant deviations from neutrality (دن - دس = 0) can be detected using a ض-test, where the standard error of دن - دس is estimated using bootstrapping (reference codon unit) (Nei and Kumar 2000). Consider using our R script, OLGenie_bootstrap.R (see examples). This produces four lines of output, one for each of the four ratios: دNN/دSN, دNN/دNS, دNS/دSS، و دSN/دSS. Columns of values are given in the following order (numbered here for clarity, as these headers do not appear in the output):

  1. num_codons : the total number of codons examined.
  2. NN_sites : see the description of the codon output file.
  3. SN_sites : see the description of the codon output file.
  4. NS_sites : see the description of the codon output file.
  5. SS_sites : see the description of the codon output file.
  6. NN_diffs : see the description of the codon output file.
  7. SN_diffs : see the description of the codon output file.
  8. NS_diffs : see the description of the codon output file.
  9. SS_diffs : see the description of the codon output file.
  10. ratio : the ratio being estimated on this line: dNNdSN denotes دNN/دSN dNNdNS denotes دNN/دNS dNSdSS denotes دNS/دSS and dSNdSS denotes دSN/دSS.
  11. site_rich_ratio : whether this is the most site-rich ratio (حقيقية أو خاطئة). Note that, for sas12, the more accurate ratios (دNS/دSS و دSN/دSS) are not the most site-rich.
  12. gene : whether this line is an estimate of دن/دس for the reference gene (ORF1) or the alternate gene (ORF2).
  13. num_replicates : number of bootstrap replicates performed.
  14. dN : the point estimate of دن (numerator of ratio ).
  15. dS : the point estimate of دس (denominator of ratio ).
  16. dNdS : the point estimate of دن/دس (value of ratio ).
  17. dN_m_dS : the point estimate of دن - دس.
  18. boot_dN_SE : the standard error of mean دن, estimated by bootstrapping.
  19. boot_dS_SE : the standard error of mean دس, estimated by bootstrapping.
  20. boot_dN_over_dS_SE : the standard error of mean دن/دس, estimated by bootstrapping.
  21. boot_dN_over_dS_P : the ص value of a deviation from دن/دس = 1 (two-sided ض-اختبار).
  22. boot_dN_m_dS_SE : the standard error of mean دن - دس, estimated by bootstrapping.
  23. boot_dN_m_dS_P : the ص value of a deviation from دن-دس=0, estimated from the bootstrap SE (two-sided ض-اختبار). (Recommended test.)
  24. boot_dN_gt_dS_count : number of bootstrap replicates in which دن& GTدس.
  25. boot_dN_eq_dS_count : number of bootstrap replicates in which دن=دس.
  26. boot_dN_lt_dS_count : number of bootstrap replicates in which دن& ltدس.
  27. ASL_dN_gt_dS_P : one-sided achieved significance level (ASL) ص-value of the null hypothesis that دن& GTدس.
  28. ASL_dN_lt_dS_P : one-sided achieved significance level (ASL) ص-value of the null hypothesis that دن& ltدس.
  29. ASL_dNdS_P : two-sided achieved significance level (ASL) ص-value of the null hypothesis that دن=دس.

The R script OLGenie_sliding_windows.R can be used to compute any of the دن/دس ratio estimators and bootstrap them in one feel swoop (see examples). The output includes all the original columns present in the codon results output file, along with additional columns specific to the sliding windows. وهذه هي:

  • sw_ratio : the overlapping gene دن/دس ratio estimator computed in the analysis, بمعنى آخر., dNNdSN, dNNdNS, dNSdSS, or dSNdSS (denoting دNN/دSN, دNN/دNS, دNS/دSS، و دSN/دSS, respectively).
  • sw_start : first codon included in the window.
  • sw_center : middle codon included in the window.
  • sw_end : last codon included in the window.
  • sw_num_replicates : number of bootstrap replicates.
  • sw_N_diffs : sum of NUMERATOR-type (NN, SN, or NS) differences observed in the window.
  • sw_S_diffs : sum of DENOMINATOR-type (SN, NS, or SS) differences observed in the window.
  • sw_N_sites : sum of NUMERATOR-type (NN, SN, or NS) sites observed in the window.
  • sw_S_sites : sum of DENOMINATOR-type (SN, NS, or SS) sites observed in the window.
  • sw_dN : دن (NUMERATOR) estimate for the window.
  • sw_dS : دس (DENOMINATOR) estimate for the window.
  • sw_dNdS : دن/دس ratio estimate for the window (neutral null expectation: 1).
  • sw_dN_m_dS : دن-دس difference estimate for the window (neutral null expectation: 0).
  • sw_boot_dN_SE : standard error (SE) of mean دن, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dS_SE : standard error (SE) of mean دس, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dN_over_dS_SE : standard error (SE) of mean دن/دس, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dN_over_dS_P : ض-test ص-value of null hypothesis that دن/دس=1, estimated from the bootstrap SE.
  • sw_boot_dN_m_dS_SE : standard error (SE) of mean دن-دس, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dN_m_dS_P : the ص value of a deviation from دن-دس=0, estimated from the bootstrap SE (two-sided ض-اختبار). (Recommended test.)
  • sw_boot_dN_gt_dS_count : number of bootstrap replicates in which دن& GTدس.
  • sw_boot_dN_eq_dS_count : number of bootstrap replicates in which دن=دس.
  • sw_boot_dN_lt_dS_count : number of bootstrap replicates in which دن& ltدس.
  • sw_ASL_dN_gt_dS_P : one-sided achieved significance level (ASL) ص-value of the null hypothesis that دن& GTدس.
  • sw_ASL_dN_lt_dS_P : one-sided achieved significance level (ASL) ص-value of the null hypothesis that دن& ltدس.
  • sw_ASL_dNdS_P : two-sided achieved significance level (ASL) ص-value of the null hypothesis that دن=دس.

إذا كان لديك أسئلة حول OLGenie, please click on the Issues tab at the top of this page and begin a new thread, so that others might benefit from the discussion. Common questions will be addressed in this section.

OLGenie was written with support from a Gerstner Scholars Fellowship from the Gerstner Family Foundation at the American Museum of Natural History to C.W.N. (2016-2019), and is maintained with support from a 中央研究院 Academia Sinica Postdoctoral Research Fellowship (2019-2021). The logo image was designed by Mitch Lin (2019) copyright-free DNA helix obtained from Pixabay. Thanks to Reed Cartwright, Dan Graur, Jim Hussey, Michael Lynch, Sergios Orestis-Kolokotronis, Wen-Hsiung Li, Apurva Narechania, Siegfried Scherer, Sally Warring, Jeff Witmer, Meredith Yeager, Jianzhi (George) Zhang, Martine Zilversmit, and the Sackler Institute for Comparative Genomics workgroup for discussion along the way.

When using this software, please refer to and cite:

إذا كان لديك أسئلة حول OLGenie, please click on the Issues tab at the top of this page and begin a new thread, so that others might benefit from the discussion.


نتائج ومناقشة

Theoretical Model

This section contains a rederivation of results presented by Halpern and Bruno (1998), reproduced here to introduce notation and to place the remainder of our work into context. We model sequence evolution using the Halpern–Bruno MutSel modeling framework under the assumptions of a fixed effective population size نه and constant selection pressure over time ( Halpern and Bruno 1998 Yang and Nielsen 2008 Tamuri et al. 2012 Thorne et al. 2012). This continuous-time reversible Markov process is governed by the 61 × 61 transition matrix T ( t ) = e Q t ⁠ , where the matrix Q = q i j gives the instantaneous substitution probabilities between all 61 sense codons, and diagonal elements of س satisfy q i i = − ∑ i ≠ j q i j ⁠ . We assume that only single-nucleotide substitutions occur instantaneously.


Who invented dN/dS? - مادة الاحياء

Strength of natural selection relative to genetic drift as measured particularly in terms of in populations.

The dN/dS ratio is of nonsynonymous to synonymous substitutions. Since this is post fixation, mutations must survive within populations to be counted.

Synonymous substitions are assumed to be silent and therefore neutral alleles. If so, then genetic drift must have been operating for their fixation to have occurred. Nonsynonymous substitutions by contrast are assumed to impact phenotype. These therefore are less likely to be neutral and as a consequence are more likely than for synonymous substitutions to have become fixed within populations due to the action of directional selection.

This ratio serves as an approximation of the impact of selection on the sequence of protein-encoding genes relative to . The greater the ratio, that is, the more nonsynonymous substitutions relative to synonymous substitutions, the greater the impact of natural selection, particularly in terms of directional selection on .


شاهد الفيديو: ابن الرزاز الجزري. 09 - العصر الذهبي. اول من اخترع الساعة (قد 2022).