معلومة

فتح قواعد البيانات لأرقام النسخ المشابهة لـ TCGA

فتح قواعد البيانات لأرقام النسخ المشابهة لـ TCGA


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

يحتوي أطلس جينوم السرطان (TCGA) على بيانات مفتوحة لتغير رقم النسخ (CNV) لما لا يقل عن 10 آلاف مريض سرطان مختلف. أنها توفر نوعين من البيانات ، وبيانات CNV من الورم وبيانات CNV من عينات الأنسجة الطبيعية. هل توجد أي قواعد بيانات أخرى مفتوحة تقدم بيانات CNV من نوع واحد على الأقل من السرطان؟


يحتوي ICGC على بيانات CNV للعديد من أنواع السرطان المختلفة. لديها العديد من مجموعات البيانات المقيدة والمفتوحة. ستتيح لك صفحة إصدارات DCC البحث من خلالها - يمكن تنزيل الإصدارات العامة بسهولة. لديهم أيضًا تعبير متطابق ، و SNV ، ومثيل الحمض النووي ، وبيانات الطفرات الهيكلية للعديد من العينات.


CODEX2: كشف تباين رقم النسخ كامل الطيف عن طريق تسلسل الحمض النووي عالي الإنتاجية

يتيح تسلسل الحمض النووي عالي الإنتاجية اكتشاف الاختلافات في عدد النسخ (CNVs) على نطاق الجينوم بدقة أكثر دقة مقارنة بالطرق القائمة على المصفوفة ولكنه يعاني من التحيزات والتحف التي تؤدي إلى اكتشافات خاطئة وحساسية منخفضة. نصف CODEX2 ، كإطار إحصائي للتنميط CNV كامل الطيف الذي يتسم بالحساسية للمتغيرات ذات الترددات السكانية الشائعة والنادرة والتي تنطبق على تصميمات الدراسة مع عينات التحكم السلبية وبدونها. نقوم بتوضيح وتقييم CODEX2 على بيانات التسلسل الكامل والإكسوم المستهدف ، حيث تكون التحيزات هي الأبرز. يتفوق CODEX2 على الأساليب الحالية ، وعلى وجه الخصوص ، يحسن بشكل كبير من حساسية CNVs الشائعة.


فتح قواعد البيانات لتغيرات عدد النسخ المشابهة لـ TCGA - Biology

اختلاف التسلسل الجينومي

http://www.1000genomes.org/
جمع البيانات وكتالوج التنوعات البشرية

dbVar وقاعدة بيانات المتغيرات الجينومية

الوراثة المندلية على الإنترنت في الإنسان

http://www.omim.org/about
OMIM عبارة عن خلاصة شاملة وموثوقة للجينات البشرية والأنماط الظاهرية الجينية المتاحة مجانًا ويتم تحديثها يوميًا. النص الكامل ، لمحات عامة مرجعية في OMIM تحتوي على معلومات عن جميع الاضطرابات المندلية المعروفة وأكثر من 12000 جين. يركز OMIM على العلاقة بين النمط الظاهري والنمط الجيني. يتم تحديثه يوميًا ، وتحتوي الإدخالات على روابط وفيرة لمصادر وراثية أخرى.

اتحاد تجميع Exome (ExAC)

http://exac.broadinstitute.org/
ExAC عبارة عن تحالف من الباحثين الذين يسعون إلى تجميع ومواءمة بيانات تسلسل exome من مجموعة متنوعة من مشاريع التسلسل واسعة النطاق ، وإتاحة البيانات الموجزة للمجتمع العلمي الأوسع. تمتد مجموعة البيانات المتوفرة على هذا الموقع إلى 61،486 فردًا غير مرتبط بهم تم تسلسلهم كجزء من الدراسات الجينية المختلفة الخاصة بالأمراض والسكان. لقد أزلنا الأفراد المصابين بأمراض الأطفال الشديدة ، لذا يجب أن تكون مجموعة البيانات هذه بمثابة مجموعة مرجعية مفيدة لترددات الأليل لدراسات الأمراض الشديدة. تمت إعادة معالجة جميع البيانات الأولية من هذه المشاريع من خلال نفس خط الأنابيب ، وتم استدعاء المتغير المشترك لزيادة الاتساق عبر المشاريع.

مشروع موسوعة عناصر الحمض النووي (ENCODE)

http://encodeproject.org/
روابط لبيانات علامة هيستون المعالجة بشكل موحد ENCODE2: https://sites.google.com/site/anshulkundaje/projects/encodehistonemods
روابط إلى بيانات ENCODE2 الأخرى التي تمت معالجتها بشكل موحد: http://genome.ucsc.edu/ENCODE/downloads.html
جمع البيانات والتحليل التكاملي وفهرس شامل لـ
جميع العناصر الوظيفية القائمة على التسلسل

مشروع خارطة الطريق لعلم الوراثة الوراثي (الصندوق المشترك للمعاهد الوطنية للصحة)

الاتحاد الدولي لبيجينوم الإنسان (IHEC)

http://www.ihec-epigenomes.org/
جمع البيانات والخرائط المرجعية للإبيجينومات البشرية للمفتاح
الحالات الخلوية ذات الصلة بالصحة والأمراض

### خريطة جسم الإنسان للعرض مع مجموعة (http://www.ensembl.org/index.html) أو
عارض الجينوم المتكامل (http://www.broadinstitute.org/igv/)
قاعدة بيانات التعبير الجيني من Illumina ، من بيانات RNA-seq

### موسوعة الخلايا السرطانية (CCLE) http://www.broadinstitute.org/ccle/home
بيانات التعبير القائمة على الصفيف ، CNV ، الطفرات ، الاضطرابات على مجموعة ضخمة من خطوط الخلايا

### مشروع FANTOM5 http://fantom.gsc.riken.jp/
http://fantom.gsc.riken.jp/5/sstar/Data_source
مجموعة كبيرة من بيانات التعبير القائمة على CAGE عبر أنواع متعددة (السلاسل الزمنية والاضطرابات)

http://www.ebi.ac.uk/gxa/
قاعدة بيانات تدعم استعلامات التعبير الجيني للحالة على
مجموعة فرعية منسقة من Array Express Archive.

أطلس التعبير الجيني GNF

يمكن مشاهدته على BioGPS (http://biogps.org/#goto=welcome)
GNF (معهد علم الجينوم التابع لمؤسسة أبحاث نوفارتيس) بيانات صفيف التعبير الجيني للإنسان والفأر.

http://www.proteinatlas.org/
ملامح التعبير البروتيني على أساس الكيمياء المناعية لعدد كبير من الأنسجة البشرية ، والسرطانات وخطوط الخلايا ، والتوطين تحت الخلوي ، ومستويات التعبير النسخ

http://www.uniprot.org/
قاعدة بيانات شاملة يمكن الوصول إليها مجانًا لتسلسل البروتينات و
معلومات وظيفية

http://www.ebi.ac.uk/interpro/
قاعدة بيانات متكاملة لتصنيف البروتين ، المجالات الوظيفية ،
والتعليق التوضيحي (بما في ذلك شروط GO).

مبادرة كواشف التقاط البروتين

http://commonfund.nih.gov/proteincapture/
توليد الموارد: أجسام مضادة متجددة وحيدة النسيلة وكواشف أخرى تستهدف مجموعة كاملة من البروتينات

برنامج Knockout Mouse (KOMP)

خريطة الاتصال (CMAP)

http://www.broadinstitute.org/cmap/
خريطة الاتصال (المعروفة أيضًا باسم cmap) عبارة عن مجموعة من بيانات التعبير النسخي على مستوى الجينوم من الخلايا البشرية المستزرعة المعالجة بجزيئات صغيرة نشطة بيولوجيًا وخوارزميات بسيطة لمطابقة الأنماط والتي تتيح معًا اكتشاف الروابط الوظيفية بين الأدوية والجينات والأمراض من خلال السمة العابرة للتغييرات الشائعة في التعبير الجيني. يمكنك معرفة المزيد عن cmap من أوراقنا في Science and Nature Reviews Cancer.

مكتبة التوقيعات الخلوية المتكاملة القائمة على الشبكة (LINCS)

https://commonfund.nih.gov/LINCS/
جمع البيانات وتحليل التواقيع الجزيئية التي تصف كيف
تستجيب أنواع مختلفة من الخلايا لمجموعة متنوعة من العوامل المسببة للاضطراب

حساسية الجينوم للأدوية في السرطان

http://www.cancerrxgene.org/
الطفرة ، CNV ، تعبير Affy وحساسية الدواء في

قاعدة بيانات التفاعل الجيني الدوائي (DGIdb)

برنامج المكتبات الجزيئية (MLP)

https://commonfund.nih.gov/molecularlibraries/index.aspx
الوصول إلى قدرة الفحص واسعة النطاق اللازمة لتحديد الجزيئات الصغيرة التي يمكن تحسينها كمساسات كيميائية لدراسة وظائف الجينات والخلايا والمسارات الكيميائية الحيوية في الصحة والمرض

http://www.brain-map.org/
جمع البيانات والموارد العامة عبر الإنترنت التي تدمج التعبير الجيني الشامل والبيانات التشريحية العصبية للإنسان والفأر ، بما في ذلك تباين التعبير الجيني عن طريق السلالة.

http://braincloud.jhmi.edu/
BrainCloud هو تطبيق متاح مجانًا وصديق للبيولوجيا ومستقل لاستكشاف الديناميات الزمنية والتحكم الجيني للنسخ في قشرة الفص الجبهي البشري عبر العمر الافتراضي. تم تطوير BrainCloud من خلال التعاون بين معهد ليبر و NIMH

مشروع شبكة الاتصال البشرية

http://www.humanconnectomeproject.org/
جمع البيانات وتكاملها لإنشاء خريطة كاملة للوصلات العصبية الهيكلية والوظيفية ، داخل الأفراد وعبرهم

مشروع تسلسل Geuvadis RNA لـ 1000 عينة جينوم

http://www.geuvadis.org/web/geuvadis
تسلسل mRNA والحمض النووي الريبي الصغير على 465 عينة من خط الخلايا الليمفاوية (LCL) من 5 مجموعات من 1000 جينوم مشروع: CEPH (CEU) ، الفنلنديون (FIN) ، البريطاني (GBR) ، Toscani (TSI) واليوروبا (YRI).

http://www.broadinstitute.org/achilles مشروع Achilles هو جهد منهجي يهدف إلى تحديد وفهرسة نقاط الضعف الجينية عبر مئات خطوط الخلايا السرطانية المميزة جينومياً. يستخدم المشروع مكتبة shRNA على مستوى الجينوم لإسكات الجينات الفردية وتحديد تلك الجينات التي تؤثر على بقاء الخلية. يوفر الفحص الوظيفي على نطاق واسع لخطوط الخلايا السرطانية نهجًا تكميليًا لتلك الدراسات التي تهدف إلى توصيف التغيرات الجزيئية (الطفرات ، وتغييرات رقم النسخ ، وما إلى ذلك) للأورام الأولية ، مثل أطلس جينوم السرطان. الهدف العام للمشروع هو ربط التبعيات الجينية للسرطان بخصائصها الجزيئية من أجل تحديد الأهداف الجزيئية وتوجيه التطور العلاجي.

الموارد الجينومية للشيخوخة البشرية

أطلس جينوم السرطان (TCGA)

http://cancergenome.nih.gov/
جمع البيانات ومستودع البيانات ، بما في ذلك بيانات تسلسل الجينوم السرطاني

الاتحاد الدولي لجينوم السرطان (ICGC)

http://www.icgc.org/
جمع البيانات ومستودع البيانات للحصول على وصف شامل للتغيرات الجينومية والنسخية والمتوالية للسرطان

مشروع التعبير الوراثي عن الأنسجة (GTEx)

https://commonfund.nih.gov/GTEx/
جمع البيانات ، ومستودع البيانات ، وبنك العينات للتعبير عن الجينات البشرية وتنظيمها في الأنسجة المتعددة ، مقارنة بالتنوع الجيني

برنامج التنميط الظاهري للماوس (KOMP2)

https://commonfund.nih.gov/KOMP2/
جمع البيانات من أجل التنميط الظاهري المعياري لمجموعة واسعة من الجينوم بالضربة القاضية بالماوس

قاعدة بيانات الأنماط الجينية والأنماط الظاهرية (dbGaP)

http://www.ncbi.nlm.nih.gov/gap
مستودع البيانات لنتائج الدراسات التي تبحث في تفاعل التركيب الوراثي والنمط الظاهري

كتالوج NHGRI الخاص بـ GWAS المنشور

http://www.genome.gov/gwastudies/
الكتالوج العام لدراسات الارتباط على نطاق الجينوم المنشورة

قاعدة بيانات الجينوم السريرية

http://research.nhgri.nih.gov/CGD/
قاعدة بيانات منسقة يدويًا للحالات ذات الأسباب الجينية المعروفة ، مع التركيز على البيانات الجينية ذات الأهمية الطبية مع التدخلات المتاحة.

نواة معلومات سرطان الثدي في NHGRI

http://www.ncbi.nlm.nih.gov/clinvar/
تم تصميم ClinVar لتوفير أرشيف عام يمكن الوصول إليه مجانًا لتقارير العلاقات بين الاختلافات البشرية والأنماط الظاهرية ، مع الأدلة الداعمة. يجمع ClinVar تقارير عن المتغيرات الموجودة في عينات المرضى ، والتأكيدات المقدمة بخصوص أهميتها السريرية ، ومعلومات حول مقدم الطلب ، وغيرها من البيانات الداعمة. يتم تعيين الأليلات الموصوفة في التقديمات لتسلسلات مرجعية ، ويتم الإبلاغ عنها وفقًا لمعيار HGVS. ثم تقدم ClinVar البيانات للمستخدمين التفاعليين وكذلك أولئك الذين يرغبون في استخدام ClinVar في تدفقات العمل اليومية والتطبيقات المحلية الأخرى. تعمل ClinVar بالتعاون مع المنظمات المهتمة لتلبية احتياجات مجتمع علم الوراثة الطبية بأكبر قدر ممكن من الكفاءة والفعالية.

قاعدة بيانات طفرة الجينات البشرية (HGMD)

http://www.hgmd.cf.ac.uk/ac/
تمثل قاعدة بيانات طفرة الجينات البشرية (HGMD®) محاولة لجمع آفات الجينات المعروفة (المنشورة) المسؤولة عن الأمراض البشرية الوراثية.

NHLBI Exome Sequencing Project (ESP) Exome Variant Server

http://evs.gs.washington.edu/EVS/
الهدف من مشروع تسلسل NHLBI GO Exome (ESP) هو اكتشاف جينات وآليات جديدة تساهم في اضطرابات القلب والرئة والدم من خلال الريادة في تطبيق تسلسل الجيل التالي لمناطق ترميز البروتين في الجينوم البشري عبر مجموعة متنوعة وغنية السكان ذوو النمط الظاهري ومشاركة مجموعات البيانات والنتائج هذه مع المجتمع العلمي لتوسيع وإثراء التشخيص والإدارة والعلاج لأمراض القلب والرئة والدم.

http://ghr.nlm.nih.gov/
مرجع علم الوراثة الرئيسي هو موقع الويب الخاص بالمكتبة الوطنية للطب للحصول على معلومات المستهلك حول الحالات الوراثية والجينات أو الكروموسومات المتعلقة بهذه الحالات.

http://www.ncbi.nlm.nih.gov/books/NBK1116/
مراجعات GeneReviews مؤلفة من قبل الخبراء ومراجعة الأقران لأوصاف الأمراض المقدمة في شكل موحد وتركز على المعلومات ذات الصلة سريريًا والقابلة للتنفيذ طبيًا حول التشخيص والإدارة والاستشارة الوراثية للمرضى والعائلات الذين يعانون من حالات وراثية محددة.

الشبكة التفاعلية لجمعية الزهايمر العالمية (GAAIN)

http://www.gaain.org/
الشبكة التفاعلية لجمعية ألزهايمر العالمية (GAAIN) هي مشروع تعاوني سيوفر للباحثين في جميع أنحاء العالم إمكانية الوصول إلى مستودع ضخم لبيانات أبحاث مرض الزهايمر والأدوات التحليلية المتطورة والقوة الحسابية اللازمة للعمل مع تلك البيانات. هدفنا هو تغيير الطريقة التي يعمل بها العلماء معًا للإجابة على الأسئلة الرئيسية المتعلقة بفهم أسباب مرض الزهايمر والأمراض العصبية التنكسية الأخرى وتشخيصها وعلاجها والوقاية منها.
في عام 2013 ، تم الحصول على بيانات WGS لأكبر مجموعة من 800 مريض بمرض الزهايمر

اتحاد الأتراب لأبحاث القلب والشيخوخة في اتحاد علم الأوبئة الجينومي (تشارج)

http://web.chargeconsortium.com/
تم تشكيل اتحاد الأتراب لأبحاث القلب والشيخوخة في علم الأوبئة الجينومية (CHARGE) لتسهيل التحليلات التلوية للدراسة على نطاق الجينوم وفرص النسخ المتماثل بين دراسات الأتراب الطولية المتعددة الكبيرة وذات النمط الظاهري الجيد. لديهم أيضًا بيانات مثيلة الحمض النووي جنبًا إلى جنب مع WGS و Exome Seq.

مركز NIMH للدراسات الجينومية التعاونية حول الاضطرابات العقلية


نتائج

التنميط اللاجيني الشامل في كل من خطوط BLCA والأورام الأولية

في هذا المشروع ، أجرينا RNA-Seq و ChIP-Seq لـ Histone 3 lysine 27 acetylation (H3K27ac) و Assay for Transposase-Accessible Chromatin باستخدام التسلسل (ATAC-Seq) وتجارب التقاط تأكيد الكروماتين على مستوى الجينوم (Hi-C) على 4 خطوط من خلايا سرطان المثانة (الشكل 1 أ) ، اثنان منها (RT4 و SW780) تم شرحهما سابقًا على أنهما لومين والاثنان الآخران (SCABER و HT1376) اللذان تم وصفهما على أنهما قاعدية [8 ، 25]. استنادًا إلى بيانات RNA-Seq التي تم إنشاؤها في هذه الدراسة ، استخدمنا نهج التصنيف الفرعي الجزيئي الذي تم الإبلاغ عنه مسبقًا [26] لتأكيد التخصيص للحالات اللمعية والقاعدية. أكدت نتائجنا أن RT4 و SW780 ينتميان إلى النوع الفرعي Luminal-papillary ، بينما ينتمي SCABER و HT1376 إلى النوع الفرعي Basal / الحرشفية (ملف إضافي 1: الجدول S1). تحتوي كل تجربة في خطوط خلايا سرطان المثانة على نسختين بيولوجيتين على الأقل (ملف إضافي 2: الجدول S2) ولاحظنا وجود ارتباط كبير بين النسختين (ملف إضافي 3: الجدول S3). والأهم من ذلك ، أجرينا نفس المجموعة من التجارب على أربعة مرضى من أورام المثانة الغازية للعضلات أيضًا. باستخدام نفس طريقة التصنيف الفرعي الجزيئي ، حددنا أنواعها الفرعية على النحو التالي: T1 هي Luminal-papillary ، T3 غنية Stroma ، و T4 و T5 قاعدية / حرشفية.

ترتبط الأنواع الفرعية BLCA النسخية اللمعية والقاعدية بنشاط المروج المتميز والمعززات البعيدة على المستوى اللاجيني. أ التصميم العام للدراسة. ب يُظهر تحليل جين التعبير التفاضلي (DEG) لخطوط الخلايا اللمعية (RT4 و SW780) وخطوط الخلايا القاعدية (SCABER و HT1376) 427 جينًا منظمًا خاصًا بالقاعدة و 524 جينًا منظمًا خاصًا باللمعة. ج خريطة الحرارة للتفاضل H3K27ac ChIP-Seq عند المروجين (يسار). ملامح شدة الإشارة H3K27ac لكل مجموعة من خلايا BLCA (يمين). د يتتبع متصفح الجينوم إشارة لوحة من الجينات اللمعية والقاعدية. تظهر هنا مسارات بيانات H3K27ac ChIP-Seq و ATAC-Seq و RNA-Seq في خلايا RT4 و SW780 و SCABER و HT1376. ه يُظهر المروج H3K27ac وإشارات RNA-Seq المرتبطة به للجينات اللمعية والقاعدية المختارة تشابهًا ملحوظًا. F قمم H3K27ac المتكاملة عند المعززات البعيدة ونموذج ارتباط التعبير الجيني RNA-Seq يحدد المعززات المفترضة وتنظيم الجينات. يتم رسم أفضل 10000 معزز متغير (خريطة الحرارة اليسرى) جنبًا إلى جنب مع التعبير الجيني المقابل (خريطة الحرارة اليمنى). ز تظهر الارتباطات بين إشارات H3K27ac على مستوى الجينوم بين خطوط خلايا سرطان المثانة وعينات الورم تشابهًا في منظر المحسن

ترتبط الأنواع الفرعية BLCA النسخية اللمعية والقاعدية بنشاط المروج المتميز والمعززات البعيدة على المستوى اللاجيني

تم استخدام إثراء إشارات H3K27ac للتنبؤ بكل من المحفزات النشطة والمعززات البعيدة [27 ، 28]. لذلك ، أجرينا أولاً ChIP-Seq لـ H3K27ac في جميع أنواع الخلايا الأربعة وعينات المرضى الأربعة. لاحظنا أن التكرارات البيولوجية التي تتبع H3K27ac ChIP-seq متجمعة دائمًا معًا ، مما يشير إلى أن نتائجنا قابلة للتكرار بدرجة كبيرة (ملف إضافي 4: الشكل S1A). علاوة على ذلك ، وجدنا أن نوعين فرعيين لامعين (RT4 و SW780) متجمعان معًا ، بينما تم تجميع سطرين من الخلايا القاعدية (SCABER و HT1376) معًا أيضًا (ملف إضافي 4: الشكل S1A). تشير نتائج التجميع هذه إلى أن التوصيفات اللاجينومية العالمية تعكس بدقة هوية الخلية. تم أيضًا عكس التجميع الهرمي في خطوط الخلايا بناءً على إشارات H3K27ac بواسطة تعبير mRNA العالمي بواسطة بيانات RNA-Seq (ملف إضافي 4: الشكل S1B). أجرينا تحليل التعبير الجيني التفاضلي على مجموعتي أنواع الخلايا (RT4 و SW780 مقابل SCABER و HT1376) وحددنا 427 جينًا خاصًا بالقاعدة (ملف إضافي 5: الجدول S4) و 524 جينًا خاصًا باللمعة (الشكل 1 ب ، ملف إضافي 6: الجدول S5).

بعد ذلك ، قمنا بفحص استخدام المروج بناءً على إشارات H3K27ac في الجينات المعروفة. لقد أكدنا أن شدة المروج H3K27ac تشبه بشكل ملحوظ التعبير الجيني (الشكل 1 ج) ، وكان تحليل المجموعات على أساس كثافة المروج H3K27ac قادرًا على التمييز بين النماذج اللمعية والقاعدية لـ BLCA (ملف إضافي 4: الشكل S1C). على سبيل المثال ، لاحظنا أن سطرين من خلايا BLCA من النوع الفرعي اللمعي RT4 و SW780 لهما أنماط H3K27ac متشابهة في الجينات اللمعية FOXA1, جاتا 3، و PPARG (الشكل 1 د ، هـ) ، بينما يشترك سطرا الخلايا القاعدية في علامات محفز مماثلة في الجينات التي تشفر العلامات القاعدية / الحرشفية KRT5 / 14. ومن المثير للاهتمام ، أنه على الرغم من أنه يعتمد على التعبير الجيني العالمي ، فقد تم تصنيف HT1376 على أنه نوع فرعي قاعدي / حرشفي ، إلا أنه يظهر نمط مروج مماثل H3K27ac في الجينات اللمعية (جاتا 3, KRT7 / 8/18، الشكل 1 هـ).

تم استخدام قمم H3K27ac البعيدة من مناطق محفز الجينات كعلامات للمعززات النشطة [27 ، 29]. اتخذنا نفس الأسلوب هنا ، وفي المتوسط ​​، توقعنا 59466 (40731-78506) معززًا في كل سطر خلوي (ملف إضافي 7: الجدول S6). لربط المعززات البعيدة بالجينات المستهدفة ، أجرينا ارتباط ذروة الجين المعزز القائم على الارتباط كما هو موصوف في [30] وحددنا أفضل 10000 معززًا بعيدًا متغيرًا يظهر ارتباطًا كبيرًا بجينه المرتبط (الارتباط ≥0.5 ، ص & lt 0.01 ، استوفى ما مجموعه 58509 معاييرنا الشكل 1f والملف الإضافي 8: الجدول S7). لاحظنا أن المُحسِنات تُظهر مجموعات واضحة وفقًا لأنواع الخلايا المختلفة ، وتُظهر جيناتها المستهدفة أنماطًا متشابهة خاصة بنوع الخلية (الشكل 1f والملف الإضافي 4: الشكل S1D). علاوة على ذلك ، لفهم الأهمية السريرية لنتائجنا ، أجرينا H3K27ac ChIP-Seq في أربع عينات من مرضى المثانة الغازية للعضلات. تظهر نتائجنا ارتباطًا ملحوظًا بين خطوط الخلايا السرطانية (الشكل 1 ز). باختصار ، نظهر في خطوط الخلايا هذه وفي مجموعة محدودة من الأورام أن التنظيم اللاجيني مرتبط بتخصيص النوع الفرعي الجزيئي.

يتم إثراء مجموعات مميزة من أشكال عامل النسخ في اللمعة والقاعدية المرتبطة بـ BLCA رابطة الدول المستقلة مناطق تنظيم الحمض النووي

أجرينا ATAC-Seq في خطوط الخلايا RT4 و SW780 و SCABER و HT1376 لتقييم حالة الكروماتين المفتوحة في الجينوم. في المتوسط ​​، في كل سطر خلوي ، حددنا 32000 منطقة كروماتين مفتوحة (الشكل 2 أ والملف الإضافي 9: الجدول S8). من بينها ، 40.8 ٪ من مناطق الكروماتين المفتوحة كانت موجودة في مناطق المروج ، بينما 59.2 ٪ تقع في المناطق البعيدة. بشكل عام ، تتداخل & gt 90٪ من مناطق محفز الكروماتين المفتوحة مع H3K27ac (ملف إضافي 4: الشكل S2A ، S2C-D). تداخل قمم ATAC-Seq البعيدة و H3K27ac أقل (ملف إضافي 4: الشكل S2A وملف إضافي 10: الجدول S9) ، على الأقل جزئيًا بسبب الأعداد المختلفة للقمم في مجموعات البيانات المختلفة. أظهر الارتباط على مستوى الجينوم لـ ATAC-Seq أن HT1376 و SCABER يتجمعان معًا بنسبة تشابه 80 ٪ (ملف إضافي 4: الشكل S2E) مقارنة بـ RT4 اللمعي (

65٪). لاحظنا أن هذه الملاحظة تتفق مع المجموعات المستندة إلى RNA-Seq والتكتل المستند إلى H3K27ac (ملف إضافي 4: الشكل S1A و B).

يتم إثراء مجموعات مميزة من أشكال عامل النسخ في اللمعة والقاعدية المرتبطة بـ BLCA رابطة الدول المستقلة مناطق تنظيم الحمض النووي. أ مجموعة شاملة ومميزة من إشارات ATAC-Seq البعيدة في ثلاث مجموعات (محددة لامعة ومحددة قاعدية ومشتركة) وإشارات H3K27ac المقابلة. ب تظهر نتائج تحليل عزر TF هنا كمخطط مصنف (يسار) وزخارف (يمين) ، حيث يتم عرض معززات الكروماتين المفتوحة الخاصة باللمع (أعلى) والقاعدة الحرشفية (أسفل). ج تم توضيح كروماتينات مفتوحة مرتبطة بـ FOXA1 و GATA3 الموجودة في معززات بعيدة لخط الخلية RT4 / luminal هنا في ثلاث مجموعات: FOXA1 فقط ، GATA3 فقط ، ومواقع ربط FOXA1 و GATA3. د تحليل الأنطولوجيا الجينية للمسارات لكل مجموعة من مواقع الربط (FOXA1 فقط و FOXA1 و GATA3 و GATA3 فقط). ه يظهر هنا ظهور أشكال TF (AP-1 و FOX Forkhead و GATA) المرصود في المعززات والمروجين البعيدة من ثلاث مجموعات. F تظهر كروماتينات مفتوحة على مستوى الجينوم لخطوط خلايا BLCA تشابهًا مع أورام المثانة TCGA [30]

بعد ذلك ، أجرينا تحليل عزر لمناطق الكروماتين المفتوحة هذه (ملف إضافي 11: الجدول S10). لاحظنا أن مواقع الربط الخاصة بمركب CTCF و AP-1 مخصبة في جميع خطوط الخلايا (الشكل 2 ب والملف الإضافي 4: الشكل S2G). مزيد من ترتيب أشكال TF عن طريق التخصيب ص- تم إثراء مناطق الكروماتين المفتوحة اللامعة (المشتركة بين RT4 و SW780) بزخارف ملزمة لـ GRHL2 و TP53 و TP63 بينما تم إثراء الكروماتينات المفتوحة القاعدية (المشتركة بين SCABER و HT1376) لعامل TEAD1 / 4 وعامل KLF (الشكل 2 ب). ) الزخارف الملزمة. تم الإبلاغ سابقًا عن أن GRHL2 [31] هو جين لمعي ، وبالتالي التحقق من صحة النتائج التي توصلنا إليها. ومن المثير للاهتمام ، أن الأشكال الملزمة للبروتينات المعقدة AP-1 FOSL1 / 2 ، و JUN / JUNB ، و ATF3 ، و BATF TFs [32] كانت أكثر الأشكال المخصبة لكل من الكروماتينات المفتوحة اللمعية والقاعدية. قمنا بعد ذلك بتعيين جميع أشكال TF المخصب بشكل شامل في كروماتينات مفتوحة لامعة ، قاعدية ومشتركة من المعززات البعيدة لفحص العلاقة بين الأنواع الفرعية TFs و BLCA (ملف إضافي 11: الجدول S10). اكتشفنا أنه في المعززات البعيدة ، ترتبط الأنواع الفرعية اللمعية لـ BLCA بمستقبلات هرمون الستيرويد التي تم الإبلاغ عنها سابقًا. من ناحية أخرى ، تُظهر مناطق الكروماتين المفتوحة القاعدية الحرشفية في المعززات إثراءً للعوامل التي لم يتم الإبلاغ عنها سابقًا MADS box TF MEF2C و homeobox TF OTX2. ليس من المستغرب أن يتم إثراء TFs الرائدة اللمعية مثل عوامل النسخ المتشعبة (FOXA1 / 2/3 ، FOXF1 ، FOXK1 ، FOXM1) ، و GATA TFs (GATA3 / 4/6) في المحسنات المرتبطة باللمعة بتشكيل كروماتين مفتوح. والأكثر إثارة للدهشة ، أنه تم تحديد أشكال forkhead و GATA أيضًا على أنها مرتبطة بالكروماتين المفتوح في عناصر المحسن عبر خطوط الخلايا (ملف إضافي 11: الجدول S10). بينما من المعروف أن FOXA1 و GATA3 لهما تعبير منخفض في خطوط خلايا سرطان المثانة القاعدية والأورام ، فإن إثراء أشكال forkhead و GATA في الكروماتينات المفتوحة عبر خطوط خلايا BLCA تشير إلى تعويض بواسطة عوامل Forkhead و GATA بخلاف FOXA1 و GATA3. بالإضافة إلى ذلك ، قد يشير إثراء Forkhead و GATA عبر خطوط الخلايا في مناطق الكروماتين المفتوح إلى أن TFs الخاصة باللمعة تستعد للالتزام بهذه المناطق من الكروماتين المفتوح. علاوة على ذلك ، من المعروف أن FOXA1 و GATA3 يلعبان دورًا في تطوير urothelium [31] مما يشير إلى أن مواقع الارتباط الخاصة بهما قد يتم تحضيرها مبكرًا أثناء التطور. اكتشفنا أيضًا أن TFs الرائدة المرتبطة بالخلايا الجذعية مثل عوامل KLF (KLF10 / 14) وعوامل ATF (ATF1 / 2/4/7) و NANOG تم إثرائها في معززات مرتبطة بالقاعدة. هذا مثير للاهتمام نظرًا لوجود مجموعة من الخلايا السلفية داخل الأوعية الدموية القاعدية والتي يمكن أن تساهم في تطور الظهارة البولية وتمايزها [33 ، 34].

يرتبط FOXA1 و GATA3 بالكروماتين اللامع المفتوح عند المعززات التنظيمية البعيدة لدفع التعبير عن الجينات الخاصة باللمعة

افترضنا أن TFs مثل FOXA1 و GATA3 ترتبط في منطقة الكروماتين المفتوحة لتكون رائدة في المعززات اللمعية وتنشيط التعبير الجيني المرتبط. لاختبار هذه الفرضية ، أجرينا GATA3 ChIP-Seq في خط الخلايا RT4 اللمعي BLCA وحصلنا على FOXA1 ChIP-Seq في خلايا RT4 من عملنا المنشور سابقًا (ملف إضافي 12: الجدول S11) [8]. كما هو متوقع ، أظهر TFs FOXA1 و GATA3 اللامعي ارتباطًا مخصبًا في مواقع الكروماتين المفتوحة المرتبطة باللمعة (FOXA1, جاتا 3, PPARG, FGFR3 ، و فاب 4) المعززات البعيدة (الشكل 2 ج). وبشكل أكثر تحديدًا ، اكتشفنا 1325 مُحسِّنًا بعيدًا يُظهر ارتباطًا مشتركًا لكل من FOXA1 و GATA3 في RT4 (الشكل 2 ج). وبالمثل ، أظهر FOXA1 و GATA3 ارتباطًا مخصبًا في مواقع الكروماتين المفتوحة لجينات العلامة اللمعية (FOXA1, ERBB3, KRT19, GPX2، و فاب 4) المروجين (ملف إضافي 4: الشكل S2F).

أظهر تحليل مصطلح GO للجينات القريبة من مواقع المُحسِّن البعيدة تنظيم إنتاج بيتا TGF ، وتطوير الظهارة ، وتنظيم النسخ المتضمن في التزام مصير الخلية ، والعمليات البيولوجية لالتصاق الخلية الخلوية (ربط كاديرين وتجميع الوصلات الملتصقة) كشروط مرتبطة بـ FOXA1 . بالإضافة إلى ذلك ، كان تنظيم المكون الخلوي ، وحجم الخلية ، والعمليات البيولوجية لغشاء البلازما القمي عبارة عن مصطلحات محددة مع الجينات المرتبطة بـ GATA3 القريبة من هذه المعززات البعيدة ، مما يشير إلى مشاركة قوية لكل من TFs في الالتزام بمصير الخلية والتمايز اللمعي (الشكل 2 د) ). فيما يتعلق بالجينات القريبة المرتبطة بالمحسّنات البعيدة المرتبطة بكل من FOXA1 و GATA3 ، ارتبطت المصطلحات المحددة بعمليات تنموية مختلفة وتنظيم إفراز المخاط وتمايز الخلايا الدهنية ، وكلاهما من السمات الأيضية الهامة لمجرى البول المتمايز (الشكل 2 د).

ثم شرعنا في تحليل فكرة FOXA1 فقط ، و GATA3 فقط ، والمواقع المرتبطة. بشكل مفاجئ ، تم إثراء مجمعات AP1 على وجه التحديد في جميع المعززات البعيدة بالإضافة إلى أشكال FOXA أو GATA (الشكل 2 هـ). لا يزال ترتيب ربط هذه العوامل الثلاثة قيد التحقيق. أخيرًا ، لفهم الصلة السريرية لنتائجنا ، قمنا بمقارنة خطوط خلايا BLCA الأربعة لدينا ببيانات ATAC-Seq لورم المثانة الغازي للعضلات TCGA [30] واكتشفنا أن ملف تعريف الكروماتين المفتوح على مستوى الجينوم في خطوط الخلايا لدينا يتجمع مع مجموعات مميزة من الأورام (الشكل 2 و) ، مما يشير إلى أن مناطق الكروماتين المفتوحة في خطوط الخلايا هذه تشترك في أنماط مماثلة مع أورام المريض.

تُظهر الأنواع الفرعية اللمعية والقاعدية من BLCA منظمات جينوم ثلاثية الأبعاد متميزة محتملة

أظهرت الدراسات السابقة أن تنظيم الكروماتين ثلاثي الأبعاد مرتبط بالتنشيط اللاجيني أو إسكات الجينات في الخلايا [35]. على سبيل المثال ، من المعروف أن غالبية الهيتروكروماتين مضغوط في النوى ويقع بالقرب من المحيط المرتبط بالصفيحة للمغلف النووي [35]. للحصول على رؤى أولية حول المشهد ثلاثي الأبعاد على مستوى الجينوم من BLCA اللمعة والقاعدية ، أجرينا تجارب Hi-C عالية الدقة على جميع خطوط الخلايا الأربعة (ما لا يقل عن 800 M قراءة ، لكل منها) وخمسة مرضى أورام المثانة (& gt 800 M يقرأ ، كل) (ملف إضافي 4: الشكل S3). استخدمنا برنامجنا المطوَّر مؤخرًا ، Peakachu [36] ، وهو نهج لاكتشاف حلقة الكروماتين القائم على التعلم الآلي ، للتنبؤ بالحلقات بدقة حاوية 10 كيلوبايت. أولاً ، حددنا متوسط ​​56315 حلقة (تتراوح بين 38271 و 69.032) في خطوط الخلايا الأربعة (prob & gt 0.8 ملف إضافي 13: الجدول S12). بعد ذلك ، باستخدام ناتج درجة الاحتمال من Peakachu ، قمنا بتعيين حلقات كروماتين خاصة بالنوع الفرعي كما هو موضح في تحليل الذروة التجميعي (APA ، الشكل 3 أ والملف الإضافي 14: الجدول S13) [37]. بناءً على نهجنا ، لاحظنا المزيد من الحلقات الخاصة باللمعة المحتملة في RT4 و SW780 (2299) بالنسبة إلى طرازي BLCA الأساسيين SCABER و HT1376 (2144). ثم قمنا بمقارنة كل فئة من هذه الفئات مع الحلقات المكتشفة في خمس عينات من المرضى (الشكل 3 ب):

تمت ملاحظة 30-40 ٪ من حلقات الكروماتين ثلاثية الأبعاد المخصصة لللمعة والمخصصة للقاعدة المحددة في خطوط الخلايا في عينات الورم الخمس هذه.

تُظهِر الأنواع الفرعية اللمعية والقاعدية لسرطان المثانة منظمات جينوم ثلاثية الأبعاد يحتمل أن تكون مميزة. أ يُظهر تحليل حلقة Hi-C لخطوط الخلايا اللمعية والحرشفية القاعدية حلقات لامعة مميزة وحلقات قاعدية حرشفية. ب الاتصالات المحددة في خطوط الخلايا اللمعية والقاعدية الحرشفية مشتركة والتحقق من صحتها في خمس عينات من ورم سرطان المثانة. ج يتم عرض مسارات مستعرض الجينوم للجين اللمعي المحدد (FOXA1) والجين الأساسي (KRT5) التي تحتوي على حلقات محسن-محفز هنا. تشير الأقواس إلى حلقات الكروماتين المتوقعة باستخدام بيانات Hi-C. د يتم عرض نوع جهات الاتصال على أساس تداخل موقع الاتصال في أي من المحسن (H3K27ac في المنطقة البعيدة) أو المروج (H3K27ac و H3K4me3 عند المروج) في كل خط خلية. E-P ، حلقات المُحسِّن-المروج E-E ، حلقات المُحسِّن P-P ، حلقات المروج-المروج E-N ، الحلقات غير التنظيمية المُحسِّن P-N ، الحلقات غير التنظيمية للمُحسِّن لا شيء ، الحلقات غير التنظيمية. ه يظهر هنا تخصيب FOXA1 (المحور الأيسر) ومواقع ربط GATA3 (المحور الأيمن) في خلايا RT4 (اللمعة) هنا عند نقاط ارتكاز الحلقة.

أخيرًا ، قمنا بفحص حلقات المحسن والمروج في كل فئة لارتباطها بالتعبير الجيني الخاص بالنوع الفرعي. يتم عرض الأمثلة في الشكل 3 ج ، حيث وجدنا أن الجين اللمعي FOXA1 والجين القاعدي KRT5 أظهر عددًا متزايدًا من حلقات المحسن-المروج في خطوط الخلايا اللمعية والقاعدية ، على التوالي. بشكل عام ، لاحظنا ذلك

40٪ من حلقات الكروماتين موجودة بين المعززات والمروجين (الشكل ثلاثي الأبعاد). علاوة على ذلك ، وجدنا إثراءًا كبيرًا لمواقع ربط FOXA1 و GATA3 في مراسي الحلقة هذه ، مما يشير إلى مشاركة هذه العوامل الرائدة في تنظيم الجينوم ثلاثي الأبعاد (الشكل 3 هـ). هذه النتيجة تتفق مع الدراسات السابقة التي أبلغت عن إثراء مواقع ربط FOXA1 في حلقات محسن-محفز [38].

تباين رقم النسخ (CNV) وحلقات الكروماتين في سرطان المثانة

السمة المميزة للسرطان هي الاختلافات الهيكلية الكبيرة (SVs) ، والتي تشمل الانقلابات ، والحذف ، والازدواجية ، والانتقالات. في الآونة الأخيرة ، ثبت أن التغيير في CNVs و SVs يمكن أن يؤدي إلى تغييرات في بنية الجينوم ثلاثي الأبعاد ، بما في ذلك تشكيل مجالات جديدة مرتبطة طوبولوجيًا ("neo-TADs") [39] وما ينتج عنه من "اختطاف محسن [40]". تشير TADs الجديدة إلى السيناريوهات التي يؤدي فيها حدث SV إلى تكوين مجالات كروماتين جديدة ، والتي بدورها يمكن أن تؤثر على ملامح تعبير الجينات الموجودة في تلك المناطق. في نموذج "اختطاف المُحسِّن" ، ينتج عن تنظيم الجينوم ثلاثي الأبعاد المتغير تفاعلًا غير طبيعي مع المُحسِّن ، مع وجود مُحسِّن بالقرب من الجين المستهدف الخطأ (عادةً ما يكون أحد الجينات الورمية) مما يؤدي إلى تنشيط الهدف غير المناسب.

حددنا أولاً اختلافات أرقام النسخ (CNVs) وأحداث SV بشكل منهجي باستخدام بيانات Hi-C مع برنامج HiNT [41] و Hi-Cbreakfinder [42]. حددنا عشرات من SVs الكبيرة ، بما في ذلك الانقلابات والحذف والانتقالات (الشكل 4 أ ، ب ، ملف إضافي 4: الأشكال S4-S5 ، ملف إضافي 15: الجدول 14). كما هو متوقع ، لاحظنا عددًا أقل من CNV في عينات المرضى مقارنةً بخطوط الخلايا. والأهم من ذلك ، تمكنا من إعادة بناء خريطة Hi-C المحلية المحيطة بنقاط توقف SVs. يمكننا أن نلاحظ أحداث اختطاف المحسنات المثيرة للاهتمام وتشكيل TADs الجديدة في خرائط Hi-C المحلية هذه (الشكل 4c-h). These observations provide an important resource to further study the function of the re-arranged enhancers in the context of bladder cancer.

Chromatin interactions induced by structure variation (SV) events. أ, ب Circos plot showing intra- and inter-chromosome SVs in SCABER (أ) and SW780 (ب). ج A large intra-chromosomal translocation on chr9. دح Inter-chromosomal translocations. The breakpoints were identified by the HiCBreakfinder software. We then reconstructed the local Hi-C maps across the breakpoints. RNA-Seq and H3K27ac ChIP-Seq tracks from the same cell type are shown below the Hi-C maps

Neuronal PAS Domain Protein 2 (NPAS2) is a novel luminal BLCA TF which regulates luminal gene expression and cell migration

Genome-wide open chromatin analysis of BLCA cell lines provides an ideal platform for the identification of novel transcriptional regulators of BLCA cell fate and phenotype. Here we performed motif analysis of luminal-associated, basal-associated, and shared open chromatin regions, resulting in the identification of distinct TFs in each cluster. Among them, many represent known families of subtype-specific regulators, such as the GATA, FOX, and ETS families at luminal-associated ATAC-Seq peaks. Among them, we noticed a potential novel bHLH containing regulator, NPAS2, which is enriched in the luminal-associated and shared clusters, but not enriched in basal-associated ATAC-Seq peaks (Fig. 5a). We examined its binding profile using the latest ENCODE data (HEPG2 cells) [43] and found that NPAS2 binds at the FOXA1 promoter region (Fig. 5b), but not at regulatory regions for basal marker genes. This suggests the possibility that NPAS2 may be an upstream regulator of FOXA1. We then checked the TCGA data and found that high expression level of NPAS2 is significantly correlated to overall patient survival (Fig. 5c).

NPAS2 is a novel bladder cancer regulator. أ ص-values of NPAS2 motif in luminal-associated (RT4, SW780), basal-associated (SCABER, HT1376), and shared open chromatin regions. ب NPAS2 ChIP-seq signal near luminal marker genes FOXA1, GATA3، و PPARG in HEPG2 cell line. ج NPAS2 Kaplan-Meier curve is shown here for 2000 days with log-rank statistics and hazards ratio. د Transwell migration assay representative crystal violet staining (left) and quantification of differences in transwell migration (right) are shown following overexpression of NPAS2 in SCABER. ه RT-qPCR results for basal marker genes KRT5, KRT6A, STAT3، و TFAP2C are shown here for wild-type and NPAS2 overexpressed SCABER basal cell line. F NPAS2, FOXA1/GATA3، و PPARG RT-qPCR are shown here for wildtype and FOXA1/GATA3 overexpressed SCABER basal cell line

To further determine whether NPAS2 expression influences the downstream target expression and phenotype, we overexpressed NPAS2 in the basal-squamous BLCA cell line SCABER. First, we performed trans-well migration assays and found that overexpression of NPAS2 in SCABER cells decreased cell trans-well migration (Fig. 5d). We then performed RT-qPCR experiments and found that the basal marker genes (such as KRT5, KRT6A، و TFAP2C) are significantly downregulated (Fig. 5e) following NPAS2 overexpression, suggesting NPAS2 represses the expression of a subset of basal marker genes.

Because our functional genomics analysis suggests that FOXA1 and GATA3 cooperate to regulate luminal target genes [8], we individually overexpressed FOXA1 and GATA3 in SCABER cells to test their ability to regulate NPAS2 expression. We observed increased expression of NPAS2 by both FOXA1 and GATA3 overexpression (Fig. 5f).


Discussions

Advances in single-cell technologies present new challenges and opportunities for making biological discovery. Single-cell studies often involve large numbers of cells, which are powerful at characterizing cellular heterogeneity, but small numbers of biological samples, which are underpowered for discovering common disease genes. It has been shown by recent genome-wide association analysis that it is possible to enable new discovery by performing association analysis at cell-type resolutions [55]. For cancer and genetic diseases driven by somatic mutations, being able to obtain genetic footprint at various time and conditions can enable discovery of genes responsible for disease progression and resistance to therapy.

However, it remains unclear what analytical strategies should be deployed to achieve the benefits. Even more challenging it gets when CNAs are being considered, as CNAs affect large regions of the genome and are difficult to trace using phylogenetics methods.

In our study, we demonstrated that it is possible to achieve the benefit by reconstructing copy number evolution history as a lineage tree, i.e., MEDALT, and performing permutation-based statistical analysis, i.e., LSA, to identify fitness-associated CNAs and genes.

We have learned several important lessons in our study.

First, it is important to perform accurate lineage tracing. Although the single-copy gain and loss model that we implemented in deriving MEDALTs is limited in complexity, it already performed substantially better than conventional phylogenetics algorithms such as MP that assumes infinite sites and NJ that employs naïve distance metrics, as shown in our simulation and in real data analysis. It is conceivable that further development of methodology that incorporates more complex genome evolution mechanisms such as chromothripsis [56] can lead to better results.

An important goal was to represent convergent evolution that is likely prevalent in the lens of CNAs [10, 57]. Conventional phylogenetics algorithms strictly prohibit the expression of convergent evolution by disallowing an alteration to occur multiple times in a course of evolution [28]. Several new algorithms relaxed such limitation but were designed for analyzing point mutation data [58]. As shown in our analysis of the TNBC patients, genes identified based on convergent evolution analysis (i.e., PLSA) had an even higher fraction of known cancer genes than those identified based on cohort-level single-lineage LSA. Our result suggests that examining convergent evolution is likely a key component towards fully unleashing the power of single-cell studies.

Unlike canonical phylogenetic trees, MEDALTs are minimal spanning trees that do not contain unobserved internal ancestral nodes. Representing evolution using minimal spanning trees instead of phylogenetics trees was our deliberate choice, as it allowed us to develop polynomial-runtime solutions that are scalable to real datasets containing thousands of cells. It also allowed us to conveniently implement biologically meaningful MED and enforce directionality constraints. Phylogenetics algorithms are likely effective when the numbers of cells are small and that the alterations are simple to trace. None of these conditions apply to available SCCN datasets that have CNAs evolving non-linearly in hundreds of cells. Moreover, we have shown in our simulation that for the purpose of detecting fitness-association alterations, our method outperformed phylogenetics approaches in a wide range of sample sizes.

A particular challenge in developing and evaluating computational lineage tracing methods is the lack of exact ground truth. Although various experimental technologies have been developed [59, 60], we are not aware of any that can be applied to trace copy number evolution in patient samples. To circumvent this, we utilized in silico simulation that mimics several prevalent CNA mechanisms to evaluate the accuracies of the reconstructed lineages and fitness-associated alterations. We also utilized longitudinal datasets on which we knew the biological stages of the cells to evaluate the chronological accuracy of the inference results. Although these strategies are unlikely sufficient to validate all the edges and lengths in the trees, they are objective and sufficient to discriminate various approaches.

Second, it is important to control biases in statistical inference. It is challenging to detect fitness-associated genes, as CNAs often affect a large number of genes and that the sample sizes are often small. Passenger CNAs that occur naturally in non-functional regions such as those near fragile sites or repeats could easily cloud the discovery. In addition, lineage tracing algorithms are unlikely to be perfect and could introduce distinct biases. To address these challenges, we employed LSA, which randomly permutes SCCN profiles into different cells to reduce the biases introduced by background genomic variations and technical noises. And we reconstructed trees from permutated datasets to alleviate biases introduced by the lineage tracing algorithms. The evolutionarily meaningful MED metrics and constraints help our analyses to focus on biologically relevant hypotheses, given limited computational resources. These procedures appeared important to achieve the accuracy. Further exploration of different ways to permute the data and to estimate the background distribution will likely lead to better results.

We assessed the functional impact of the identified genes using cell-line CRISPR essentiality screen data. We confirmed that the set of fitness-associated, amplified genes discovered by our methods are significantly more essential than other control gene sets in cancer cell lines. We also nominated novel genes that appear to have prognostic values in TCGA and the METABRIC datasets. These assessment strategies likely have false positives and negatives. Further comprehensive, well-controlled and targeted experiments will likely be required to fully assess the functional impact and clinical values of these genes.

Lastly, it was exciting to observe benefits of our methods on both the scDNA-seq and the scRNA-seq data. Although RNA-derived copy number profiles may not be as accurate as those derived from DNAs, previous studies [61] suggested that they can reasonably distinguish tumor clones. Our study further revealed the value of scRNA-seq data in lineage tracing and supported the notion that genomic profiles, even approximations, are more accurate than transcriptomic profiles in determining biological timing of cells. Our results opened doors towards utilizing scRNA-seq as a platform to understand genetics underlying developmental processes and perform gene discovery.


استنتاج

The number of users proves that MEXPRESS, through its ease of use and unique, integrative data overview, found its place in the toolbox of many researchers. By combining a comprehensive visualization and statistical analysis in a single figure, MEXPRESS helps researchers quickly identify dysregulations and their clinical relevance in cancer. With this major, feedback-driven update, we aim to consolidate MEXPRESS’s place in the set of open source web tools available to researchers and clinicians.


أساليب

Haploproficient genes and orthology analysis

The set of S.cerevisiae genes which are haploproficient in turbidostat culture was obtained using the growth data of [8] and an FDR cutoff of 0.02. This stringent FDR cut-off rigorously defines those genes for which heterozygosity confers a strong fitness advantage, but has no effect on the functional enrichment of genes identified as haploproficient. Genes defined as ‘haploproficient’ for the purposes of this study are listed in Additional file 1: Table S1. The set of chromosome maintenance-associated HP genes described in [8] overlaps, but is not coincident, with the HPGI set studied here, since the current set also includes DNA damage-response genes.

Orthology assignments were made using the InParanoid algorithm [50] and compared with the results of a BLAST [51] reciprocal best-hits search. GO enrichment searches were performed using the Babelomics 4 FatiGO tool [52]. To assess the significance of HP gene conservation, the number of HP genes having orthologs in a given Ascomycete species, given the number of S. cerevisiae HP genes, was compared against the whole-genome conserved proportion using a χ 2 or Fisher exact test (depending on sample size), with the null hypothesis of identical distribution. All findings of significance were reiterated using a Z test for difference of proportions. Where necessary, ص values were corrected for multiple testing using the Bonferroni correction. Cell cycle and DNA damage repair pathways were obtained from the KEGG pathway database [53].

Expression data for S.cerevisae genes was obtained from the Saccharomyces Genome Database [54] and protein expression levels from [55]. A list of human cancer genes/oncogenes was obtained from the Cancer Gene Index [17] enrichment of HP genes amongst the orthologs was determined using a χ 2 test as above. CNV incidence across eight tumour types (breast invasive carcinoma, rectum adencarcinoma colon adenocarcinoma, kidney renal cell clear carcinoma, uterine corpus endometrioid carcinoma, glioblastoma multiforme, acute myeloid leukemia, lung adenocarcinoma, lung squamous cell carcinoma, serous cystadenocarcinoma) as measured by comparative genomic hybridisation, was obtained from the NCI Cancer Genome Atlas online data browser [17] with a copy number (log2 ratio) of magnitude >0.5 taken as the significance threshold. Details of the sampling and analysis of the tumour samples are described in [17]. أ P-value for HP ortholog overrepresentation was calculated using a χ 2 test .The TGCA database was also used to perform a pathway search for overrepresentation of HP orthologs.

Yeast strains

In total, 30 HP genes were chosen for analysis, based upon the criteria discussed in the Results above. The heterozygous deletion mutant of each gene was obtained from the heterozygous diploid deletion library (Open Biosystems), in the BY4743 (حصيرة أ /α, his3D1/his3D1, leu2D0/leu2D0, LYS2/lys2D0, met15D0/MET15, ura3D0/ura3D0) genetic background. For non-essential genes, the homozygous deletant was retrieved from the analogous homozygous diploid deletion library (Open Biosystems).

Control strains were the BY4743 WT, along with the heterozygous deletion mutant of the non-functional his3 locus the non-HP, non-cell cycle هو/ح heterozygous deletion strain and the heterozygous deletion mutant of the non-HP, cell cycle gene HSL1. In addition, heterozygous deletion mutants of the G1 and G2 cyclins were included in several of the experiments. A complete list of the strains used is provided in Additional file 6: Table S6.

Cell-cycle profiling

Flow cytometric analysis of the deletion strains’ cell cycle profiles was carried about following the method of [56]. موجز،

10 7 cells in mid-exponential phase were harvested, washed, and fixed in absolute ethanol at 4C overnight. Fixed cells were then collected, washed, and boiled for 15 minutes in 2 mg/mL RNAse in 50 mM Tris-Cl (pH 8), and incubated at 37C for 2–12 hours. Cells were resuspended in protease solution (5 mg/mL pepsin, 4.5 μL/mL concentrated HCl), incubated for 15 minutes at 37C and resuspended in 50 mM Tris (pH 7.5). For analysis, 50 mL of cell suspension was added to 1 mL of 1 mM Sytox Green in 50 mM Tris pH 7.5), vortexed and analysed using a Cyan flow cytometer (Beckman Coulter). FlowJo (Tree Star) analysis software was used to fit histograms to the peaks representing 1C and 2C DNA content, and thereby calculate the number of cells in the G1 and G2 phases, and infer the number in S phase from the remaining fraction of the population.

Chronological lifespan assay

Cultures were inoculated from frozen stocks, grown overnight in YPD at 3°C, and 200mL of each was transferred into a well of a 96-well microtiter plate (Corning). Strains were present in duplicate on each plate, with a buffer of WT in the wells around the edge of the plate, so edge effects would not impact test colony measurements. A Singer Rotor HDA colony pinning robot was used to spot four replicates of each well onto a YPD + 10 μg/mL phloxine B (Sigma) plate. Phloxine B is a fluorescein derivative taken up when the cell membrane is disrupted upon cell death [57]. Plates were incubated for 48 hours at 3°C and photographed using an Epson 1240 Scanner. The colony images were analysed using a custom image-analysis code written in MatLab, with colony size measured by pixel count, and fraction of dead cells by the intensity of colony redness [10]. Since these parameters are independent, this allowed the dissection of the effect of cell viability upon colony growth from that of growth rate variation. The 96-well liquid cultures were incubated at 3°C, and, every second day over a period of three weeks, the colony-pinning onto YPD + phloxine B and image analysis repeated. For each plate, the median culture intensity for each strain was compared with the growth of the WT on that plate, and also with the strain growth and viability after the initial 48-hour period. The experiment was performed twice.

At several points throughout the 3-week period, several strains were selected at random, and viability assayed by performing serial dilutions and counting colony-forming units. These results were checked for compatibility with the microplate viability results.

Apoptosis assays

The rate of occurrence of apoptosis in the different strain populations was measured in two ways. Apoptosis was first induced by pretreating cells with 0.001%, 0.01% MMS, 0.0001% or 0.001% TBHP in overnight culture keeping a negative, non-induced WT control sample.

The translocation of phosphatidyl serine to the cell surface, a marker of apoptosis [58], was measured using an Annexin V-FITC Apoptosis Detection kit. (Sigma). Cells were harvested, washed in 1.2M sorbitol, 0.5 mM MgCl2, 35 mM K phosphate (pH 6.8) and then digested in 5.5% glusulase (Sigma) and 15 U/mL lyticase (Sigma) for 2 hours at 28C. Spheroplasts were harvested, washed in binding buffer (10 mM Hepes/NaOH pH 7.4, 140 mM NaCl, 2.5 mM CaCl2 in 1.2 M sorbitol buffer) and resuspended in binding buffer/sorbitol. 5 mL of FITC-labelled annexin V, and 10 mL of 10010 mg/mL propidium iodide were added to each sample, with control samples containing 1.) no label, 2.) FITC-annexin V only, and 3.) PI only. Fluorescence was quantified using a CyAn (Beckman Coulter). Gates were fitted on the basis of the the control samples, dividing a log PI versus log FITC plot into four quadrants: lower left (neither FITC nor PI-stained) – viable cells upper left (PI stain only) – necrotic cells lower right (FITC only) – early apoptotic cells and upper right (PI and FITC-stained) – late apoptotic cells. FlowJo software (TreeStar) was used to count the fraction of the total cell population in each quadrant. The proportion of both necrotic and apoptotic cells for each strain was normalised to strain viability (i.e. on the basis of the proportion of cells assigned to the lower-left FITC/PI quadrant), and the ratio of necrotic:apoptotic cells calculated. Ratios for each strain were normalised to the WT value, and the standard deviation across all samples calculated. Strains having a necrosis:apoptosis ratio further than 1.5x this standard deviation from WT levels were deemed to demonstrate abnormal apoptosis rates.

Growth rate and drug sensitivity assays

Growth and drug sensitivity assays were performed both on solid media and in liquid cultures. For solid assays, the required drug concentration was added to YPD-agar containing 10μg/m/mL phloxine B. Overnight cultures of the strains were spotted onto the (drug-containing) plates using a Singer rotor, as above. Plates were incubated at 3°C and photographed at 24 and 48 hours and analysed using an image-processing code as described above. Strain growth and viability was compared both with WT growth on the same plate, and with growth on YPD-agar (or YPD-agar plus DMSO, where the drug is DMSO-soluble). The ratio of viability and size with and without drug was calculated for every strain on a plate, and the standard deviation of all ratios calculated. Strains having a drug:untreated ratio greater than or less than two standard deviations from that of the WT were deemed to be resistant and sensitive, respectively.

Assays in liquid culture were performed by transferring 5mL of overnight culture into each well of a 96-well microtitre plate, containing 200 μL of YPD plus the required concentration of drug. Absorbance was measured for 30 hours at 3°C using a BMG Optima platereader, maximum growth rate calculated using a curve-fitting script written in R, and the growth rate for each strain compared with that of the WT in the same plate, and growth in YPD/YPD + DMSO.


مراجع

Yi K, Ju Y. Patterns and mechanisms of structural variations in human cancer. Exp Mol Med. 201850:98.

Yang L, Luquette L, Gehlenborg N, Xi R, Haseley P, Hsieh C, Zhang C, Ren X, Protopopov A, Chin L, et al. Diverse mechanisms of somatic structural variations in human cancer genomes. زنزانة. 2013153:919–29.

Zhang Y, Yang L, Kucherlapati M, Chen F, Hadjipanayis A, Pantazi A, Bristow C, Lee E, Mahadeshwar H, Tang J, et al. A pan-cancer compendium of genes deregulated by somatic genomic rearrangement across more than 1,400 cases. Cell Rep. 201824:515–27.

Campbell P, Getz G, Stuart J, Korbel J, Stein L. Pan-cancer analysis of whole genomes. Preprint at. 2017. https://doi.org/10.1101/162784.

Zhang Y, Chen F, Fonseca N, He Y, Fujita M, Nakagawa H, Zhang Z, Brazma A, Creighton C. Whole genome and RNA sequencing of 1,220 cancers reveals hundreds of genes deregulated by rearrangement of cis-regulatory elements. Preprint at. 2017. https://doi.org/10.1101/099861.

Deaton A, Bird A. CpG islands and the regulation of transcription. تطوير الجينات. 201125: 1010–22.

Bird A. DNA methylation patterns and epigenetic memory. تطوير الجينات. 200216:6–21.

Pfeifer G. Defining driver DNA methylation changes in human cancer. Int J Mol Sci. 201819:E1166.

Morano A, Angrisano T, Russo G, Landi R, Pezone A, Bartollino S, Zuchegna C, Babbio F, Bonapace I, Allen B, et al. Targeted DNA methylation by homology-directed repair in mammalian cells. Transcription reshapes methylation on the repaired gene. الدقة الأحماض النووية. 201442:804–21.

Russo G, Landi R, Pezone A, Morano A, Zuchegna C, Romano A, Muller M, Gottesman M, Porcellini A, Avvedimento E. DNA damage and repair modify DNA methylation and chromatin domain of the targeted locus: mechanism of allele methylation polymorphism. Sci Rep. 20166:33222.

Allen B, Pezone A, Porcellini A, Muller M, Masternak M. Non-homologous end joining induced alterations in DNA methylation: a source of permanent epigenetic change. Oncotarget. 20178:40359–72.

Sun W, Bunn P, Jin C, Little P, Zhabotynsky V, Perou C, Hayes D, Chen M, Lin D. The association between copy number aberration, DNA methylation and gene expression in tumor samples. الدقة الأحماض النووية. 201846:3009–18.

Davis C, Ricketts C, Wang M, Yang L, Cherniack A, Shen H, Buhay C, Kang H, Kim S, Fahey C, et al. The somatic genomic landscape of chromophobe renal cell carcinoma. الخلايا السرطانية. 201426:319–30.

Forbes S, Beare D, Boutselakis H, Bamford S, Bindal N, Tate J, Cole C, Ward S, Dawson E, Ponting L, et al. COSMIC: somatic cancer genetics at high-resolution. الدقة الأحماض النووية. 201745:D777–83.

Lawrence M, Stojanov P, Mermel C, Robinson J, Garraway L, Golub T, Meyerson M, Gabriel S, Lander E, Getz G. Discovery and saturation analysis of cancer genes across 21 tumour types. طبيعة سجية. 2014505:495–501.

Chen F, Zhang Y, Gibbons D, Deneen B, Kwiatkowski D, Ittmann M, Creighton C. Pan-cancer molecular classes transcending tumor lineage across 32 cancer types, multiple data platforms, and over 10,000 cases. كلين كانسر ريس. 201824:2182–93.

Storey JD, Tibshirani R. Statistical significance for genomewide studies. Proc Natl Acad Sci U S A. 2003100:9440–5.

Hu X, Wang Q, Tang M, Barthel F, Amin S, Yoshihara K, Lang F, Martinez-Ledesma E, Lee S, Zheng S, Verhaak R. TumorFusions: an integrative resource for cancer-associated transcript fusions. الدقة الأحماض النووية. 201846:D1144–9.

Peifer M, Hertwig F, Roels F, Dreidax D, Gartlgruber M, Menon R, Krämer A, Roncaioli J, Sand F, Heuckmann J, et al. Telomerase activation by genomic rearrangements in high-risk neuroblastoma. طبيعة سجية. 2015526:700–4.

Creighton C, Hernandez-Herrera A, Jacobsen A, Levine D, Mankoo P, Schultz N, Du Y, Zhang Y, Larsson E, Sheridan R, et al. Integrated analyses of microRNAs demonstrate their widespread influence on gene expression in high-grade serous ovarian carcinoma. بلوس واحد. 20127:e34546.

Ungewiss C, Rizvi Z, Roybal J, Peng D, Gold K, Shin D, Creighton C, Gibbons D. The microRNA-200/Zeb1 axis regulates ECM-dependent β1-integrin/FAK signaling, cancer cell invasion and metastasis through CRKL. Sci Rep. 20166:18652.

Kiuru-Kuhlefelt S, Sarlomo-Rikala M, Larramendy M, Söderlund M, Hedman K, Miettinen M, Knuutila S. FGF4 and INT2 oncogenes are amplified and expressed in Kaposi’s sarcoma. وزارة الدفاع باتول. 200013:433–7.

Weischenfeldt J, Dubash T, Drainas A, Mardin B, Chen Y, Stütz A, Waszak S, Bosco G, Halvorsen A, Raeder B, et al. Pan-cancer analysis of somatic copy-number alterations implicates IRS4 and IGF2 in enhancer hijacking. نات جينيه. 201749:65–74.

Godinho M, Meijer D, Setyono-Han B, Dorssers L, van Agthoven T. Characterization of BCAR4, a novel oncogene causing endocrine resistance in human breast cancer cells. J Cell Physiol. 2011226:1741–9.

Kim J, Piao H, Kim B, Yao F, Han Z, Wang Y, Xiao Z, Siverly A, Lawhon S, Ton B, et al. Long noncoding RNA MALAT1 suppresses breast cancer metastasis. نات جينيه. 201850:1705–15.

Yang X, Han H, De Carvalho D, Lay F, Jones P, Liang G. Gene body methylation can alter gene expression and is a therapeutic target in cancer. الخلايا السرطانية. 201426:577–90.

Dixon J, Selvaraj S, Yue F, Kim A, Li Y, Shen Y, Hu M, Liu J, Ren B. Topological domains in mammalian genomes identified by analysis of chromatin interactions. طبيعة سجية. 2012485:376–80.

Andersson R, Gebhard C, Miguel-Escalada I, Hoof I, Bornholdt J, Boyd M, Chen Y, Zhao X, Schmidl C, Suzuki T, et al. An atlas of active enhancers across human cell types and tissues. طبيعة سجية. 2014507:455–61.

Taylor A, Shih J, Ha G, Gao G, Zhang X, Berger A, Schumacher S, Wang C, Hu H, Liu J, et al. Genomic and functional approaches to understanding cancer aneuploidy. الخلايا السرطانية. 201833:676–89.

Knijnenburg T, Wang L, Zimmermann M, Chambwe N, Gao G, Cherniack A, Fan H, Shen H, Way G, Greene C, et al. Genomic and molecular landscape of DNA damage repair deficiency across The Cancer Genome Atlas. Cell Rep. 201823:239–54 1.

Bindea G, Mlecnik B, Tosolini M, Kirilovsky A, Waldner M, Obenauf A, Angell H, Fredriksen T, Lafontaine L, Berger A, et al. Spatiotemporal dynamics of intratumoral immune cells reveal the immune landscape in human cancer. Immunity. 201339:782–95.

Thorsson V, Gibbs D, Brown S, Wolf D, Bortone D, Ou Yang T, Porta-Pardo E, Gao G, Plaisier C, Eddy J, et al. The immune landscape of cancer. Immunity. 201848:812–30.

Mermel CH, Schumacher SE, Hill B, Meyerson ML, Beroukhim R, Getz G. GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. جينوم بيول. 201112:R41.

Alaei-Mahabadi B, Bhadury J, Karlsson J, Nilsson J, Larsson E. Global analysis of somatic structural genomic alterations and their impact on gene expression in diverse human cancers. Proc Natl Acad Sci U S A. 2016113:13768–73.

Drier Y, Lawrence M, Carter S, Stewart C, Gabriel S, Lander E, Meyerson M, Beroukhim R, Getz G. Somatic rearrangements across cancer reveal classes of samples with distinct patterns of DNA breakage and rearrangement-induced hypermutability. الدقة الجينوم. 201323:228–35.

Esteller M. Epigenetics in cancer. N Engl J Med. 2008358:1148–59.

Eden A, Gaudet F, Waghmare A, Jaenisch R. Chromosomal instability and tumors promoted by DNA hypomethylation. علم. 2003300:455.

Coarfa C, Pichot C, Jackson A, Tandon A, Amin V, Raghuraman S, Paithankar S, Lee A, McGuire S, Milosavljevic A. Analysis of interactions between the epigenome and structural mutability of the genome using Genboree Workbench tools. المعلوماتية الحيوية BMC. 201415(Suppl 7):S2.

Hajkova P, Jeffries S, Lee C, Miller N, Jackson S, Surani M. Genome-wide reprogramming in the mouse germ line entails the base excision repair pathway. علم. 2010329:78–82.

Laird P, Jaenisch R. DNA methylation and cancer. همهمة مول جينيه. 19943 Spec No:1487–95.

James S, Pogribny I, Pogribna M, Miller B, Jernigan S, Melnyk S. Mechanisms of DNA damage, DNA hypomethylation, and tumor progression in the folate/methyl-deficient rat model of hepatocarcinogenesis. J نوتر. 2003133:3740S–7S.

Yung C, O'Connor B, Yakneen S, Zhang J, Ellrott K, Kleinheinz K, Miyoshi N, Raine K, Royo R, Saksena G, et al. Large-scale uniform analysis of cancer whole genomes in multiple computing environments. Preprint at. 2017. https://doi.org/10.1101/161638.

Wala J, Shapira O, Li Y, Craft D, Schumacher S, Imielinski M, Haber J, Roberts N, Yao X, Stewart C, et al. Selective and mechanistic sources of recurrent rearrangements across the cancer genome. Preprint at. 2017. https://doi.org/10.1101/187609.

Chen K, Wallis J, McLellan M, Larson D, Kalicki J, Pohl C, McGrath S, Wendl M, Zhang Q, Locke D, et al. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. طرق نات. 20096:677–81.

Chen F, Zhang Y, Şenbabaoğlu Y, Ciriello G, Yang L, Reznik E, Shuch B, Micevic G, De Velasco G, Shinbrot E, et al. Multilevel genomics-based taxonomy of renal cell carcinoma. Cell Rep. 201614:2476–89.

Lee A, Ewing A, Ellrott K, Hu Y, Houlahan K, Bare J, Espiritu S, Huang V, Dang K, Chong Z, et al. Combining accurate tumor genome simulation with crowdsourcing to benchmark somatic structural variant detection. جينوم بيول. 201819:188.

Fonseca N, Kahles A, Lehmann K-V, Calabrese C, Chateigner A, Davidson N, Demircioğlu D, He Y, Lamaze F, Li S, et al. Pan-cancer study of heterogeneous RNA aberrations. Preprint at. 2017. https://doi.org/10.1101/183889.

The_Cancer_Genome_Atlas_Research_Network. Comprehensive molecular characterization of clear cell renal cell carcinoma. طبيعة سجية. 2013499:43–9.

Johnson W, Rabinovic A, Li C. Adjusting batch effects in microarray expression data using empirical Bayes methods. Biostatistics. 20078:118–27.

Hoadley K, Yau C, Hinoue T, Wolf D, Lazar A, Drill E, Shen R, Taylor A, Cherniack A, Thorsson V, et al. Cell-of-origin patterns dominate the molecular classification of 10,000 tumors from 33 types of cancer. زنزانة. 2018173:291–304.

McCarroll S, Kuruvilla F, Korn J, Cawley S, Nemesh J, Wysoker A, Shapero M, de Bakker P, Maller J, Kirby A, et al. Integrated detection and population genetic analysis of SNPs and copy number variation. نات جينيه. 200840:1166–74.

Gerstung M, Jolly C, Leshchiner I, Dentro S, Rosado S, Rosebrock D, Mitchell T, Rubanova Y, Anur P, Yu K, et al. The evolutionary history of 2,658 cancers. Preprint at. 2018. https://doi.org/10.1101/161562.

Xie C, Leung Y, Chen A, Long D, Hoyo C, Ho S. Differential methylation values in differential methylation analysis. المعلوماتية الحيوية. 201935:1094–7.

Creighton C, Nagaraja A, Hanash S, Matzuk M, Gunaratne P. A bioinformatics tool for linking gene expression profiling results with public databases of microRNA target predictions. RNA. 200814:2290–6.

Saldanha AJ. Java Treeview--extensible visualization of microarray data. المعلوماتية الحيوية. 200420:3246–8.

Zhang Y, Yang L, Kucherlapati M, Chen F, Hadjipanayis A, Pantazi A, Bristow C, Lee E, Mahadeshwar H, Tang J, et al. R-code for linear models integrating expression data with somatic structural data. Github. 2019 https://github.com/chadcreighton/SV-expression_integration.


أساليب

Haploproficient genes and orthology analysis

The set of S.cerevisiae genes which are haploproficient in turbidostat culture was obtained using the growth data of [8] and an FDR cutoff of 0.02. This stringent FDR cut-off rigorously defines those genes for which heterozygosity confers a strong fitness advantage, but has no effect on the functional enrichment of genes identified as haploproficient. Genes defined as ‘haploproficient’ for the purposes of this study are listed in Additional file 1: Table S1. The set of chromosome maintenance-associated HP genes described in [8] overlaps, but is not coincident, with the HPGI set studied here, since the current set also includes DNA damage-response genes.

Orthology assignments were made using the InParanoid algorithm [50] and compared with the results of a BLAST [51] reciprocal best-hits search. GO enrichment searches were performed using the Babelomics 4 FatiGO tool [52]. To assess the significance of HP gene conservation, the number of HP genes having orthologs in a given Ascomycete species, given the number of S. cerevisiae HP genes, was compared against the whole-genome conserved proportion using a χ 2 or Fisher exact test (depending on sample size), with the null hypothesis of identical distribution. All findings of significance were reiterated using a Z test for difference of proportions. Where necessary, ص values were corrected for multiple testing using the Bonferroni correction. Cell cycle and DNA damage repair pathways were obtained from the KEGG pathway database [53].

Expression data for S.cerevisae genes was obtained from the Saccharomyces Genome Database [54] and protein expression levels from [55]. A list of human cancer genes/oncogenes was obtained from the Cancer Gene Index [17] enrichment of HP genes amongst the orthologs was determined using a χ 2 test as above. CNV incidence across eight tumour types (breast invasive carcinoma, rectum adencarcinoma colon adenocarcinoma, kidney renal cell clear carcinoma, uterine corpus endometrioid carcinoma, glioblastoma multiforme, acute myeloid leukemia, lung adenocarcinoma, lung squamous cell carcinoma, serous cystadenocarcinoma) as measured by comparative genomic hybridisation, was obtained from the NCI Cancer Genome Atlas online data browser [17] with a copy number (log2 ratio) of magnitude Ϡ.5 taken as the significance threshold. Details of the sampling and analysis of the tumour samples are described in [17]. أ P-value for HP ortholog overrepresentation was calculated using a χ 2 test .The TGCA database was also used to perform a pathway search for overrepresentation of HP orthologs.

Yeast strains

In total, 30 HP genes were chosen for analysis, based upon the criteria discussed in the Results above. The heterozygous deletion mutant of each gene was obtained from the heterozygous diploid deletion library (Open Biosystems), in the BY4743 (حصيرةأ/α, his3D1/his3D1, leu2D0/leu2D0, LYS2/lys2D0, met15D0/MET15, ura3D0/ura3D0) genetic background. For non-essential genes, the homozygous deletant was retrieved from the analogous homozygous diploid deletion library (Open Biosystems).

Control strains were the BY4743 WT, along with the heterozygous deletion mutant of the non-functional his3 locus the non-HP, non-cell cycle هو/ح heterozygous deletion strain and the heterozygous deletion mutant of the non-HP, cell cycle gene HSL1. In addition, heterozygous deletion mutants of the G1 and G2 cyclins were included in several of the experiments. A complete list of the strains used is provided in Additional file 6: Table S6.

Cell-cycle profiling

Flow cytometric analysis of the deletion strains’ cell cycle profiles was carried about following the method of [56]. موجز،

10 7 cells in mid-exponential phase were harvested, washed, and fixed in absolute ethanol at 4C overnight. Fixed cells were then collected, washed, and boiled for 15 minutes in 2 mg/mL RNAse in 50 mM Tris-Cl (pH 8), and incubated at 37C for 2� hours. Cells were resuspended in protease solution (5 mg/mL pepsin, 4.5 μL/mL concentrated HCl), incubated for 15 minutes at 37C and resuspended in 50 mM Tris (pH 7.5). For analysis, 50 mL of cell suspension was added to 1 mL of 1 mM Sytox Green in 50 mM Tris pH 7.5), vortexed and analysed using a Cyan flow cytometer (Beckman Coulter). FlowJo (Tree Star) analysis software was used to fit histograms to the peaks representing 1C and 2C DNA content, and thereby calculate the number of cells in the G1 and G2 phases, and infer the number in S phase from the remaining fraction of the population.

Chronological lifespan assay

Cultures were inoculated from frozen stocks, grown overnight in YPD at 3ଌ, and 200mL of each was transferred into a well of a 96-well microtiter plate (Corning). Strains were present in duplicate on each plate, with a buffer of WT in the wells around the edge of the plate, so edge effects would not impact test colony measurements. A Singer Rotor HDA colony pinning robot was used to spot four replicates of each well onto a YPD +� μg/mL phloxine B (Sigma) plate. Phloxine B is a fluorescein derivative taken up when the cell membrane is disrupted upon cell death [57]. Plates were incubated for 48 hours at 3ଌ and photographed using an Epson 1240 Scanner. The colony images were analysed using a custom image-analysis code written in MatLab, with colony size measured by pixel count, and fraction of dead cells by the intensity of colony redness [10]. Since these parameters are independent, this allowed the dissection of the effect of cell viability upon colony growth from that of growth rate variation. The 96-well liquid cultures were incubated at 3ଌ, and, every second day over a period of three weeks, the colony-pinning onto YPD + phloxine B and image analysis repeated. For each plate, the median culture intensity for each strain was compared with the growth of the WT on that plate, and also with the strain growth and viability after the initial 48-hour period. The experiment was performed twice.

At several points throughout the 3-week period, several strains were selected at random, and viability assayed by performing serial dilutions and counting colony-forming units. These results were checked for compatibility with the microplate viability results.

Apoptosis assays

The rate of occurrence of apoptosis in the different strain populations was measured in two ways. Apoptosis was first induced by pretreating cells with 0.001%, 0.01% MMS, 0.0001% or 0.001% TBHP in overnight culture keeping a negative, non-induced WT control sample.

The translocation of phosphatidyl serine to the cell surface, a marker of apoptosis [58], was measured using an Annexin V-FITC Apoptosis Detection kit. (Sigma). Cells were harvested, washed in 1.2M sorbitol, 0.5 mM MgCl2, 35 mM K phosphate (pH 6.8) and then digested in 5.5% glusulase (Sigma) and 15 U/mL lyticase (Sigma) for 2 hours at 28C. Spheroplasts were harvested, washed in binding buffer (10 mM Hepes/NaOH pH 7.4, 140 mM NaCl, 2.5 mM CaCl2 in 1.2 M sorbitol buffer) and resuspended in binding buffer/sorbitol. 5 mL of FITC-labelled annexin V, and 10 mL of 10010 mg/mL propidium iodide were added to each sample, with control samples containing 1.) no label, 2.) FITC-annexin V only, and 3.) PI only. Fluorescence was quantified using a CyAn (Beckman Coulter). Gates were fitted on the basis of the the control samples, dividing a log PI versus log FITC plot into four quadrants: lower left (neither FITC nor PI-stained) – viable cells upper left (PI stain only) – necrotic cells lower right (FITC only) – early apoptotic cells and upper right (PI and FITC-stained) – late apoptotic cells. FlowJo software (TreeStar) was used to count the fraction of the total cell population in each quadrant. The proportion of both necrotic and apoptotic cells for each strain was normalised to strain viability (i.e. on the basis of the proportion of cells assigned to the lower-left FITC/PI quadrant), and the ratio of necrotic:apoptotic cells calculated. Ratios for each strain were normalised to the WT value, and the standard deviation across all samples calculated. Strains having a necrosis:apoptosis ratio further than 1.5x this standard deviation from WT levels were deemed to demonstrate abnormal apoptosis rates.

Growth rate and drug sensitivity assays

Growth and drug sensitivity assays were performed both on solid media and in liquid cultures. For solid assays, the required drug concentration was added to YPD-agar containing 10μg/m/mL phloxine B. Overnight cultures of the strains were spotted onto the (drug-containing) plates using a Singer rotor, as above. Plates were incubated at 3ଌ and photographed at 24 and 48 hours and analysed using an image-processing code as described above. Strain growth and viability was compared both with WT growth on the same plate, and with growth on YPD-agar (or YPD-agar plus DMSO, where the drug is DMSO-soluble). The ratio of viability and size with and without drug was calculated for every strain on a plate, and the standard deviation of all ratios calculated. Strains having a drug:untreated ratio greater than or less than two standard deviations from that of the WT were deemed to be resistant and sensitive, respectively.

Assays in liquid culture were performed by transferring 5mL of overnight culture into each well of a 96-well microtitre plate, containing 200 μL of YPD plus the required concentration of drug. Absorbance was measured for 30 hours at 3ଌ using a BMG Optima platereader, maximum growth rate calculated using a curve-fitting script written in R, and the growth rate for each strain compared with that of the WT in the same plate, and growth in YPD/YPD +𠂝MSO.


2. الطرق

This section proposes an expanded graph database model that includes the gene expression, miRNA expression, DNA methylation, copy number gain and loss information, tissue slide information, and mutation data from TCGA. It also outlines the steps performed to create the proposed graph database model.

2.1. البيانات

For this study, we have specifically added copy number information, miRNA expression, and image information of the tissue slide to the previously stored clinical information, gene expression (log2 counts per million), hyper and hypomethylation information, and mis-sense mutation data from the Genomics Data Commons (GDC) for breast cancer (BRCA), prostate adenocarcinoma (PRAD), and the pancreatic adenocarcinoma (PAAD). Table 1 shows the summary information about the data set used for this study.


شاهد الفيديو: TCGA data analysis using GEPIA2, Part-1. Hindi (ديسمبر 2022).