؟ @" /> ؟ @" />
معلومة

لماذا نطاق جودة تنسيق fastq واسع جدًا؟

لماذا نطاق جودة تنسيق fastq واسع جدًا؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

بالإشارة إلى تنسيق fastq ، من الواضح أنه في تنسيق fastq ، هناك 94 قيمة جودة للحمض النووي المتسلسل لقراءة تسلسل الحمض النووي وهي:

! "# $٪ & '() * +، -. / 0123456789:؛ <=>؟ @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [] ^ _' abcdefghijklmnopqrstuvwxyz {|} ~

إذن لدي سؤالان:

  1. لماذا نطاق قيمة الجودة واسع جدًا (94 مستوى)؟

  2. في حالة معينة لتحليل البيانات ، رأينا تكرارأناعالية جدًا ، وهي ليست ذات جودة جيدة. إذن ، لماذا نقبل مثل هذه النوعية الرديئة في البحث؟


في البداية ، كان هناك العديد من ترميزات الجودة التي تستخدم لمتابعة نطاقات مختلفة من أحرف ASCII للإشارة إلى جودة القراءة. النطاق الذي ذكرته هو ملف اتحاد من كل تنسيقات الترميز هذه. في الوقت الحاضر ، الترميز الأكثر شيوعًا هو Phred + 33 (مستخدم بواسطة Illumina و Sanger و Ion Torrent وغيرها من أجهزة التسلسل الشائعة) التي تستخدم هذه الأحرف:

! "# $٪ & '() * +، -. / 0123456789:؛ <=>؟ @ ABCDEFGHI

اختلاف الشخصياتأنايشير إلى درجة phred 40. المحاذاة ، عندما يقرؤون فاستا الملفات ، بشكل افتراضي ، قم بتعيين درجة 40 (أنا) لجميع المناصب. قد يكون هذا أحد الأسباب التي تجعلك ترى الكثير منأنا.

على أي حال ، إذا كان fastq الخاص بك يتبع تنسيق phred + 33 ، فإن 40 (أنا) هي درجة جيدة جدًا تدل على جودة قراءة جيدة. أو يمكنك محاذاة ملفات fasta. ستكون نتيجة سيئة إذا كان ترميزك عبارة عن phred + 64 والذي أعتقد أنه ليس كذلك.

إضافة

الملف الذي قمت بربطه هو ملف سريع ملف. تم إجراء تجربة التسلسل هذه 454 GS FLX تيتانيوم آلة. 454 آلة تستخدم طريقة مختلفة لحساب درجات الجودة مقارنةً بدرجات phred الأساسية التقليدية. من الدليل:

6.6 نقاط الجودة الأساسية المكافئة للدرجة

يتم تحديد درجات الجودة للأفراد الذين يطلق عليهم القواعد من خلال طريقة تم تطويرها بالتعاون مع معهد واسع (Genome Research، 18 (5): 763-70، 2008) ، حيث المنهجية التي وصفها Ewing and Green (Genome Research، 8: 186- 194 ، 1998) لإنشاء درجات الجودة كجزء من خوارزمية Phred الأساسية ، يتم تطبيقه لتوليد درجات جودة لـ 454 قراءة تسلسل. درجات الجودة المحسوبة لكل طلب تتم كتابة القاعدة إلى ملفات CWF و SFF (واختياريا لملف يوازي ملف FASTA الأساسي). باختصار ، تقارن الطريقة خصائص إشارات التدفق لكل قاعدة مع الخصائص التي وُجد أنها مرتبطة بمعلومات إشارة دقيقة و / أو معرضة للخطأ ، باستخدام مجموعات تدريب من بيانات القراءة. يحدد التحليل متعدد المتغيرات لهذه الخصائص مجموعات قيم الخصائص التي تصف "صناديق" استدعاءات الأساس بشكل أفضل ، ثم يعيّن معدلات دقة مجموعة التدريب لاستدعاءات الأساس في كل سلة كنقاط جودة باستخدام المقياس التالي:

$$ Q = -10 text {log} _ {10} ( text {error rate}) $$

عادة ، سيكون لديك ملفان لـ 454 تجربة - أحدهما يحمل التسلسل والآخر يحمل الجودة في كل موضع. يمكن دمج هذه الملفات لإنشاء ملف fastq. تم ترميز هذا الملف بتنسيق phred + 33 (ويسمى أيضًا Sanger / Illumina 1.9) بالتنسيق الذي ذكرته أعلاه. أعتقد أن Phred + 33 هو أيضًا تنسيق الترميز القياسي المعتمد من قبل NCBI / ENA / DDBJ وجميع عمليات التسلسل الجديدة مشفرة بهذا التنسيق. إذا كنت لا تعرف الترميز ، يمكنك تشغيل fastqc على ملف fastq الخاص بك ويبلغ عن نوع الترميز.

في حالتك،أناسيشير إلى درجة 40 (قيمة ASCII - 33) مما يعني معدل خطأ يبلغ 10-4 أي أن القراءة جيدة.

يتم الحصول على الرسم البياني أدناه عن طريق fastqc تشغيل على ملفك. تشير الأشرطة إلى إحصائيات الجودة في كل موضع. لاحظ أن متوسط ​​الجودة ينخفض ​​قرب نهاية القراءة.

لا يشير ملف fasta إلى الجودة ولكن عندما تقوم بتعيينها إلى هدفك ، فإن التقويم (أعرف من تلك القائمة على Bowtie) يخصص درجة افتراضية قدرها 40 في كل موضع ، أثناء المحاذاة (وفي الإخراج).


كما ذكرWYSIWYG في إجابته ، يتم ترميز درجات الجودة في تنسيق ملف FASTQ بأحرف ASCII ، وكانت هناك عدة طرق لتشفير هذه المعلومات. تصف صفحة Wikipedia FASTQ التي تربطها في سؤالك بعض البدائل المختلفة (لست متأكدًا من جميعها).

الآن ، لماذا لدينا هذا النطاق الواسع من الشخصيات لدرجات الجودة يأتي إلى السؤال عما تعنيه هذه الشخصيات حقًا. ما يهمنا حقًا هو احتمال تعيين قاعدة معينة بشكل غير صحيح. هذا هو احتمال خطأ المكالمة الأساسية (ع). يمكننا تحديد نقاط الجودة بناءً على احتمال الخطأ على النحو التالي:

ف = -10 س لوجو 10 (ع)

لذلك ، إذا كانت مكالمتك الأساسية خاطئة حقًا (احتمال الخطأع = 1) من ثمف = 0. إذا كانت مكالمتك الأساسية صحيحة بالتأكيد (ع = 0) من ثمq -> Inf مثل p -> 0. تخيل أن احتمال الخطأ الخاص بك هوع = 0.0001(هذا هو ، على الأرجح ، تم تعيين القاعدة بشكل صحيح). ثمq = -10 * log10 (0.0001) = 40. لذلك ، درجةف = 40يعني احتمال حدوث خطأ في هذا الاستدعاء الأساسي لـ1/10000. تعتبر نقاط الجودة ، على حد علمي ، بين 0 و 40.

الآن ، هناك مشكلة أخرى وهي كيفية تضمين هذه المعلومات لكل قاعدة في ملف FASTQ. قد يتطلب الأمر مساحة تخزين كبيرة جدًا لتضمين النتيجة كرقم قيمة حقيقية (أي مع الكسور العشرية). الاحتمال بدلاً من ذلك هو تقريبها - بعد كل شيء ، لا يوجد فرق كبير بين درجة 39.7 و 40 - نحن نهتم أكثر بترتيب الحجم. ولكن بعد ذلك سيتعين علينا تخزين أعداد صحيحة مكونة من رقمين لكل قاعدة. ما يمكننا فعله هو قم بتعيين النتيجة المقربة إلى حرف ASCII المقابل + بعض الإزاحة. هذا هو ، كما ترى في صفحة FASTQ قيمة ASCII للحرفأناهو 73. إذا كنت تستخدم ترميز phred-33 فهذا يعني في الواقع تلك الشخصيةأنا = 73يتوافق مع نقاط الجودةف = 73 - 33 = 40مما يعنيع = 0.0001. هاهو. اختلاف الشخصيات! = 33يمثل النتيجة33 - 33 = 0 (ع = 1). في تمثيل phred-64 درجةف = 40مشفر بالحرفح = 104. ثمف = 104 - 64 = 40.

بالطبع هذا مجرد تقريب تقريبي حول كيفية تعيين درجة phred الفعلية. Phred هو في الواقع اسم برنامج تم تطويره لتعيين درجات الجودة إلى أحرف ASCII. تم شرح الطريقة بمزيد من التفصيل في المنشور الأصلي (الذي أعترف أنه مر به فقط):

Ewing B، Green P. استدعاء أساسي لتتبع مُسلسِل آلي باستخدام phred. II. احتمالات الخطأ. الدقة الجينوم. 1998 مارس ؛ 8 (3): 186-94.


أدت الفعالية من حيث التكلفة لتسلسل الجيل التالي (NGS) إلى تقدم البحث الجينومي ، وبالتالي توليد كمية كبيرة من البيانات الخام التي تتطلب غالبًا بنى تحتية فعالة مثل مراكز البيانات لإدارة تخزين ونقل هذه البيانات. تعد بيانات NGS المتولدة زائدة عن الحاجة بشكل كبير وتحتاج إلى ضغطها بكفاءة لتقليل تكلفة مساحة التخزين وعرض النطاق الترددي للإرسال. نقدم أ بدون فقدان بيانات, غير قائم على المرجع خوارزمية ضغط FASTQ ، والمعروفة باسم LFastqC ، وهي تحسين على أداة LFQC ، لمعالجة هذه المشكلات. تتم مقارنة LFastqC بالعديد من الضواغط الحديثة ، وتشير النتائج إلى أن LFastqC تحقق نسب ضغط أفضل لمجموعات البيانات المهمة مثل LS454 و PacBio و MinION. علاوة على ذلك ، تتمتع LFastqC بسرعة ضغط وإلغاء ضغط أفضل من LFQC ، والتي كانت في السابق خوارزمية الضغط الأفضل أداءً لمجموعة البيانات LS454. LFastqC متاح مجانًا على https://github.uconn.edu/sya12005/LFastqC.

الاقتباس: Al Yami S، Huang C-H (2019) LFastqC: ضاغط FASTQ عديم الفقد غير قائم على المرجع. بلوس واحد 14 (11): e0224806. https://doi.org/10.1371/journal.pone.0224806

محرر: رسلان كاليندار ، جامعة هلسنكي ، فنلندا

تم الاستلام: 2 مارس 2019 وافقت: 22 أكتوبر 2019 نشرت: 14 نوفمبر 2019

حقوق النشر: © 2019 اليامي ، هوانغ. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

توافر البيانات: يتم إيداع البيانات الأساسية لهذه الدراسة في NCBI SRA (https://www.ncbi.nlm.nih.gov/sra) تحت أرقام الانضمام التالية: SRX000376 ، SRX000706 ، SRX000712 ، SRX000711 ، SRX002925 ، SRX011353 ، SRX181937 ، SRX089128 ، SRX533603 ، SRX5822585 ، SRX5327410 ، ERX3333090 ، ERX593919.

التمويل: لم يتلق المؤلفون أي تمويل محدد لهذا العمل.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


لماذا نطاق جودة تنسيق fastq واسع جدًا؟ - مادة الاحياء

مقارنة خوارزميات ضغط FASTQ

تنتج تجارب تسلسل الجيل التالي (NGS) كمية هائلة من البيانات الخام التي سيتم استخدامها في مزيد من التحليل النهائي. عادةً ما يتم تخزين البيانات الأولية من أداة ما بتنسيق FASTQ ، وهو تنسيق نص خام حيث يتم تمثيل كل قراءة أساسية بمقدار 2 بايت - بايت لتوفير النيوكليوتيد في موضع معين والبايت الثاني يوفر درجة الجودة ، أو مدى الثقة كانت الأداة في استدعاء هذا النوكليوتيدات.

في تنسيق النص الخام ، تكون هذه الملفات ضخمة جدًا. على سبيل المثال ، عند تحديد تسلسل الجينوم البشري بأكمله ، تهدف التجارب في كثير من الأحيان إلى تمثيل كل نوكليوتيد في المتوسط ​​30 مرة في تسلسلها. سيؤدي ذلك إلى ملفات FASTQ خام حول:

ومع ذلك ، فإن تخزين البيانات كنص خام غير فعال بشكل لا يصدق. يتم اختيار النيوكليوتيدات عادةً من أبجدية مكونة من 4 أحرف (أو ربما أكثر من ذلك بقليل إذا كان المرء يرغب في السماح بالغموض أو عدم إجراء مكالمات) ، لذلك يتوقع المرء ما يزيد قليلاً عن 2 بت مطلوب لكل نيوكليوتيد بدلاً من 8 بتات الكاملة المتوفرة في ملف نصي. يختلف نطاق نقاط الجودة باختلاف الأداة ، حيث تستخدم بعض الأدوات أقل من 2 بت لتمثيل نقاط الجودة. من الناحية التاريخية ، كانت أكثر الأدوات شعبية تنتج حوالي 64 درجة جودة مختلفة والتي تتطلب حوالي 6 بتات لتشفيرها مباشرة. وبالتالي ، يجب أن يستغرق الترميز الثنائي البسيط للمعلومات حوالي نصف إصدار النص الساذج:

البيانات نفسها ليست موزعة بشكل موحد على الرغم من ذلك ، وبالتالي يجب تحقيق نسب ضغط أفضل باستخدام طرق الحتمية للضغط أو الاستفادة من المعلومات حول طبيعة البيانات الجينومية. تحقيقا لهذه الغاية ، أنشأ عدد من الباحثين أدوات لضغط البيانات الجينومية.

أنا مهتم بمسح بعض هذه الأدوات للتعرف على نسب الضغط التي تتحملها وتحديد ما إذا كانت قادرة على التوافق مع تدفقات عمل بيانات NGS النموذجية.

  • gzip - الطريقة الأكثر شيوعًا لضغط ملفات FASTQ هي ببساطة gzip. تقبل معظم أدوات المعلوماتية الحيوية الملفات المضغوطة كمدخلات. يوفر معيار gzip مستويات مختلفة من الضغط ، مما يسمح للمستخدمين بتبديل وقت الضغط وكفاءة الضغط. Gzip المستوى 1 هو الأسرع لضغط ملف معين ، ولكن على حساب بعض كفاءة الضغط. من ناحية أخرى ، يجب أن يوفر المستوى 9 من Gzip ملفًا إجماليًا أصغر على حساب زيادة وقت ضغط البيانات. بالنسبة لهذه الدراسة البسيطة ، قمت بتشغيل gzip باستخدام مستوى الضغط الافتراضي (المستوى 6) وكذلك أعلى مستوى ضغط (المستوى 9).
  • لم يتم تعيين BAM - تنسيق ملف BAM هو تنسيق ثنائي تم استخدامه تقليديًا لتخزين القراءات المعينة لجينوم مرجعي. في الآونة الأخيرة ، بدأ مجتمع المعلوماتية الحيوية في استخدام ملف BAM لتخزين القراءات الأولية غير المعينة أيضًا ، مع استخدام معهد Broad تنسيق uBAM كنقطة انطلاق لخط أنابيب أفضل الممارسات. يقوم التنسيق بترميز البيانات بتنسيق ثنائي ثم يتم ضغط هذه المعلومات الثنائية باستخدام خوارزمية ضغط كتلة gzip. وبالتالي ، فإن توقعاتنا الساذجة تتمثل في أن الحجم الإجمالي لـ uBAM يجب أن يكون على قدم المساواة مع ملفات FASTQ المضغوطة.
  • CRAM غير المعين - مثل تنسيق BAM ، فإن تنسيق CRAM هو تنسيق ثنائي يُستخدم عادةً لتخزين القراءات المعينة لجينوم مرجعي. عندما يتم توفير جينوم مرجعي ، يكون تنسيق CRAM قادرًا على ضغط البيانات بشكل أكثر شمولاً. يقوم تنسيق CRAM أيضًا بضغط البيانات على أساس العمود ، مما يسمح لخوارزمية الضغط بأن تكون أكثر كفاءة لأنها تضغط البيانات من نوع واحد معًا. سيكون من المثير للاهتمام أن نرى إلى أي مدى يكون CRAM غير المعين لدينا أفضل من BAM غير المعين نظرًا لأن بياناتنا لم يتم تعيينها ولن يتم توفير جينوم مرجعي. ملفات CRAM قادرة أيضًا على ضغط نقاط الجودة بطريقة ضياع. بالنسبة لهذا التقييم الأولي ، سوف نستخدم CRAM بطريقة تشفير بدون فقدان البيانات. - يوفر ضاغط FaStore كلاً من التكوين غير المنقوص والضياع. بالنسبة للضغط مع فقدان البيانات ، يمكن أن يغير معرّفات القراءة بالإضافة إلى تغيير درجات الجودة. بالنسبة لاختباراتنا ، سنقوم فقط بتقييم الوضع بدون خسارة في الوقت الحالي. على الرغم من أنني أظن أنه بالنسبة للعديد من الحالات ، إن لم يكن معظمها ، فإن ضغط درجات الجودة سيكون له تأثير ضئيل أو معدوم على التحليل النهائي ، لتبسيط التقييم الحالي ، سألتزم بالمناهج غير الخلافية غير الخاسرة. بعد قولي هذا ، سأقوم بتقييم تجاهل معرفات القراءة ، ولكن من الصعب بعض الشيء الحفاظ على درجات الجودة الكاملة وتجاهل معرفات القراءة باستخدام البرامج النصية التي توفرها FaStore. - يوفر الضاغط الزنبركي أوضاع ضياع وضياع مشابهة لـ FaStore. مثل FaStore ، سأقوم فقط بتقييم ضغط الجودة بدون فقدان هنا. سأقوم أيضًا بتقييم إزالة معرفات القراءة هنا على الرغم من أنها خيار مباشر للأداة. - يوفر هذا الضاغط أيضًا ضغطًا بلا خسارة أو ضياع لنتائج الجودة. مرة أخرى ، لأغراض التقييم الخاصة بنا ، سوف نتمسك بضياع في الوقت الحالي.

البيانات المستخدمة أثناء التقييم

كتقييم تمرير أول ، اخترت عينتين من NGS من أرشيف قراءة التسلسل (SRA) لتقييم مجموعة من تقنيات الضغط.

ريال 2962693: عينة بشرية كاملة من exome من طراز Illumina HiSeq 2500.

ريال 8861483: عينة بشرية كاملة من جينوم Illumina NovaSeq 6000.

بدءًا من أدوات NovaSeq الخاصة بهم ، بدأت Illumina في استخدام أسلوب تجميع مبسط للجودة ، حيث يستخدم كل زوج أساسي حوالي 2 بت لتخزين معلومات عالية الجودة بدلاً من

6 بتات مستخدمة في الأجهزة السابقة مثل خط HiSeq. وبالتالي ، يجب أن تسمح لنا عيناتنا بمراقبة اختلافات الأداء بسبب التغييرات في تمثيل الجودة عبر الأدوات القديمة والأحدث.

أولاً ، للأسف لم أتمكن من الحصول على FaStore لإكمال ضغط عينات الاختبار. لكل من عينات WES و WGS ، ستبدأ الأداة عملية متعددة المراحل لضغط البيانات ، ولكنها ستتجمد بعد ذلك. لم أر رسالة خطأ. أثناء مراقبة عمليات التشغيل الأولية ، لاحظت بعض القمم في استخدام الذاكرة ، لذلك جربت العينات على مثيل به موارد ذاكرة كبيرة - حوالي 128 جيجابايت. لقد وفرت أيضًا ما يصل إلى 1 تيرابايت من مساحة التخزين في حالة إنشاء ملفات مؤقتة كبيرة. للأسف ، لم تساعد هذه الجهود. سأعود في وقت ما للتحقيق في هذه الإخفاقات بمزيد من العمق ، ولكن في الوقت الحالي سأقوم فقط بالإبلاغ عن النتائج على الأدوات الأخرى.

بالنسبة لهذا التقييم الأولي ، اخترت عدم التركيز على تحسين توقيت كل نهج. بعض الأدوات هنا تستفيد من تعدد النوى بشكل أفضل من غيرها وقد تكون هناك طرق للاستفادة بشكل أكثر كفاءة من الأدوات (في نهج التجميع المبعثر على سبيل المثال) ، لكنني فكرت في حساب بسيط للوقت الذي استغرقته كل أداة ضغط البيانات لا تزال مفيدة.

لاحظ أنه بالنسبة لاثنين من مخططات الضغط (gzip و fqzcomp) ، بالنسبة إلى البيانات ذات النهاية المزدوجة ، تقوم الأدوات بضغط كل FASTQ بشكل منفصل. سوف أسجل كل من الوقت التسلسلي الإجمالي والأوقات لكل ملف لهذه العينات. في معظم الحالات ، أفترض أن استخدام الحد الأقصى للوقت لكل ملف سيكون أكثر صلة هنا لأنه في معظم الحالات ، قد يختار المرء تشغيل كل منها على التوازي.

بيانات exome كاملة ريال 2962693

AWS c5d.2xlarge 8 vCPU's 16 GB بيانات RAM تمت قراءتها وكتابتها على محرك أقراص NVME SSD

بيانات الجينوم الكاملة ريال 8861483

AWS r5d.4xlarge يتم قراءة بيانات ذاكرة الوصول العشوائي بسعة 16 وحدة المعالجة المركزية (vCPU) من محرك أقراص NVME SSD وكتابتها من محرك أقراص NVME SSD

بالنسبة للأدوات التي سمحت بتحديد عدد النوى المراد استخدامها ، تم طلب 8 مراكز لكل من عينات WES و WGS. تم اختيار المثيل الأكبر لـ WGS لتلبية متطلبات التخزين والذاكرة الأكبر المتوفرة.

عينة gzip gzip -9 uBAM يكرام FaStore الخريف الربيع - لا معرفات fqzcom
ريال 2962693 26 م و 26 م (إجمالي 52 م) 1 س 35 د و 1 س 39 د (3 س 14 د) 39 م 35 م DNF 26 م 26 م 32 م
ريال 8861483 1 س 36 د و 1 س 23 د (2 س 59 د) 9 س 35 د + 12 س = 21 س 35 د 2 س 34 د 2 س 35 د DNF 3 س 3 د 3 س 2 د 2 س 15 د
SRR2962693 WES SRR8861483 WGS
عينة gzip gzip -9 uBAM يكرام FaStore الخريف الربيع - لا معرفات fqzcomp
ريال 2962693 2 م و 2 م (إجمالي 4 م) 2 م و 2 م (إجمالي 4 م) 10 م 10 م DNF 16 م 16 م 14 م و 14 م (إجمالي 28 م)
ريال 8861483 11 م و 11 م (إجمالي 22 م) 11 م و 11 م (إجمالي 22 م) 58 م 1 س 25 د DNF 53 م 51 م 1 س 5 د و. (2 س 10 د)

(ملاحظة: لقد نسيت تسجيل الوقت لفك ضغط القراءة العكسية لـ fqzcomp. افترض أن الأمر سيستغرق وقتًا مماثلًا لفك ضغط القراءة العكسية كما فعلت لفك ضغط القراءة الأمامية.)

SRR2962693 WES SRR8861483 WGS

كما تمت مناقشته في قسم الأدوات ، فأنا أركز على الضغط بدون فقدان لهذه الدراسة الحالية. في كثير من الحالات ، قد يكون من المنطقي الاستفادة من الضغط مع الفقد ، حيث أن درجات الجودة صاخبة إلى حد ما ، ويظهر عدد من الدراسات أنه من الممكن بشكل كبير التخلص من نقاط الجودة دون التأثير على خطوط الاتصال المتغيرة النموذجية. ومع ذلك ، لتقييد النطاق بأسلوب الضغط الأكثر إثارة للجدل ، سأبحث الآن في الأساليب التي تحافظ على معلومات الجودة الأصلية الكاملة.

عينة SRA سريع FASTQ.gz FASTQ.gz -9 uBAM يكرام FaStore الخريف الربيع - لا معرفات fqzcomp
ريال 2962693 7 جيجا بايت 40 جيجا 10.3 جيجا بايت 9.4 جيجا بايت 9.3 جيجابايت 6.6 جيجا بايت DNF 3.5 جيجا بايت 3.5 جيجا بايت 4.7 جيجا بايت
ريال 8861483 23 جيجا بايت 284 جيجا بايت 33 جيجا بايت 32 جيجا بايت 33 جيجا بايت 22 جيجا بايت DNF 15 جيجا بايت 15 جيجا بايت 37 جيجا بايت
SRR2962693 WES SRR8861483 WGS

كما هو مقبول على نطاق واسع ، يجب على الباحثين على الأقل ضغط gzip لملفات FASTQ الأولية. بالنسبة لبيانات HiSeq ، أدى ذلك إلى تقليل مساحة التخزين بنسبة 75٪ تقريبًا مقارنةً بـ FASTQ الخام. أضف حقيقة أن الملفات المضغوطة gzip رخيصة لفك ضغطها وحقيقة أن معظم أدوات المعلوماتية الحيوية تقبل بالفعل ملفات FASTQ المضغوطة كمدخلات ، وأعتقد أنك ستجد أن هناك أسبابًا قليلة للاحتفاظ بملف FASTQ الخام لفترة طويلة جدًا.

بالنسبة للمستخدمين المهتمين بتوفير مساحة تخزين أكبر ، يبدو Spring خيارًا مقنعًا. لقد رأيت أحجام ملفات وفرت 55٪ - 66٪ مساحة تخزين إضافية مقارنة بملفات FASTQ المضغوطة.على الرغم من أن وقت فك الضغط كان أطول بكثير من ملف gzip البسيط ، إلا أنه لا يزال يبدو معقولًا بعد ساعة تقريبًا لفك ضغط عينة WGS على عقدة ذات 16 نواة (حيث تم استخدام 8 نوى فقط). كان من الجيد أيضًا أن يتم الاحتفاظ بترتيب القراءة الأصلي تمامًا (على عكس ملفات BAM و CRAM غير المعينة حيث يتم فرز القراءات حسب اسم القراءة) وأن أزواج القاعدة الأولية ودرجات الجودة تتطابق تمامًا مع البيانات الأولية ، على عكس fqzcomp الذي يتمتع بالجودة العرضية تغيير النتيجة. (مرة أخرى ، وفقًا لمؤلفي fqzcomp ، قد يتم توقع بعض التغييرات حيث أن fqzcomp ستحدد درجة الجودة إلى 0 لزوج أساسي يسمى N. إذا ربما كانت بعض التغييرات الفرعية على الأقل ناتجة عن مشكلة أخرى).

في وقت ضغط يبلغ حوالي 3 ساعات ووقت فك ضغط يبلغ حوالي ساعة لـ WGS على r5.4xlarge ، يمكننا حساب وقت التعادل لتخزين ملف Spring المضغوط مقابل ملف gzip على النحو التالي:

تخزين ساخن

أعتقد أننا يجب أن نكون قادرين على الاستفادة من r5d.2xlarge الأصغر ونرى أوقات تشغيل مماثلة للضغط وإلغاء الضغط نظرًا لأننا نستخدم 8 مراكز فقط. إذا كان هذا صحيحًا ، فسيحدث وقت التعادل في نصف الوقت تقريبًا ، أو بعد حوالي 5 أشهر.

بالنسبة للتخزين البارد (أي النهر الجليدي) ، سيتم دفع نقطة التعادل قليلاً.

أو ما يقرب من 26 شهرًا إذا تمكنا من استخدام r5d.2xlage.

إن الاستفادة من السوق الفوري من شأنه أن يجلب تواريخ التعادل لدينا بشكل أكبر وكذلك القدرة على الاستفادة من دورات الحوسبة غير المستغلة داخل خطوط أنابيب المعالجة الخاصة بنا لأداء الضغط.

لم أتحقق بشكل شامل من أن ضغط البيانات كان بلا ضياع تحت جميع الطرق. على الأقل ، لقد تحققت من أن كل أداة يمكن أن تنتج زوجًا من ملفات FASTQ التي تحتوي على نفس عدد الإدخالات مثل بيانات الإدخال.

ل fqzcomp، لقد تحققت من أن معلومات النيوكليوتيدات الخاصة بالبيانات غير المضغوطة تتطابق تمامًا مع الإدخال. ومع ذلك ، فقد لاحظت أن بعض درجات الجودة قد تم تغييرها. لاحظ المؤلفون أن جميع القواعد التي تسمى N سيتم تعيين نقاط جودتها على 0 رغم ذلك. لم أتحقق من أن جميع تغييرات الجودة يمكن تفسيرها من خلال هذا السلوك.

ل الخريف، لقد تحققت من أن معلومات النوكليوتيدات ومعلومات الجودة من البيانات غير المضغوطة تتطابق تمامًا مع بيانات الإدخال.

خلال uBAM و يكرام الإنشاء ، يتم فرز قراءات الإدخال حسب اسم القراءة ، مما يجعل المقارنة بين البيانات غير المضغوطة والبيانات الأولية أكثر صعوبة. في الوقت الحالي ، تحققت من أن النيوكليوتيدات ونتائج الجودة تتطابق تمامًا مع قراءة واحدة على الأقل. على الرغم من إمكانية إجراء تحقق أكثر شمولاً ، إلا أنني أشعر بالثقة إلى حد ما أنه بالنسبة لهذين التنسيقين ، يمكن للمرء أن يتوقع دقة البيانات الدقيقة للنيوكليوتيدات ودرجات الجودة.

في العديد من خطوط الأنابيب ، قد يكون من المنطقي تخزين البيانات المعينة والتخلص من البيانات الأولية الأصلية. بافتراض أن القراءات المعينة الخاصة بك تحتوي على إدخال كامل واحد على الأقل لكل قراءة أولية ، يجب أن تكون قادرًا على العودة إلى إدخال FASTQ غير المعين دون الكثير من المعاناة ، وستسمح لك البيانات المعينة بإعادة تشغيل خط الأنابيب الخاص به في مراحل الاتصال المتغير بدلاً من ذلك من إعادة تعيين العينات في أي عمليات إعادة تشغيل. في هذه الحالة ، من المحتمل أن يكون CRAM المعين ، مع ضغط نقاط الجودة باستخدام ضغط نقاط جودة CRAM الأصلي أو أدوات خارجية مثل Crumble ، أكثر منطقية.

ومع ذلك ، هناك عدد من الحالات التي يكون فيها الاحتفاظ بالبيانات الأولية غير المعينة أكثر منطقية. على سبيل المثال ، هناك العديد من التحليلات التي يمكن إجراؤها والتي لا تحتوي على مرحلة رسم الخرائط. أيضًا ، تتوقع بعض المشاريع أن يستفيد المستخدمون من الجينومات المرجعية المتعددة وفي هذه الحالة قد لا يكون تخزين البيانات المعينة لمرجع واحد منطقيًا. بالنسبة لهذه المشاريع ، قد يكون استخدام إحدى الأدوات المذكورة أعلاه هو الأنسب.


تسلسل الحمض النووي الريبي أحادي الخلية (Cell Ranger)

سيقدم هذا البرنامج التعليمي إعداد مكتبة RNA أحادية الخلية ويوفر إرشادات لتحليل مكتبة الخلية الواحدة باستخدام Cell Ranger. سوف نتعلم أساسيات بروتوكول Single Cell 3 ، وندير خطوط أنابيب Cell Ranger في مكتبة واحدة كتوضيح.

تم سرد البيانات النموذجية في هذا البرنامج التعليمي أدناه:

اعداد المكتبة

الخطوة 1 - إنشاء GEM & أمبير ؛ الترميز الشريطي

يقوم بروتوكول Single Cell 3 'بترقية متسلسلات القراءة القصيرة لتقديم منصة ميكروفلويديك قابلة للتطوير من أجل 3 تشكيلات تعبير جيني رقمي من 500 إلى 10000 خلية فردية لكل عينة. تقوم تقنية 10xTM GemCodeTM بتجربة مجموعة من

750.000 رمز شريطي لفهرسة نسخة كل خلية بشكل منفصل. وهي تقوم بذلك عن طريق تقسيم آلاف الخلايا إلى مستحلبات هلام على نطاق نانوليتر (GEMs) ، حيث تشترك جميع cDNA التي تم إنشاؤها في رمز شريطي مشترك 10x. يتم إنشاء المكتبات وتسلسلها من cDNA ويتم استخدام الرموز الشريطية 10x لربط القراءات الفردية بالأقسام الفردية.

لتحقيق دقة خلية واحدة ، يتم تسليم الخلايا بتخفيف محدود ، بحيث تكون الأغلبية (

90-99٪) من الأحجار الكريمة المولدة لا تحتوي على خلية ، بينما تحتوي الباقي إلى حد كبير على خلية واحدة.

عند تفكك حبة جل أحادية الخلية 3 'في GEM ، تحتوي البادئات التي تحتوي على (1) تسلسل Illumina R1 (اقرأ 1 تسلسل تمهيدي) ، (2) رمز شريطي 16 bp 10x ، (3) 10 bp عشوائي و (4) يتم تحرير تسلسل تمهيدي poly-dT وخلطه مع محلول الخلية و Master Mix. ثم ينتج عن احتضان الأحجار الكريمة شريطية كاملة الطول (كدنا) من مرنا متعدد الأدينيل. بعد الحضانة ، يتم كسر الأحجار الكريمة واستعادة الكسور المجمعة.

الخطوة 2 - ما بعد تنظيف GEM-RT وتضخيم cDNA

تُستخدم حبات السيلان المغناطيسية لإزالة بقايا الكواشف والكواشف الكيميائية الحيوية من خليط تفاعل GEM التالي. يتم بعد ذلك تضخيم (كدنا) كامل الطول ، مشفر بواسطة تفاعل البوليميراز المتسلسل لتوليد كتلة كافية لبناء المكتبة.

الخطوة 3 - بناء المكتبة

يتم استخدام التجزئة الأنزيمية واختيار الحجم لتحسين حجم أمبليكون (كدنا) قبل إنشاء المكتبة. تمت إضافة R1 (قراءة تسلسل تمهيدي واحد) إلى الجزيئات أثناء حضانة GEM. تتم إضافة P5 ، P7 ، فهرس عينة و R2 (قراءة تسلسل تمهيدي 2) أثناء إنشاء المكتبة عبر End Repair و A- tailing و Ad Ligation و PCR. تحتوي المكتبات النهائية على بادئات P5 و P7 المستخدمة في تضخيم جسر Illumina.

الخطوة 4 - تسلسل المكتبات

ينتج بروتوكول Single Cell 3 'مكتبات تسلسل جاهزة من Illumina. تتألف مكتبة "خلية واحدة 3" من تركيبات Illumina القياسية ذات النهايات المزدوجة والتي تبدأ وتنتهي بـ P5 و P7. يتم تشفير الكود الشريطي أحادي الخلية 3 '16 bp 10xTM و 10 bp العشوائي في Read 1 ، بينما يتم استخدام Read 2 لتسلسل جزء cDNA. يتم دمج تسلسلات الفهرس النموذجية كما يقرأ فهرس i7. يعد كل من Read 1 و Read 2 موقعين قياسيين لتسلسل Illumina يستخدمان في تسلسل الأطراف المزدوجة. يتم عرض الهيكل النهائي للمكتبة أدناه ، حيث يحدد الرمز الشريطي 10x خلية ويحدد عشوائي النص.

تحليل المكتبة

يبدأ سير عمل Cell Ranger دائمًا بتشغيل cellranger mkfastq على كل خلية تدفق. تختلف الخطوات اللاحقة بناءً على عدد العينات والمكتبات وخلايا التدفق لديك. سنصفها بترتيب التعقيد المتزايد:

عينة واحدة ، ومكتبة ، و Flowcell هي الحالة الأساسية. لديك عينة بيولوجية واحدة ، تم تحضيرها في مكتبة واحدة ، ثم تسلسلها على خلية تدفق واحدة. بافتراض أن FASTQs قد تم إنشاؤها باستخدام cellranger mkfastq ، فأنت تحتاج فقط إلى تشغيل عدد الأجهزة الخلوية كما هو موضح في تحليل المكتبة المفردة.

مكتبة واحدة ، خلايا تدفق متعددة إذا كان لديك مكتبة تم تسلسلها عبر خلايا تدفق متعددة ، فيمكنك تجميع القراءات من كلتا عمليات التسلسل. اتبع الخطوات الواردة في عينات الخلايا متعددة التدفق لدمجها في عملية عد خلية واحدة.

عينة واحدة ، مكتبات متعددة إذا قمت بإعداد مكتبات متعددة من نفس العينة (النسخ المتماثلة التقنية ، على سبيل المثال) ، فيجب تشغيل كل واحدة من خلال مثيل منفصل من عدد الخلايا الخلوية. بمجرد الانتهاء من ذلك ، يمكنك إجراء تحليل مشترك باستخدام cellranger aggr ، كما هو موضح في التجميع متعدد المكتبات.

عينات بيولوجية متعددة لإجراء تجربة كاملة تشتمل على عينات بيولوجية متعددة ، يجب إجراء عدد الخلايا الخلوية بشكل منفصل لكل مكتبة فردية مشتقة من كل من هذه العينات. على سبيل المثال ، إذا كانت تجربتك تتضمن أربع عينات ، لكل منها مكتبتان / مكررات ، فسيتعين عليك تشغيل عد الخلايا الخلوية ثماني مرات. ثم يمكنك دمجهم جميعًا في مكالمة واحدة إلى aggr.

لبقية هذا البرنامج التعليمي ، سوف نمر عينة واحدة ، ومكتبة ، و Flowcell من خلال تطبيق mkfastq والاعتماد على مجموعتين من البيانات على التوالي.

Cellranger mkfastq

خط أنابيب cellranger mkfastq عبارة عن غلاف مُحسَّن بمعدل 10x حول Illumina bcl2fastq ، والذي يزيل تعدد إرسال ملفات BCL من جهاز التسلسل إلى FASTQs لتحليلها. في هذا القسم ، نستخدم مثال التسلسل الصغير bcl كمثال. لا يتعين عليك & # 8217t تنزيل الملف إلى دليل العمل نظرًا لأن الملف موجود أيضًا في / UCHC / PublicShare / CBC_Tutorials / Tutorials / SingleCell / ، ولكن لأغراض التدريس ، يتم عرض تعليمات التنزيل لعينة البيانات أدناه:

الملف عبارة عن ملف مضغوط tar. لفك ضغط الملف ، اكتب:

سيؤدي هذا إلى إنشاء دليل فرعي جديد يسمى cellranger-tiny-bcl-1.2.0. لتشغيل خط أنابيب mkfastq ، يلزم أيضًا وجود ورقة عينة من Illumina Experiment Manager (IEM). لاحظ أن ورقة العينة الخاصة به هي مثال صالح فقط لكيمياء الخلية الواحدة 3 & # 8242 v2. أدخل الأمر أدناه لتنزيل ورقة البيانات. يمكن أيضًا العثور على نموذج الورقة في / UCHC / PublicShare / CBC_Tutorials / Tutorials / SingleCell /.

دع & # 8217s ننظر بإيجاز إلى ورقة عينة bcl الصغيرة قبل تشغيل خط الأنابيب. إنها ورقة عينة بتنسيق مدير تجربة Illumina (IEM). لاحظ أنه يمكنك تحديد مجموعة فهرس عينة 10x في عمود الفهرس بقسم البيانات:

[البيانات]
خط رقم تعريف العينة فهرس نموذج_مشروع
5 عينة 1 SI-GA-CS tiny_bcl

هنا ، يشير SI-GA-C5 إلى مجموعة من أربعة مؤشرات عينة منفصلة. يدعم cellranger mkfastq أيضًا تسلسلات oligo في عمود الفهرس. في هذا المثال ، سيتم استخدام عمليات القراءة من المسار 5 فقط. للبحث عن نموذج الفهرس المحدد عبر جميع الممرات ، احذف عمود الممرات بالكامل.

قبل تشغيل خط الأنابيب ، نحتاج إلى تحميل cellrange من خلال تطبيق حمل الوحدة. يمكنك التحقق من الإصدار المتاح من Cellranger عن طريق كتابة الوحدة المتاحة على Xanadu. في هذا البرنامج التعليمي ، نستخدم CellRanger / 1.2.1.

بعد ذلك ، نقوم بتشغيل Cellranger لإنشاء FASTQs. يحدد الخيار --run المسار إلى ملف BCL الذي تم فك ضغطه والذي تريد فك تعدد الإرسال. الخيار - تحدد ورقة العينة ورقة عينة المسار ، cellranger-tiny-bcl-sampleheet-1.2.0.csv في هذه الحالة ، يستغرق هذا بضع دقائق. يمكن العثور على البرنامج النصي mkfastq.sh الذي يقوم بتشغيل المثال في / UCHC / PublicShare / CBC_Tutorials / Tutorials / SingleCell /.

بمجرد اكتمال خط أنابيب cellranger mkfastq بنجاح ، يمكن العثور على الإخراج في دليل جديد مسمى بالرقم التسلسلي لخلية التدفق التي تمت معالجتها بواسطة cellranger mkfastq. الرقم التسلسلي لخلايا التدفق لمجموعة بيانات bcl الصغيرة هو H77WWBBXX. يمكن العثور على إخراج bcl2fastq في outs / fastq_path ، ويتم تنظيمه بنفس طريقة تشغيل bcl2fastq التقليدي.

بالإضافة إلى إنشاء FASTQs ، يكتب خط أنابيب mkfastq التسلسل ومقاييس مراقبة الجودة الخاصة بـ 10x في ملف JSON. المقاييس موجودة في ملف outs / qc_summary.json. هناك عدد غير قليل من المقاييس ، لكن القليل منها مفيد بشكل خاص. لنلق & # 8217s على مفتاح sample_qc. لقراءة الإدخال المرتبط بمفتاح معين ، افتح أولاً ملف JSON بأقل:

ثم أعد توجيه البحث عن طريق كتابة النص أدناه بأقل من ذلك.

هذا يجب أن يعود النتيجة كما هو موضح أدناه. مقياس sample_qc هو قاموس يحتوي على إدخال واحد لكل عينة مميزة في ورقة العينة ، وبنية مقاييس واحدة لكل حارة لكل عينة ، بالإضافة إلى بنية & # 8216all & # 8217 في حالة امتداد العينة إلى مسارات متعددة.

هناك بعض المقاييس الأخرى التي يمكننا التحقق منها من أجل تشخيص معدلات تعيين الباركود المنخفضة وقراءة الجودة قبل تشغيل خط أنابيب Cellranger. يتم عرض المفاتيح ووظائفها في الرسم البياني أدناه:
للحصول على قائمة كاملة بوسائط سطر الأوامر ومعلومات إضافية ، قم بتشغيل cellranger mkfastq --help.

العد الخلوي

العد الخلوي يأخذ ملفات FASTQ من cellranger mkfastq ويقوم بإجراء المحاذاة والتصفية وعد UMI. يستخدم الباركود الخلوي Chromium لإنشاء مصفوفات الباركود الجيني وإجراء تحليل التجميع والتعبير الجيني. يمكن للعد أن يأخذ مدخلات من عدة عمليات تشغيل في نفس المكتبة.

سنستخدم مجموعة بيانات تم إنشاؤها من 100 1: 1 مزيج من الخلايا البشرية الطازجة المجمدة (HEK293T) والفأرة (NIH3T3). مجموعة البيانات متاحة على / UCHC / PublicShare / CBC_Tutorials / Tutorials / SingleCell / hgmm100. بالإضافة إلى ذلك ، نحتاج أيضًا إلى مجموعات بيانات مرجعية نصية وتشغيل جهاز الخلوي. يمكن العثور على برنامج Shell script count.sh لخط الأنابيب هذا في / UCHC / PublicShare / CBC_Tutorials / Tutorials / SingleCell.

كما هو موضح أعلاه ، يأخذ عدد الخلايا 4 وسيطات مطلوبة. --id هو سلسلة معرف تشغيل فريدة ، والتي في المثال يتم تعيينها بشكل تعسفي لـ & # 8220hgmm & # 8221. يحدد --fastqs مسار دليل FASTQ الذي يتم إنشاؤه عادةً من mkfastq. هنا نستخدم ملفات fastq لمزيج خلية الإنسان والفأر. - يشير نموذج إلى اسم العينة كما هو محدد في ورقة العينة المقدمة إلى mkfastq ، والتي ، في هذه الحالة ، هي & # 8220hgmm100 & # 8221. - يحدد النص المسار إلى مرجع النسخ المتوافق مع Cell Ranger ، وهنا نستخدم refdata-cellranger-hg19-and-mm10-1.2.0 ، وهو مرجع لعينة خليط بشري وفأري. - الخلايا هي علامة اختيارية حيث يمكننا تحديد عدد الخلايا داخل العينة. القيمة الافتراضية هي 3000. لمزيد من الوسيطات الاختيارية والمعلومات الإضافية ، أدخل cellranger count - help. سيتم احتواء ناتج خط الأنابيب في سجل مسمى بمعرف العينة الذي حددته (على سبيل المثال hgmm). سيحتوي الدليل الفرعي المسمى & # 8220outs & # 8221 على ملفات إخراج خطوط الأنابيب الرئيسية. الوصف التفصيلي للمخرجات مبين في الرسم البياني أدناه:

بمجرد اكتمال العد الخلوي بنجاح ، يمكنك تصفح ملف HTML الموجز الناتج في أي مستعرض ويب مدعوم ، كما يمكن للمستخدم فتح ملف .cloupe في مستعرض Loupe Cell ، أو الرجوع إلى قسم فهم الإخراج لاستكشاف البيانات يدويًا. يوضح الشكل أدناه ملخص التشغيل. تصف المقاييس الموجزة جودة التسلسل والخصائص المختلفة للخلايا المكتشفة. يتم عرض عدد الخلايا المكتشفة والمتوسط ​​الذي يقرأ لكل خلية ومتوسط ​​الجينات المكتشفة لكل خلية بشكل بارز بالقرب من أعلى الصفحة. تُظهر مؤامرة ترتيب الباركود ضمن لوحة القيادة & # 8220Cells & # 8221 توزيع أعداد الباركود وأي رموز شريطية تم استنتاج أنها مرتبطة بالخلايا. المحور y هو عدد تعداد UMI المعين لكل رمز شريطي والمحور x هو عدد الرموز الشريطية الموجودة أسفل هذه القيمة. يشير الانخفاض الحاد إلى الفصل الجيد بين الرموز الشريطية المرتبطة بالخلية والرموز الشريطية المرتبطة بالأقسام الفارغة.

يمكن الاطلاع على نتائج التحليل الثانوي الآلي بالنقر فوق & # 8220Analysis & # 8221 في الزاوية اليسرى العليا. يوفر التحليل الثانوي ما يلي:

  1. تحليل تقليل الأبعاد الذي يُسقط الخلايا في فضاء ثنائي الأبعاد (t-SNE)
  2. تحليل تجميع آلي يجمع الخلايا التي لها ملفات تعريف تعبير متشابهة
  3. قائمة الجينات التي يتم التعبير عنها تفاضليًا بين المجموعات المختارة
  4. مخطط يوضح تأثير انخفاض عمق التسلسل على تعقيد المكتبة المرصود
  5. مخطط يوضح تأثير انخفاض عمق التسلسل على الجينات المتوسطة المكتشفة

تُظهر المؤامرة أدناه إسقاط 2-D t-SNE للخلايا الملونة بإجمالي عدد UMI لكل خلية. هذا يوحي بمحتوى RNA للخلايا وغالبًا ما يرتبط بحجم الخلية & # 8211 نقطة حمراء هي خلايا تحتوي على المزيد من RNA فيها. في هذا الفضاء ، تحتوي أزواج الخلايا القريبة من بعضها البعض على ملفات تعريف تعبير جيني أكثر تشابهًا من الخلايا البعيدة عن بعضها البعض. في حالته ، تنتمي الخلايا الموجودة في الزاوية اليسرى العليا إلى الماوس. الخلايا الموجودة في الزاوية اليمنى السفلية تنتمي إلى الإنسان.

يوضح الشكل أدناه إسقاط الخلايا 2-D t-SNE. يمكن تحديد نوع تحليل المجموعات من القائمة المنسدلة في الجزء العلوي الأيمن & # 8211 قم بتغيير هذا لتغيير نوع التجميع و / أو عدد المجموعات التي تم تعيينها للبيانات.

تُظهر المؤامرة السفلية اليسرى تأثير انخفاض عمق التسلسل على تسلسل التشبع ، وهو مقياس لجزء تعقيد المكتبة الذي تمت ملاحظته. أقصى نقطة من الخط هي عمق التسلسل الكامل الذي تم الحصول عليه في هذا المدى. وبالمثل ، تُظهر المؤامرة السفلية اليمنى تأثير انخفاض عمق التسلسل على الجينات المتوسطة لكل خلية ، وهي طريقة لقياس إنتاجية البيانات كدالة للعمق. أقصى نقطة هي عمق التسلسل الكامل الذي تم الحصول عليه في هذا التشغيل. وبالمثل ، تُظهر المؤامرة السفلية اليمنى تأثير انخفاض عمق التسلسل على الجينات المتوسطة لكل خلية ، وهي طريقة لقياس إنتاجية البيانات كدالة للعمق. أقصى نقطة هي عمق التسلسل الكامل الذي تم الحصول عليه في هذا التشغيل.

التحليل الثانوي مع R.

ناتج التحليل الأساسي لـ Cell Ranger هو مصفوفة الباركود الجيني. Cell Ranger R Kit عبارة عن حزمة R للتحليل الثانوي لبيانات المصفوفة هذه ، بما في ذلك إسقاط PCA و t-SNE وتجميع الوسائل k. في هذا القسم ، سنقوم بتشغيل Cell Ranger R Kit عند الإخراج من القسم السابق.

لتنزيل الحزمة وتثبيتها على جهازك المحلي ، اكتب البرنامج النصي أدناه في وحدة التحكم R:

بمجرد تثبيت R Kit بنجاح ، قم بتحميل مكتبة cellrangerRkit في R.

قبل بدء التحليل ، نحتاج إلى تحميل نتائج خطوط الأنابيب هذه في بيئة R المحلية الخاصة بك. يمكنك تحميل بيانات خط الأنابيب عن طريق تحديد المسار إلى نتيجة حساب جهاز الخلوي الخاص بك على النحو التالي.

المتغير gbm هو كائن يعتمد على فئة Bioconductor ExpressionSet التي تخزن مصفوفة التعبير الجيني المصفاة من الباركود والبيانات الوصفية ، مثل رموز الجينات ومعرفات الباركود المقابلة للخلايا في مجموعة البيانات. يمكن الوصول إلى قيم التعبير الجيني ومعلومات الجينات والرموز الشريطية للخلية باستخدام:

يمكننا الوصول إلى إسقاط t-SNE ورسم الخلايا الملونة بواسطة حساب UMI على النحو التالي:

بدلاً من استخدام أعداد UMI الأولية لتحليل الجينات التفاضلية النهائية ، سنقوم بتصفية الجينات غير المعلنة ، وتطبيع تعداد UMI لكل رمز شريطي ، واستخدام مصفوفة الباركود الجيني المحولة بسجل. بعد التحول ، تحتوي مصفوفة الباركود الجيني على 14233 جينًا لـ 104 خلية.

تتمثل إحدى طرق تحديد أنواع الخلايا المختلفة في التعبير عن جينات معينة في الخلايا. يمكنك تصور قيم التعبير لمجموعة من الجينات لتحديد الخلايا حيث يتم تنظيم جينات معينة. هنا ، نعرض كيفية رسم التعبير عن 6 علامات جينية في وقت واحد ، واحدة لكل حبكة فرعية باستخدام وظيفة visualize_gene_markers. يتم تحديد علامات الجينات من قائمة التمرير الخاصة بتشغيل عدد الخلايا الخلوية.


نظرًا لأن مصفوفة الإدخال gbm_log قد تم تطبيعها بالفعل وتحويل log10 ، يشير اللون إلى عدد UMI لكل جين تحت مقياس log10.

بالنسبة لبعض مجموعات البيانات ، قد يكون اكتشاف نوع خلية de novo مرغوبًا حيث يمكن أن تكون المعرفة المسبقة بجينات العلامة ذات الصلة محدودة أو قد لا يرغب المرء في إدخال التحيزات. في هذه الحالات ، من المفيد استخدام التحليل غير الخاضع للإشراف لتحديد مجموعات الخلايا أولاً بطريقة حسابية باستخدام مجموعة البيانات الكاملة. في تطبيقنا ، على سبيل المثال ، نطبق مجموعة الوسائل k على المكونات الأساسية العشرة الأولى لمصفوفة التعبير الجيني (بعد تحويل السجل ، والتوسيط والقياس). نظرًا لأن تجميع الوسائل k يتطلب عددًا محددًا من المجموعات في مجموعة البيانات ولكن قد لا يكون عدد المجموعات في مجموعة البيانات معروفًا مسبقًا ، فمن المفيد مراعاة قيم متعددة لـ k. تتضمن بيانات الإخراج من Cell Ranger TM ملصقات المجموعات المحسوبة مسبقًا التي تجتاح k من 2 إلى 10. لذلك يمكنك تصور النتائج بسرعة لقيم مختلفة لـ k واختيار القيمة التي تتوافق مع حدسك. هنا يتم تلوين كل خلية بواسطة معرف الكتلة الخاص بها.

باستخدام تسميات مجموعة الأعداد الصحيحة (أو تسميات الأعداد الصحيحة التي تم إنشاؤها بواسطة أي خوارزمية تجميع) ، يمكنك الآن إجراء تحليل الجينات التفاضلية لتحديد علامات الجينات الخاصة بمجموعة خلية معينة. في هذا المثال ، نركز على نتيجة التجميع k-mean أعلاه مع 5 مجموعات. يمكن تطبيق الاختبارات الإحصائية القياسية لتحديد الجينات التي يتم التعبير عنها بشكل تفاضلي عبر أنواع الخلايا المختلفة.

يمكننا مقارنة متوسط ​​التعبير بين فئة من الخلايا والخلايا المتبقية ، ومن ثم تحديد أولويات الجينات من خلال مدى التعبير عنها بدرجة عالية في فئة الاهتمام. تحدد الوظيفة Prioritize_top_genes العلامات التي يتم تنظيمها في مجموعات معينة من الخلايا.

الآن بعد أن تم إعطاء الأولوية للجينات الخاصة بكل نوع خلية ، يمكنك إخراج الجينات العليا الخاصة بكل مجموعة إلى مجلد محلي. في هذه الحالة ، نخرج جميع رموز الجينات العشرة الأولى للمجموعات الخمس في الملف.

بالإضافة إلى ذلك ، يمكنك استخدام الجينات ذات الأولوية لرسم خريطة حرارية حيث يتم عرض الجينات الثلاثة الأولى الأكثر تنظيمًا في كل مجموعة. بالإضافة إلى ذلك ، يمكنك ترتيب الخلايا وفقًا لمعرفات الخلايا التي تم إنتاجها بواسطة مجموعة الوسائل k لجعل تواقيع سكان الخلية أكثر وضوحًا.


لاحظ أنه في خريطة التمثيل اللوني أعلاه ، تم تصنيف المجموعة 1 باللون الأخضر وتسمى المجموعة 2 باللون الأرجواني. يتم التعبير عن الجين & # 8220SLC25A6 & # 8243 ، & # 8221RPS2 & # 8243 ، & # 8221RPL6 & # 8221 في الغالب في المجموعة 1 ، بينما & # 8220S100A6 & # 8243، & # 8221LGALS1 & # 8243، & # 8221S100A4 & # 8221 مما يشير إلى أن المجموعة 1 والمجموعة 2 تمثل خلايا الماوس والخلايا البشرية على التوالي. لذلك يمكننا وضع تعليق توضيحي على النتيجة:


طرق أخذ العينات:

أخذ العينات الهادف

استراتيجية مشتركة لأخذ العينات في الدراسات البحثية النوعية ، أخذ العينات الهادف يضع المشاركين في مجموعات ذات صلة بالمعايير التي تناسب سؤال البحث. تشمل العوامل التي تؤثر على حجم العينة الموارد المتاحة ووقت الدراسة والأهداف. ومع ذلك ، يتم تحديد أحجام العينات أيضًا من خلال مفهوم & # x201C التشبع النظري ، & # x201D أو & # x201C النقطة في جمع البيانات عندما لا تعود البيانات الجديدة تجلب رؤى إضافية لأسئلة البحث. & # x201D (9) بشكل عام ، الدراسات التي استخدام أخذ العينات الهادف له عدد مستهدف من المشاركين ، وليس شرطًا محددًا.

أخذ العينات الحصص

أخذ عينات الحصة النسبية يحدد مسبقًا عدد المشاركين المطلوب. أثناء تصميم الدراسة ، قد يحدد الباحثون حجم العينة ، جنبًا إلى جنب مع النسب المناسبة للعينات الفرعية ، عند تحديد المشاركين من بعض الخصائص. باستخدام هذه المعايير ، يمكن للباحثين بعد ذلك تجنيد المشاركين المناسبين لـ & # x201 الموقع والثقافة ودراسة السكان & # x2026 حتى [الاجتماع] الحصص المقررة. & # x201D (10)

أخذ العينات كرة الثلج

يستخدم هذا النوع الثالث من أخذ العينات المشاركين الحاليين أو جهات الاتصال للوصول إلى شبكاتهم الاجتماعية وإحالة الباحث إلى مشاركين محتملين آخرين. يساعد أخذ عينات كرة الثلج في تجنيد & # x201Chidden السكان & # x201D التي قد لا توجد من طرق أخرى لأخذ العينات. [11)


معهد واسع

يلتزم معهد Broad بجعل البيانات والأساليب والتقنيات الشاملة التي يولدها بسرعة وسهولة في متناول المجتمع العلمي لدفع التقدم الطبي الحيوي في جميع أنحاء العالم

يعمل معهد Broad على بناء اتحادات دولية والحفاظ عليها لتسريع الاكتشاف في مجالات تشمل الأبحاث النفسية والأمراض المعدية وأمراض القلب والأوعية الدموية والسرطان

يعزز معهد برود بيئة يمكن للعلماء من خلالها المخاطرة بالأفكار الجريئة ذات الإمكانات التحويلية

يلتزم معهد Broad بمعالجة التحديات الطبية في جميع أنحاء العالم ، بما في ذلك التعاون مع العلماء وخبراء الصحة العامة لتلبية الاحتياجات المهمة في البلدان النامية

معهد برود هو مجتمع يحركه المهام ويجمع بين الباحثين في الطب وعلم الأحياء والكيمياء والحساب والهندسة والرياضيات من مختلف المستشفيات التابعة لمعهد ماساتشوستس للتكنولوجيا وهارفارد وهارفارد ، جنبًا إلى جنب مع متعاونين من جميع أنحاء العالم

يعمل معهد واسع من معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد على تمكين ثورة في الطب الحيوي لتسريع وتيرة انتصار العالم على المرض


أساليب

استند تقييمنا للطرق إلى مجموعات بيانات scATAC-seq العامة المتاحة في المستودعات العامة من قبل المؤلفين المعنيين (راجع قسم "توفر البيانات والمواد"). على هذا النحو ، نشير إلى المنشورات الأصلية لمزيد من التفاصيل حول التصميم التجريبي والمعالجة المسبقة للبيانات / المحاذاة. للحصول على ذروة الاتصال ، استخدمنا خط أنابيب ENCODE (https://www.encodeproject.org/atac-seq/) باستثناء بيانات 10X PBMCs التي كانت القمم متاحة بالفعل من خلال خط أنابيب Cell Ranger المحسّن لهذه التقنية. كلما كانت التغييرات مطلوبة لتشغيل طريقة معينة ، يتم تدوينها في الأقسام المعنية.

مجموعات البيانات

تكوين الدم البشري الأول (بوينروسترو وآخرون [21])

تتكون مجموعة البيانات هذه من 10 مجموعات من الخلايا المصنفة وفقًا لمعايير FACS من CD34 + نخاع العظم البشري ، وهي الخلايا الجذعية المكونة للدم (HSCs) ، والأسلاف متعددة القدرات (MPPs) ، والأسلاف متعددة القدرات الليمفاوية (LMPPs) ، والأسلاف النخاعية الشائعة (CMPs) ، والخلايا المحببة- أسلاف البلاعم (GMPs) ، أسلاف خلايا الدم الحمراء الضخمة (MEPs) ، أسلاف اللمفاويات الشائعة (CLPs) ، الخلايا المتغصنة البلازمية (pDCs) ، وحيدات ، و CD34 + CD38 - CD45RA + CD123 - غير معرّف من الخلايا. تم استخدام ما مجموعه 2034 خلية من ستة متبرعين بشريين للتحليل. تم توفير ملف ذروة (بما في ذلك 491،437 قمة) تم الحصول عليها من مجموعة بيانات ATAC-seq السائبة.

أنسجة الفأر sci-ATAC-seq (Cusanovich et al. [1])

تشتمل مجموعة البيانات هذه على خلايا من 13 نسيجًا لفأر بالغ ، وهي نخاع العظم والمخيخ والقلب والكلى والأمعاء الغليظة والكبد والرئة وقشرة الفص الجبهي والأمعاء الدقيقة والطحال والخصيتين والغدة الصعترية والدماغ كله ، مع أكثر من 2000 خلية لكل نسيج. تم استخدام ما مجموعه 81173 خلية من 5 فئران للتحليل. تم الحصول على مجموعة فرعية بالاختزال العشوائي 15٪ من الخلايا من كل نسيج وتتألف من 12178 خلية.

تكوين الدم البشري الثاني (10x PBMCs)

تتكون مجموعة البيانات هذه من خلايا الدم المحيطية أحادية النواة (PBMCs) من متبرع سليم واحد. تم استخدام ما مجموعه 5335 خلية للتحليل.

مجموعات بيانات محاكاة scATAC-seq

من أجل تقييم الأساليب المختلفة وقياسها ، أنشأنا بيانات تركيبية (مصنفة) من اختزال 18 مجموعة سائبة مصنفة وفقًا لنظام مراقبة الأصول الميدانية والتي تم وصفها مسبقًا [19]. لسهولة التفسير ، أخذنا في الاعتبار 6 مجموعات معزولة فقط (HSC ، CMP ، NK ، CD4 ، CD8 ، أريثروبلاست). بالنسبة لمحاكاة تكون الكريات الحمر ، تم أيضًا النظر في ثمانية مجموعات إضافية (P1 - P8) موصوفة أصلاً في [20].

يبدأ إطار عمل المحاكاة الخاص بنا بمصفوفة تعداد نوع خلية ذروة x (من سلسلة ATAC-seq الكبيرة) وتولد مصفوفة تعداد خلية واحدة (ج) لعدد تعسفي من الخلايا المفردة الاصطناعية. صراحة ، لخلية مفردة تمت محاكاتها ي والذروة المقابلة أنا من نوع خلية مجمعة ر، نسعى لتوليد جأنا, ي أين جأنا, ي ∈ <0 ، 1 ، 2> ، مع ملاحظة أن هذه القيم تتوافق مع الملاحظات المحتملة في جينوم ثنائي الصبغة. بعد ذلك ، نحدد المعدل ( ( _i ^ t )) عند الذروة أنا سائدًا في البيانات المجمعة لـ ATAC-seq لنوع الخلية ر. يتم تحديد هذا المعدل من خلال نسبة القراءات التي لوحظت في الذروة أنا على مجموع كل القراءات. بافتراض ما مجموعه ك قمم للمصفوفة ج وللمعلمات المعرفة من قبل المستخدم ف (معلمة الضوضاء ف ∈ [0 ، 1]) و ن (عدد الأجزاء المحاكاة) ، نحدد جأنا, ي على النحو التالي:

$

_i ^ t = يسار (_i ^ t right) left ( frac <1> <2> n right) left (1-q right) + left (1 / k right) left ( frac <1> <2> n right) (q) $

حدسيًا ، المعلمة (

_i ^ t ) يحدد احتمالية ملاحظة العدد في الذروة أنا لخلية واحدة. بالإضافة إلى، (

_i ^ t ) إلى مجموع المصطلحين. كما ف → 0 ، يهيمن المصطلح الأول ، واحتمال ملاحظة العد في الذروة أنا هو ببساطة الاحتمال المقاس لنسبة القراءات لتلك الذروة من بيانات ATAC-seq المجمعة ( ( _i ^ t )). وهكذا متى ف = 0 ، البيانات المحاكاة ليس لها ضوضاء. على العكس من ذلك ، كما ف → 1 ، يسيطر المصطلح الثاني ، و (

_i ^ t ) يقلل إلى احتمال ثابت لم تعد معلمات من قبل الذروة أنا أو نوع الخلية ر وبالتالي يمثل توزيعًا عشوائيًا لـ ن شظايا في ك القمم.

مستوى الضوضاء الذي قمنا بمحاكاة محاولاته لتقليد القطع غير المحدد من Tn5. لإعطاء فكرة عن نطاق هذه المعلمة على البيانات الحقيقية ، نظرنا ببساطة في عدد القراءات التي تقع خارج القمم على العدد الإجمالي للقراءات (باستثناء المناطق المدرجة في القائمة السوداء). يفترض هذا الحساب أن القراءات في المناطق التي تم تعريفها على أنها قمم من خلال القياس بالجملة أو الحجم الزائف سيهيمن عليها قطع محدد وأن المناطق خارج القمم سيهيمن عليها قطع غير محدد. باستخدام هذا النهج ، قدرنا مستويات الضوضاء التالية: 0.38 لمجموعة بيانات Buenrostro2018 ، و 0.22 لمجموعة بيانات 10X PBMC ، و 0.62 لمجموعة بيانات الماوس sci-ATAC-seq. نود أن نشير إلى أن هذه المعدلات قد يتم التقليل من شأنها قليلاً ، فإن التقدير الأكثر دقة سيتطلب من المرء أن يأخذ في الاعتبار حقيقة أنه ، في أي منطقة معينة من الجينوم ، يمكن ملاحظة القراءات من قطع محدد وغير محدد.

بالنسبة إلى عمليات المحاكاة المستندة إلى نخاع العظام ، قمنا بمحاكاة 200 خلية لكل نوع من الخلايا المصنفة بينما بالنسبة للمحاكاة القائمة على تكوين الكريات الحمر ، قمنا بمحاكاة 100 خلية لكل نوع من الخلايا المصنفة. في النهاية ، لدينا 1200 خلية لكل مجموعة بيانات تمت محاكاتها. في المحاكاة الأساسية ، قمنا بتحديد معلمات ن = 2500 شظية في قمم توقع لجميع الخلايا. لقد حددنا عمليات المحاكاة الإضافية التي قارنت تغطيات البيانات المختلفة ن لقيم مختلفة (5000 ، 2500 ، 1000 ، 500 ، و 250 على التوالي) لقياس هذا التأثير. لتقييم تأثير الضوضاء في المحاكاة لدينا ، حددناها ف إلى ثلاث قيم (0 ، 0.2 ، 0.4) لقياس قوة الضوضاء. في قيم ف & gt 0.4 ، لا توجد طريقة يمكن أن تفصل بشكل موثوق بين جميع المجموعات السكانية الفرعية. أخيرًا ، منذ أن بدأت المحاكاة عند القراءات في مستوى الذروة ، بالنسبة لبعض الطرق ، تم استخراج الخوارزمية الأساسية المرتبطة بالطريقة من أجل قياسها في هذا الإعداد. بالإضافة إلى ذلك ، تم توفير الكود الكامل لإعادة إنتاج مصفوفات مجموعات البيانات المحاكاة هذه من خلال موارد الأكواد عبر الإنترنت.

ذروة الاتصال

بالنسبة لمجموعات البيانات الحقيقية ، تم استدعاء القمم باستخدام خط أنابيب معالجة ENCODE ATAC-seq (https://www.encodeproject.org/atac-seq). باختصار ، تم تجميع الخلايا المفردة في مجموعات من الخلايا وفقًا لنوع الخلية ، والتي تم الحصول عليها إما عن طريق فرز FACS أو عن طريق الأنسجة الأصلية. تم استدعاء القمم لكل مجموعة خلية ودمجها في ملف واحد مع أدوات السرير [31].

بناء مصفوفة الميزات

بروكمان

تبدأ هذه الطريقة بتحديد مناطق الاهتمام ، والتي سيتم فحصها بحثًا عن ك-mer content ، مثل نوافذ 50 bp حول كل موقع تكامل transposon ومناطق متداخلة مدمجة. ثم مصفوفة تردد كتم بناء -mers-by-cell عن طريق حساب كل فجوات ممكنة ك-مرز (ل ك من 1 إلى 8) داخل النوافذ المحددة مسبقًا. يتم تحجيم مصفوفة التردد هذه بحيث يكون كل منها ك-mer يعني 0 والانحراف المعياري 1. يتم تطبيق تحليل المكون الرئيسي (PCA) على المقياس كيتم اختيار مصفوفة التردد -mers-by-cell ، والمكونات الرئيسية الهامة (أجهزة الكمبيوتر) كما تم تقديرها باستخدام طريقة سحب الرافعة لبناء مصفوفة ميزة نهائية لتحليلات المصب.

كرومفار

تبدأ هذه الطريقة بحساب القراءات تحت القمم التي يمكن الوصول إليها بواسطة الكروماتين من أجل بناء مصفوفة تعداد للقمم تلو الخلايا (X). ثم ، مجموعة من ميزات الكروماتين مثل زخارف عامل النسخ (TF) أو ك-الأمراء يعتبرون. يقرأ تعيين كل ذروة تحتوي على نموذج TF معين (أو k-mer) يتم حسابها من أجل بناء مصفوفة تعداد من الأشكال بخلايا أو k-mers-by-cell (M). علاوة على ذلك ، يتم إنشاء مصفوفة انحراف إمكانية الوصول الخام للزخارف (أو k-mers)-by-cells (Y) عن طريق حساب الفرق بين M والعدد المتوقع من الأجزاء بناءً على X. ثم ، يتم إنشاء مجموعات ذروة الخلفية لكل نموذج (أو k-mer) لإزالة الإرباكات التقنية. يتم بعد ذلك استخدام أشكال الخلفية (أو k-mers) - انحرافات الوصول الأولية للخلايا لحساب مصفوفة الانحراف المصححة للانحراف ولحساب الانحراف ض- الدرجات المستخدمة لتحليلات المصب.

موضوع

تبدأ هذه الطريقة ببناء مصفوفة ثنائية لكل خلية من خلال التحقق مما إذا كانت منطقة الذروة يمكن الوصول إليها ، أي قراءة واحدة على الأقل تقع داخل منطقة الذروة. بعد ذلك ، يتم إجراء تخصيص Dirichlet الكامن (LDA) على هذه المصفوفة الثنائية ، ويتم إنشاء توزيعين احتماليين ، مصفوفة احتمالية لكل خلية على حدة ومصفوفة احتمالية لكل منطقة على حدة. الأول هو مصفوفة الميزات النهائية لتحليلات المصب.

شيشرون

تحدد هذه الطريقة قمم المروج على أنها اتحاد TSS المشروح مطروحًا منه 500 زوج أساسي و macs2 قمم محددة حول TSS. يأخذ كمدخل المصفوفة الثنائية قمم تلو الخلايا. يتطلب أيضًا إما ترتيبًا زمنيًا زائفًا أو إحداثيات في مساحة منخفضة الأبعاد (t-SNE) بحيث يمكن تجميع الخلايا بسهولة. ثم يقوم بحساب درجات إمكانية الوصول المشترك بين المواقع باستخدام Graphical Lasso. للحصول على درجات النشاط الجيني ، فإنه يختار المواقع القريبة من الجينات TSS أو المواقع البعيدة المرتبطة بها ويقيمها من خلال إمكانية الوصول المشترك. بعد ذلك ، يتم تلخيص جميع المواقع وترجيحها وفقًا لإمكانية الوصول المشترك لإنتاج مصفوفة ميزة الجينات على حدة والتي تُستخدم في تحليل القياس هذا.

سجل الجينات

تقوم هذه الطريقة أولاً ببناء مصفوفة عدد الذروة تلو الخلايا وتحدد مناطق الاهتمام على أنها 50 كيلو بايت في المنبع والمصب للجينات TSS. بعد ذلك ، تجد التداخل بين قمم ATAC-seq ومناطق TSS ويتم ترجيح القمم بدالة المسافة إلى الجينات المرتبطة. أخيرًا ، يتم تحويل مصفوفة عد القمم على شكل خلية إلى مصفوفة عد مرجحة للجينات عن طريق ضرب القمم الموزونة بمصفوفة الجينات. مصفوفة العد الموزون للجينات على حدة هي مصفوفة الميزة النهائية لتحليلات المصب.

كوزانوفيتش 2018

تبدأ هذه الطريقة بتجميع الجينوم في نوافذ ذات حجم ثابت (افتراضيًا ، 5 كيلو بايت) ، وبناء مصفوفة ثنائية من تقييم ما إذا كان أي منها يقرأ خريطة لكل حاوية. يتم تصفية الحاويات التي تتداخل مع مناطق القائمة السوداء المعرفة من خلال ENCODE ، ويتم الاحتفاظ بأفضل 20000 حاوية شائعة الاستخدام. بعد ذلك ، يتم تطبيع المصفوفة الثنائية لكل خلية على حدة وإعادة قياسها باستخدام مصطلح تحويل تردد المستند العكسي (TF-IDF). بعد ذلك ، يتم إجراء تحليل القيمة الفردية (SVD) لإنشاء مصفوفة نقاط LSI لأجهزة الكمبيوتر الشخصية بالخلايا ، والتي تُستخدم لتجميع الخلايا عن طريق التجميع الهرمي في مجموعات مختلفة. داخل كل كليد ، يتم إجراء استدعاء الذروة على ملفات تعريف scATAC-seq المجمعة ، ويتم دمج القمم المحددة في مصفوفة ثنائية جديدة لكل خلية على حدة. أخيرًا ، يتم تحويل مصفوفة القمم تلو الخلايا الجديدة باستخدام TF-IDF و SVD كما كان من قبل للحصول على مصفوفة من أجهزة الكمبيوتر الشخصية بالخلايا ، وهي مصفوفة الميزة النهائية لتحليلات المصب.

سكابك

تبدأ هذه الطريقة ببناء مصفوفة عدد الذروة تلو الخلايا لتغطية القراءة داخل مناطق الذروة. بعد ذلك ، يتم حساب أوزان الخلايا عن طريق تحويل غير خطي لتغطية القراءة داخل خلفية الذروة ، والتي تُعرّف على أنها منطقة 500 كيلو بايت حول القمم. نظرًا لأنه سيتم استخدام الأوزان كجزء من مجموعة K-medoids الموزونة لتحديد معالم الخلية وإجراء مزيد من إعادة التجميع بدقة بدلاً من تطبيع مصفوفة القمم تلو الخلايا ، يتم تعريف مصفوفة الميزة في scABC على أنها قمم تلو الأخرى مصفوفة العد.

سكاسات

تقوم هذه الطريقة أولاً ببناء مصفوفة إمكانية الوصول الثنائية لكل خلية على حدة عن طريق التحقق مما إذا كانت قراءة واحدة على الأقل تتداخل مع منطقة الذروة. ثم يتم حساب مسافة Jaccard بناءً على المصفوفة الثنائية للحصول على مصفوفة اختلاف خلايا تلو الأخرى. يتم إجراء المزيد من التحجيم متعدد الأبعاد (MDS) لتقليل البعد وإنشاء مصفوفة الميزة النهائية لتحليل المصب.

سكرات

تبدأ هذه الطريقة بتجميع القراءات من كل خلية وفقًا لخصائص مختلفة (مثل أشكال TF أو المنطقة التي تهم كل جين) ، ثم بناء مصفوفة تعداد للخصائص على حدة. يتم تطبيع مصفوفة عدد الميزات حسب الخلية حسب حجم المكتبة والمنطقة للحصول على مصفوفة الميزات النهائية لتحليلات المصب.

سناباتاك

تبدأ هذه الطريقة بتجميع الجينوم في نوافذ ذات حجم ثابت (افتراضيًا 5 كيلو بايت) وتقدير تغطية القراءة لكل حاوية لإنشاء مصفوفة عدد ثنائي لكل خلية. يتم تصفية الحاويات التي تتداخل مع مناطق القائمة السوداء المعرفة من خلال ENCODE ، بالإضافة إلى الصناديق التي تتداخل مع مناطق القائمة السوداء المحددة من قبل ENCODE ضتغطية مسجلة. بعد ذلك ، يتم تحويل مصفوفة سلال تلو الأخرى إلى مصفوفة تشابه مؤشر Jaccard للخلايا تلو الخلايا ، والتي يتم تحويلها بشكل أكبر عن طريق التطبيع والتراجع عن تحيز التغطية بين الخلايا. أخيرًا ، يتم تطبيق PCA على مصفوفة التشابه المعيارية ، ويتم استخدام أجهزة الكمبيوتر العليا لبناء مصفوفة أجهزة الكمبيوتر على حدة والتي تعد مصفوفة الميزات النهائية لتحليلات المصب.

تجمع

في هذه الدراسة ، استخدمنا ثلاث طرق تجميع شائعة الاستخدام: k-mean ، والتكتل الهرمي (مع ارتباط الجناح الافتراضي) كما هو مطبق في مكتبة scikit-Learn [32] ، وتجميع Louvain (طريقة قائمة على اكتشاف المجتمع) [33 ، 34] كما تم تنفيذه في Scanpy [35]. لكل من المجموعات الهرمية والوسائل k ، قمنا بتعيين عدد المجموعات إلى عدد الملصقات الفريدة المصنفة حسب FACS أو الأنسجة المعروفة. في مجموعة بيانات 10x PBMCs scATAC-seq ، والتي تفتقر إلى الملصقات المصنفة وفقًا لمعايير FACS ، قمنا بدلاً من ذلك بتعيين عدد المجموعات إلى 8 نظرًا لأن هذا هو العدد المتوقع للسكان بناءً على الدراسات السابقة [22]. بالنسبة لخوارزمية Louvain ، قمنا بتعيين حجم الحي المحلي على 15 لجميع مجموعات البيانات.نظرًا لأن طريقة Louvain تتطلب "دقة" بدلاً من عدد المجموعات وسيؤثر عدد المجموعات المختلف على تقييم المجموعات ، ولجعل المقارنة عادلة ، فإننا نستخدم خوارزمية البحث الثنائي على "الدقة" (تتراوح من 0.0 إلى 3.0) للعثور على نفس عدد المجموعات مثل طريقتين التجميع الأخريين. إذا كان العدد الدقيق للمجموعات لا يتطابق مع القيمة المرغوبة ، فسيتم استخدام قيمة "الدقة" التي تحفز أقرب عدد من المجموعات إلى القيمة المطلوبة.

مقاييس لتقييم نتائج التجميع

لتقييم حلول التجميع لمجموعات البيانات مع حقيقة أساسية معروفة (على سبيل المثال ، لكل خلية ، لدينا ملصق يشير إلى نوع الخلية) ، استخدمنا ثلاثة مقاييس راسخة: مؤشر Rand المعدل (ARI) ، والمعلومات المتبادلة ، والتجانس. باختصار ، بالنسبة لـ ARI ، أولاً ، يتم تعريف مؤشر Rand (RI) على أنه مقياس تشابه بين مجموعتين مع الأخذ في الاعتبار جميع أزواج العينات المعينة في نفس المجموعات أو مجموعات مختلفة في المجموعات المتوقعة والصحيحة. بعد ذلك ، يتم تعديل درجة RI الأولية للمصادفة في درجة ARI كما هو موضح في الصيغة التالية:

حيث RI هو مؤشر Rand المحسوب مسبقًا و ه هو مؤشر راند المتوقع.

المعلومات المتبادلة هي مقياس للاعتماد المتبادل بين متغيرين. يتم حساب قيمة المعلومات المتبادلة وفقًا للصيغة التالية ، حيث | واجهة المستخدم | هو عدد العينات في المجموعة واجهة المستخدم و | Vj | هو عدد العينات في المجموعة Vj:

يتم استخدام درجة التجانس للتحقق مما إذا كانت الخوارزمية المستخدمة للتجميع يمكن أن تخصص لكل مجموعة عينات فقط تنتمي إلى فئة واحدة. قيمته ح يحدها بين 0 و 1 ، وتشير القيمة المنخفضة إلى تجانس منخفض والعكس صحيح. يتم احتساب النتيجة على النحو التالي:

أين ح (صحقيقية| صمقدس) هو احتمال تعيين عينات حقيقية لمجموعة من العينات المتوقعة ، بينما ح (صحقيقية) هي تسميات العينات.

لتقييم حلول التجميع لمجموعة بيانات 10X PBMCs ، اقترحنا درجة بسيطة تسمى مؤشر جيني لمتوسط ​​المتبقي (RAGI) وقارننا إمكانية الوصول إلى جينات التدبير المنزلي مع جينات العلامة المميزة مسبقًا [22]. لقد استنتجنا أن حل التجميع الجيد يجب أن يحتوي على مجموعات يتم إثرائها لإمكانية الوصول إلى جينات الواسمات المختلفة ، ويجب أن يكون كل جين محدد سهل الوصول إليه في مجموعة واحدة فقط أو مجموعات قليلة. أولاً ، لتحديد إمكانية الوصول إلى كل جين في كل خلية ، استخدمنا نهج تصنيف الجينات الموصوف أعلاه. باختصار ، إمكانية الوصول في كل TSS هي مجموع المسافة المرجحة للقراءات داخل المنطقة أو بالقرب منها. ثانيًا ، لتقدير إثراء كل جين في كل مجموعة من الخلايا ، قمنا بحساب متوسط ​​قيم إمكانية الوصول في جميع الخلايا لكل مجموعة. ثالثًا ، استنادًا إلى متجه متوسط ​​قيم إمكانية الوصول (واحد لكل مجموعة) ، قمنا بحساب مؤشر جيني [36] لكل جين محدد. يقيس مؤشر جيني مدى عدم توازن إمكانية الوصول إلى الجين عبر المجموعات. ترتبط هذه الدرجة بـ [0،1] حيث 1 تعني عدم التوازن الكلي (أي أن الجين يمكن الوصول إليه في مجموعة واحدة فقط) و 0 يعني عدم التخصيب. تم استخدام هذه النتيجة سابقًا على تسلسل scRNA لأداء التجميع [37 ، 38]. كعنصر تحكم ، قمنا أيضًا بحساب مؤشر Gini لمجموعة من جينات التدبير المنزلي المشروحة الواردة في https://m.tau.ac.il/

إلييس / HKG / HK_genes.txt. يجب أن تُظهر جينات التدبير المنزلي الحد الأدنى من الخصوصية لأي مجموعة معينة نظرًا لأنه ، بحكم التعريف ، يتم التعبير عنها بشكل كبير في جميع الخلايا. استنادًا إلى مجموعة قيم مؤشر جيني لجينات العلامات والتدبير المنزلي ، قمنا بحساب العديد من المقاييس: (1) متوسط ​​مؤشر جيني للمجموعتين ، (2) الفرق في الوسائل لتقييم متوسط ​​الخصوصية المتبقية التي يمتلكها حل التجميع فيما يتعلق بجينات العلامة (هذا هو مقياس RAGI المقترح لدينا) ، و (3) إحصائية Kolmogorov-Smirnov و ص قيمة مقارنة مجموعتي مؤشرات جيني لجينات العلامات والتدبير المنزلي. قمنا بفرز الطرق بناءً على الترتيب التنازلي للاختلافات في الوسائل (ملف إضافي 1: الجدول S13) تشير القيمة الإيجابية إلى أن جينات العلامة في المتوسط ​​تفصل المجموعات بشكل أفضل من جينات التدبير المنزلي غير المعلوماتية.

تحليل الذروة الخاص بنوع الخلية النادرة

تم تنزيل بيانات متسلسلة ATAC-seq المُصنفة وفقًا لنظام FACS ومعالجتها من مورد موصوف مسبقًا [7]. لكل محاكاة ، أنشأنا مجموعة عينات عشوائية من 200 مليون قراءة فريدة (غير مكررة PCR) ، والتي تمثل تقريبًا تعقيدًا مشابهًا للتوصيات من حل 10x Chromium scATAC-seq. تم تحديد قمم خاصة بنوع الخلية باستخدام مجموعة البيانات الكاملة لكل نوع من أنواع الخلايا الثلاثة. تم استدعاء القمم باستخدام macs2 callpeak مع معلمات مخصصة كما هو الحال في خط أنابيب ENCODE ، أي "- نموذج - إزاحة - 100 - حجم 200”لحساب إدخالات Tn5 بدلاً من قراءة الوفرة عند استنتاج القمم. تم حساب التداخلات بين المجموعة الثانوية المعزولة والمخاليط التركيبية باستخدام GenomicRanges [39] دالة findOverlaps ، والتي تعادل أدوات السرير [31] التداخل. لكل مجموعة سكانية ثانوية (خلية B ، خلية CD4 + T ، خلية أحادية) ولكل انتشار (1 ، 5 ، 10 ، 20 ، 30٪) ، تم تكرار كل محاكاة 5 مرات لما مجموعه 75 محاكاة. تم أخذ عينات من المجموعتين الأخريين (الرئيسيين) بشكل متساوٍ لتشكيل المزيج الاصطناعي للمقارنة.


يتوفر تسلسل الحمض النووي لـ 1000 سلالة من سلالات القنب للجمهور في Google BigQuery

يسعدني اليوم الإعلان عن إصدار مجموعة بيانات مفتوحة جديدة كجزء من مشروع BigQuery Public Datasets من Google Cloud ، وأول مجموعة بيانات للجينوم يتم توفيرها على Google Cloud (مع المزيد في الطريق).

في أكتوبر 2016 ، أصدرت Phylos Bioscience مجموعة بيانات جينومية مفتوحة لما يقرب من 850 سلالة من القنب عبر مشروع Open Cannabis. بالاقتران مع مجموعات بيانات الجينوم الأخرى التي توفرها الجينوميات الطبية ، وجامعة ولاية ميشيغان ، و NCBI ، و Sunrise Medicinal ، وجامعة كالجاري ، وجامعة تورنتو ، وأكاديمية يونان للعلوم الزراعية ، يتجاوز إجمالي كمية البيانات المتاحة للجمهور 1000 عينة مأخوذة من ما يقرب من العديد من السلالات الفريدة. لقد قمت بتلخيص البيانات المتاحة لما يقرب من 1000 سلالة وجعلتها متاحة للجمهور في مجموعة بيانات BigQuery genomics_cannabis. تتوفر أمثلة حول كيفية استكشاف مجموعة البيانات هذه في وصف مجموعة البيانات المصاحب.

لماذا القنب؟

تتوفر مؤلفات غزيرة تصف أهمية القنب كنوع زراعي. باختصار ، إنه مصدر مهم للألياف والمركبات الغذائية والطبية (تستخدم لعلاج: الألم والغثيان والقلق والالتهاب حيث تحاكي مركبات القنب المركبات التي تنتجها أجسامنا بشكل طبيعي ، وتسمى endocannabinoids ، وتنمو بسرعة في مجموعة من البيئات.

قانون ضريبة الماريوانا لعام 1937 يجرم فعليًا حيازة أو نقل الحشيش بموجب القانون الفيدرالي للولايات المتحدة. يسبق التجريم الفيدرالي للقنب اكتشاف عام 1953 للحلزون المزدوج للحمض النووي بواسطة جيمس واتسون وفرانسيس كريك. أدى هذا الاكتشاف إلى ظهور علم الأحياء الجزيئي ، الذي يهتم بتوصيف وظائف الجينات داخل الأنظمة البيولوجية. بسبب هذا التجريم في عام 1937 ، لا يُعرف سوى القليل نسبيًا عن علم الوراثة للقنب مقارنة بالنباتات المدجنة المهمة الأخرى مثل الذرة والأرز والقمح وفول الصويا ، وبالتالي فإن القنب يتخلف في الصلابة وتحسين الغلة. لذلك ، توجد فرصة لتطبيق تحليلات المعلوماتية الحيوية القياسية على سلالات القنب المتسلسلة حديثًا لتحديث فهمنا للبيولوجيا والتاريخ التطوري للأنواع.

يقوم مشروع Open Cannabis Project بإصدار وثائق إلى الملك العام في شكل تسلسلات DNA لتعزيز هذا الابتكار. أصدر المساهمون في مشروع Open Cannabis بيانات بالتنسيق الذي أنتجه جهاز التسلسل ، والمتوفر على Google Cloud. ومع ذلك ، نظرًا لعدم إتاحة المزيد من التحليل للبيانات من قبل المساهمين في المشروع ، فقد أجريت تحليلات قياسية إضافية بحكم الأمر الواقع لمجموعة البيانات لتسهيل الأمر على المستخدمين. على وجه التحديد ، ننشر اليوم نتائج التحليل التالية:

  1. تسلسل محاذاة جميع العينات إلى كاناتونيك التي يمكن استخدامها لإنشاء تجميع جينوم للقنب عالي الجودة ، و
  2. المتغيرات الجينية المكتشفة من (1). المتغير الجيني هو وحدة ذرية للتنوع البيولوجي.

راجع قسم الأساليب أدناه لمعرفة كيفية إعداد البيانات على وجه التحديد.

لماذا الان؟ تسلسل الجينوم: الأفراد والسكان

يعد تسلسل الجينوم لفرد واحد مفيدًا في تحديد التاريخ التطوري لنوع هذا الفرد ، ولكنه ليس مفيدًا لتطوير التطبيقات التي تتضمن تلك الأنواع (مثل التطبيقات الزراعية والصناعية والطبية). يقيس ترتيب مجموعة من الأفراد ذوي الصلة التنوع البيولوجي داخل الأنواع ، ويمكّن هذه التطبيقات. في حين أن بعض البيانات الجينومية للقنب كانت متاحة للجمهور لعدة سنوات ، فإن الإصدار الأخير للبيانات لمجموعة كبيرة من السلالات من Phylos Bioscience يجعل الوقت مناسبًا لبدء تحليل أعمق للمعلومات الحيوية للبيانات المتاحة.

لفهم سبب صحة ذلك وفهم المرحلة التالية من عصر علم الجينوم بشكل كامل ، يحتاج المرء إلى فهم المزيد عن علم الأحياء الأساسي ، ولماذا يعد تسلسل الجينوم مهمًا.

على الرغم من أن نسبة السعر / الأداء لتقنيات تسلسل الحمض النووي قد تحسنت بشكل كبير ، إلا أن هذا التقدم لم يؤد إلى مشاريع أصغر بتكلفة أقل على العكس من ذلك ، فإن العديد من ميزانيات المشاريع تنمو مع تحقيق فوائد إنتاج تسلسل الحمض النووي. لماذا يحدث هذا؟

يمكن تقسيم مشاريع تسلسل الجينوم إلى فئتين رئيسيتين:

  • من جديد تسلسل الجينوم ، حيث يتم تسلسل جينوم أحد الأنواع التي لم يتم تسلسلها بعد (مما يؤدي إلى الجينوم المرجعي)، و
  • إعادة التسلسل، حيث أ من جديد تم إنتاج الجينوم ، وفيه يتم ترتيب ومقارنة جينوم فرد جديد (استعلام) على صلة قربى ب ذلك الجينوم (المرجعي) الموجود.

نسبة متزايدة من الجينومات ذات الصلة طبيا واقتصاديا لديها بالفعل من جديد إنتاج تسلسل الجينوم. فلماذا نحن إعادة التسلسل أعداد كبيرة من الأفراد الإضافيين؟

للإجابة على أسئلة حول آليات الأنظمة البيولوجية مثل:

  • لماذا يقاوم بعض البشر الأمراض المعدية بينما يصاب بها آخرون؟
  • لماذا تتبع بعض الأمراض شجرة العائلة / موروثة؟
  • لماذا تنتج بعض النباتات غلات أعلى من غيرها ، في ظل ظروف نمو متطابقة؟

نحتاج إلى معرفة التركيب الجيني لكل فرد حتى نتمكن من إنشاء رابط سببي بين الكائنات الحية الفردية

  1. الحالة الجينومية ، و
  2. الحالة المظهرية
  3. في سياق البيئة التي تعيش فيها

إعادة ترتيب الأفراد وقياس الاختلافات المتعلقة بالجينوم المرجعي يتيح لنا فعل ذلك. مجموعة من الأفراد تسمى أ تعداد السكان، وكما ذكرنا سابقًا ، فإن ميزانيات المشاريع لا تتناقص لأن القيمة الحقيقية للبيانات الجينومية تأتي من قياس التنوع البيولوجي من الأنواع نسبة إلى الجينوم المرجعي. الجينوميات السكانية هي المرحلة التالية من الجينوميات التي يمكننا قياسها التنوع البيولوجي للسكان.

العديد من الإجراءات التالية ممكنة الآن بعد أن أصبحت بيانات جينوم القنب متاحة. بالإضافة إلى التحليلات الوصفية البسيطة لعلاقات التوتر ، هناك حاجة إلى عمل وصفي أكثر تفصيلاً ، بما في ذلك:

  • إنتاج تجميع أكثر دقة للجينوم نفسه. ال كاناتونيك التجميع المستخدم لإنتاج نتائج اليوم هو مسودة أولية. يتيح التجميع الأفضل دقة أعلى في جميع الاستخدامات اللاحقة للبيانات.
  • تحسين شروح الجينوم. يحتوي جنس القنب على العديد من الأنواع ذات الصلة التي تم بالفعل إنتاج جينومات مرجعية لها. يمكن نقل هذه البيانات ذات الصلة إلى القنب للمساعدة في شرح الجينوم - على سبيل المثال ، تحديد موقع الجينات واقتراح الخصائص الوظيفية لتلك الجينات.
  • ربط الملاحظات الجينومية / المظهرية المقترنة وتحسين عمليات التربية والتدجين. البيانات المقدمة هنا هي جينومية فقط. لم يتم توفير بيانات النمط الظاهري كجزء من إصدارات البيانات العامة المستخدمة. تتمثل الخطوة التالية في ربط بيانات النمط الظاهري ، مثل متوسط ​​وقت الزهرة للسلالة ، أو جرامات من محصول الزهرة ، أو الكتلة الحيوية في X أيام. يسمح هذا بالترويج للمتغيرات الجينية إلى QTLs باستخدام طرق مثل GBLUP. يسمح هذا للمربين بتسريع تدجين النبات باستخدام QTLs في الاختيار بمساعدة الواسمات مع المكافئ النباتي لـ EPDs.
  • تقليل مخاطر سلسلة التوريد. يتيح تحديد التوقيعات الجينية المحددة المرتبطة بالسلالات التعرف الجيني للأنسجة النباتية. وهذا بدوره يتيح تحسينات في مراقبة جودة سلسلة التوريد.

تتطلب كل خطوة من هذه الخطوات التالية مزيدًا من التحليلات المعلوماتية الحيوية ، والتي يمكن إجراؤها جميعًا على Google Cloud ، ويتم تبسيط العديد منها إلى حد كبير باستخدام البيانات المعدة والمنشورة في BigQuery اليوم.

باختصار: القنب نبات زراعي وطب مهم. يمثل الإصدار الأخير للبيانات الخاصة بعدد كبير من سلالات القنب الآن وقتًا مناسبًا لبدء تحليلات المعلومات الحيوية الأعمق. توفر Google Cloud أدوات عالية الأداء للعمل مع هذه البيانات ، مثل BigQuery و Dataflow ، بما في ذلك أدوات عالية التخصص عبر Genomics API للعمل مع البيانات الجينومية على نطاق السكان.

تم تنزيل ملفات بيانات FastQ من أرشيف قراءة تسلسل المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI SRA) باستخدام أدوات sra لتسعة مشاريع مع بيانات قراءة DNA للقنب المتاحة.

في نفس الوقت ، مرجع الجينوم (للسلالات القنب subsp. كاناتونيك, LA سري, 91- النعيم، و كوش الأرجواني) تم أيضًا تنزيله ، واستخدمت جميع التحليلات الإضافية ملف كاناتونيك سلالة كمرجع (GenBank MNPR01) للتحليل. تتوفر بيانات SRA FastQ الأساسية في Google Cloud Storage على gs: // gcs-public-data - genomics / cannabis في مجلد مشاريع SRA.

تمت محاذاة قراءات الحمض النووي لكل عينة مع MNPR01 باستخدام خوارزمية ذاكرة BWA. تتوفر القراءات المحاذية عبر Google Genomics API كمعرف مجموعة البيانات 918853309083001239 ، ومجموعة فرعية مكررة إضافية من بيانات النسخ فقط كمعرف مجموعة البيانات 94241232795910911.

تمت معالجة القراءات المتوافقة بعد ذلك باستخدام خوارزمية Freebayes لتحديد مواقع المتغيرات الجينية المحتملة لكل سلالة فردية بالنسبة للمرجع. تم إجراء استدعاءات المتغيرات لكل عينة ، وتتوفر استدعاءات متباينة للعينات عبر Google Genomics API ضمن معرف مجموعة البيانات 17527604790083478309.

أخيرًا ، تم تصدير المتغيرات إلى BigQuery 1000 Cannabis Genomes: Public Dataset.


الخيارات القياسية

الخيارات القياسية التالية ذات صلة بمعظم أدوات Picard:

خياروصف
--يساعديعرض خيارات خاصة بهذه الأداة.
--stdhelpيعرض الخيارات الخاصة بهذه الأداة والخيارات المشتركة لجميع أدوات سطر أوامر Picard.
--إصداريعرض إصدار البرنامج.
TMP_DIR (ملف)القيمة الافتراضية: خالية. قد يتم تحديد هذا الخيار 0 أو أكثر من المرات.
لفظية (LogLevel)التحكم في الإسهاب في التسجيل. القيمة الافتراضية: INFO. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:
هادئ (منطقي)ما إذا كان سيتم إيقاف معلومات ملخص الوظيفة على System.err. القيمة الافتراضية: خطأ. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:
VALIDATION_STRINGENCY (سلسلة التحقق من الصحة)صرامة التحقق من صحة جميع ملفات SAM التي يقرأها هذا البرنامج. يمكن أن يؤدي ضبط الصرامة على SILENT إلى تحسين الأداء عند معالجة ملف BAM حيث لا يلزم فك تشفير البيانات ذات الطول المتغير (القراءة والصفات والعلامات). القيمة الافتراضية: صارم. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:
COMPRESSION_LEVEL (عدد صحيح)مستوى الضغط لجميع الملفات المضغوطة التي تم إنشاؤها (مثل BAM و GELI). القيمة الافتراضية: 5. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية.
MAX_RECORDS_IN_RAM (عدد صحيح)عند كتابة ملفات SAM التي تحتاج إلى الفرز ، سيحدد هذا عدد السجلات المخزنة في ذاكرة الوصول العشوائي قبل انسكابها على القرص. تؤدي زيادة هذا الرقم إلى تقليل عدد معالجات الملفات اللازمة لفرز ملف SAM ، وزيادة مقدار ذاكرة الوصول العشوائي المطلوبة. القيمة الافتراضية: 500000. يمكن تعيين هذا الخيار على "خالية" لمسح القيمة الافتراضية.
CREATE_INDEX (قيمة منطقية)ما إذا كان سيتم إنشاء فهرس BAM عند كتابة ملف BAM تم فرزه بالإحداثيات. القيمة الافتراضية: خطأ. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:
CREATE_MD5_FILE (قيمة منطقية)ما إذا كان سيتم إنشاء ملخص MD5 لأي ملفات BAM أو FASTQ تم إنشاؤها. القيمة الافتراضية: خطأ. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:
REFERENCE_SEQUENCE (ملف)ملف التسلسل المرجعي. القيمة الافتراضية: خالية.
GA4GH_CLIENT_SECRETS (سلسلة)مسار ملف Google Genomics API client_secrets.json. القيمة الافتراضية: client_secrets.json. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية.
USE_JDK_DEFLATER (قيمة منطقية)استخدم JDK Deflater بدلاً من Intel Deflater لكتابة الإخراج المضغوط القيمة الافتراضية: false. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:
USE_JDK_INFLATER (قيمة منطقية)استخدم JDK Inflater بدلاً من Intel Inflater لقراءة القيمة الافتراضية للإدخال المضغوط: false. يمكن ضبط هذا الخيار على "فارغ" لمسح القيمة الافتراضية. القيم الممكنة:


أساليب

اقرأ الاسم

تحتوي قراءات التسلسل الخام على أسماء منسقة على النحو التالي: & # x0003cinstrument & # x0003e: & # x0003crun number & # x0003e: & # x0003cflowcell ID & # x0003e: & # x0003clane & # x0003e: & # x0003ctile & # x0003e: & # & # x000x & # x0003cy-pos & # x0003e (https://help.basespace.illumina.com/articles/descriptive/fastq-files/ آخر وصول بتاريخ 11 فبراير 2020). على سبيل المثال ، يحتوي السجل الأول في مجموعة البيانات ERR3790565 على اسم قراءة A00363: 103: H3CMMDRXX: 1: 1101: 21124: 1000 ، مما يشير إلى أن معرف جهاز التسلسل هو A00363 ، وتم إنشاء مجموعة البيانات هذه في تشغيلها 103 ، على تدفق خلية بالمعرف H3CMMDRXX. تم إنشاء هذه القراءة في الممر 1 ، في القطعة 1101 ، مع x موقف 21124 و ذ الموضع 1000. تحلل الخوارزمية الخاصة بنا اسم القراءة للحصول على معلومات حول جهاز التسلسل وخلية التدفق والبلاطات وفقًا لهذا التنسيق.

اكتساب العينة العامة

اختبرنا طريقتنا على مجموعات البيانات العامة من NCBI SRA (https://www.ncbi.nlm.nih.gov/sra). لقد بحثنا في مجموعات بيانات NCBI SRA باستخدام عوامل التصفية التالية: (1) الأنواع بشرية (2) البيانات مقترنة بنهاية (3) النظام الأساسي إما HiSeq أو NextSeq أو NovaSeq (4) يبلغ طول القراءة 70 & # x02009bps على الأقل (للسماح التداخل بين القراءة الأمامية والعكسية) ويتم إيداع (5) البيانات بين يناير 2015 وديسمبر 2019.اكتشفنا أن العديد من مجموعات البيانات لا تقرأ الأسماء في NCBI SRA ، ربما لتوفير مساحة التخزين ، مما يجعل مجموعة البيانات غير مناسبة لغرضنا (ملف إضافي 1: الملاحظات التكميلية 2-3). لتجنب تنزيل مجموعات البيانات غير المناسبة لتحليلنا ، قمنا يدويًا بفحص عدة عينات لكل دراسة باستخدام تطبيق الويب NCBI SRA (ملف إضافي 1: الملاحظات التكميلية 2-3). تم استبعاد دراسة إذا فشلت في هذا الفحص اليدوي (ملفات إضافية 3 ، 4 ، 5: الجداول S2 ، S3 ، S4 ، الشكل & # x000a0 1 d). وتجدر الإشارة إلى أن هذا الإجراء قد يؤدي إلى فقدان مجموعات البيانات من الدراسات مع معلومات اسم القراءة غير المتجانسة.

قد يكون طول قراءة مجموعة البيانات أقصر. على سبيل المثال ، يبلغ طول قراءة مجموعة البيانات SRR10388700 36 ، وبالتالي يكون التداخل الأمامي والعكس ضئيلًا (ملف إضافي 1: الملاحظة التكميلية 3). تم استبعاد جزء كبير (19٪) من مجموعات البيانات من منصة NextSeq بواسطة هذا الفلتر (الشكل & # x200B (الشكل 1 1 د).

مجموعة البيانات التي تحتوي على قراءات قليلة ليست مفيدة لتحليلنا. على سبيل المثال ، تحتوي مجموعة بيانات NovaSeq SRR8717673 على 31.6 مليون قاعدة فقط. لذلك ، استبعدنا تشغيل SRA عندما يكون عدد القواعد هو & # x0003c & # x02009500 مليون لـ HiSeq و & # x0003c & # x02009100 مليون لـ NextSeq و NovaSeq. تم استبعاد ثلاثة وثلاثين بالمائة من مجموعات بيانات NextSeq بواسطة هذا المرشح (الشكل & # x000a0 1 د).

بالنسبة لمسلسلات HiSeq ، هناك عدد قليل من الدراسات مع عدد كبير من مجموعات البيانات ، مثل الدراسة SRP214023 مع 600 مجموعة بيانات. قررنا استبعاد مثل هذه الدراسات & # x0201c كبيرة جدًا & # x0201d (تلك التي تحتوي على مجموعات بيانات & # x0003e & # x0200950) حتى نتمكن من الحصول على تمثيل أوسع للمؤسسات البحثية المختلفة. تم أيضًا استبعاد الدراسات ومجموعات البيانات # x0003c & # x0200910. تم العثور على بعض مجموعات البيانات ، مثل دراسة SRP215355 ، تحتوي على بعض العينات مع أسماء قراءة مفقودة وبالتالي حجم الدراسة & # x0003c & # x0200910. بعد هذا المرشح ، تم تضمين 2830 مجموعة بيانات HiSeq في تحليلنا (الشكل & # x000a0 1 د ، ملف إضافي 3: الجدول S2).

معلومات تخطيط خلية التدفق

لقد حصلنا على معلومات التخطيط المادي لـ HiSeq و NextSeq و NovaSeq كما هو موضح في الملف الإضافي 1: الملاحظة التكميلية 4-6 (اعتبارًا من 11 فبراير 2020). تم استخدام هذه المعلومات لإنشاء الشكل. & # x000a0 1 e & # x02013g.

وصف الخوارزمية

لحساب معدل خطأ جهاز التسلسل (sER) ، استخدمنا عدم التطابق في المناطق المتداخلة بين أزواج القراءة الأمامية والعكسية. نضمن أولاً أن أزواج القراءة تتمتع بجودة تسلسل جيدة باستخدام الطريقة الموضحة سابقًا [8]: (1) يتم تجاهل القراءة بجودة تعيين رديئة (MAPQ & # x0003c & # x0200955 أو MAPQ & # x0003e & # x02009254) ، (2 ) يجب ألا تحتوي القراءة على محاذاة معقدة (تحتوي سلسلة CIGAR على نمط من الأرقام متبوعًا بالحرف & # x0201cM ، & # x0201d أي تطابق التعبير العادي / ^ d + M $ /) ، (3) جودة Phred الإجمالية يجب أن تكون القراءة جيدة (& # x0003c & # x020095٪ من القواعد للحصول على درجة جودة Phred & # x02009 & # x0003c & # x0200920) ، و (4) قاعدة بدرجة جودة Phred & # x02009 & # x0003c & # x0200930 مستبعدة حتى إذا تمت قراءتها متضمن. نظرًا لأن طريقتنا تعتمد على أزواج القراءة الأمامية والعكسية ، فقد طلبنا في هذا العمل إقران القراءات بشكل صحيح. بالإضافة إلى ذلك ، (5) تمت إزالة أول خمسة أزواج أساسية من كل من القراءة الأمامية والعكسية لانخفاض الجودة المعروف في نهاية القراءة [8]. لتحديد نوع الطفرة (أي واحدة من 12 شركة خاطئة محتملة) ، أجرينا (6) أولاً عد الأليل باستخدام خوارزمية CleanDeepSeq المنشورة سابقًا [8] ، وحددنا الأنماط الجينية لجميع المواضع الجينية بعمق & # x02009 & # x0003e & # تستخدم المواقع الجينية x0200910 & # x000d7 ذات الأليل السائد (جزء الأليل & # x0003e & # x0200995٪) لحساب الأخطاء. يتم تنفيذ الخوارزمية في C ++.

مكتبة الحمض النووي المرجعية: مجموعة بيانات التخفيف COLO829

لمقارنة تأثير أجهزة التسلسل المختلفة بالإضافة إلى إزالة البلاط الخارجي على نفس مكتبة الحمض النووي المرجعية ، استفدنا من مجموعة بيانات التخفيف COLO829 (NCBI SRA: PRJNA474341) التي تم إنشاؤها مسبقًا [8]. باختصار ، تمت دراسة خط خلايا سرطان الجلد COLO829 (ATCC CRL-1974) وخط الخلية الطبيعي المطابق COLO829BL (ATCC CRL-1980 المشتق من الدم المحيطي للمريض نفسه) جيدًا لمتغيرات الحمض النووي الجسدية ويقترح استخدامها كمرجع المعيار لتسلسل الجينوم السرطاني [25 ، 26]. تم إجراء تجربة تخفيف سابقًا [8] لدراسة ملامح الخطأ في مجموعات بيانات التسلسل العميقة من الجيل التالي ، حيث تم خلط الحمض النووي من خط خلايا سرطان الجلد COLO829 مع الحمض النووي من خط الخلية الطبيعي COLO829BL بتركيزات منخفضة تبلغ 1: 1000 و 1: 5000 لتقليد سيناريو كسر الأليل المنخفض. لإنشاء ضوابط تصاعدية ، تم تحليل 19 بديلاً جسديًا معروفًا عن طريق تسلسل amplicon (مع منطقة مرافقة

& # x02009100 & # x02009bps لكل علامة) عند & # x0003e & # x020091،000،000 عمق [8]. في مجموعة البيانات هذه ، تم تسلسل مكتبة الحمض النووي نفسها في SJ (مستشفى أبحاث سانت جود للأطفال & # x02019s ، معرف التسلسل A00214) و HAIB (معهد HudsonAlpha للتكنولوجيا الحيوية ، مُعرّف التسلسل A00363) بشكل مستقل.

ومن المثير للاهتمام ، عند التنزيل ، وجدنا أن الاسم المقروء لمجموعة البيانات المقدمة (PRJNA474341) قد فُقد أيضًا أثناء الإرسال. لتمكين إعادة إنتاج نتائجنا ، قمنا بإعادة تحميل جميع ملفات FastQ ذات الصلة إلى أرشيف النيوكليوتيد الأوروبي (ENA ، https://www.ebi.ac.uk/ena) مع رقم الإدخال PRJEB35986 مع الاحتفاظ بالأسماء المقروءة. يتم توفير تعيينات معرفات العينة في ملف إضافي & # x000a0 & # x000a015: الجدول S14. تم تحليل مجموعات البيانات مع تضخيم PCR باستخدام بوليميراز DNA عالي الدقة NEB Q5 والمتسلسل باستخدام NovaSeq في هذا العمل.

مصدر البيانات والتصفية والمعالجة

تم تنزيل جميع البيانات العامة (ملفات إضافية 3 و 4 و 5 و 15: الجداول S2 و S3 و S4 و S14) من NCBI SRA باستخدام مجموعة أدوات SRA (v2.8.1.3 https: //www.ncbi.nlm.nih .gov / books / NBK158900 /). تم تعيين ملفات FastQ التي تم تنزيلها إلى hg19 كما هو موضح سابقًا [8] باستخدام bwa (0.7.12-r1039) مع الخيار & # x0201caln. & # x0201d إجمالي 1663 من بيانات تسلسل الجينوم الكامل (ملف إضافي 3: الجدول S2 ، الصفوف 22،029 & # x0201323،691) من دراسة سابقة لـ St. Jude LIFE (SJLIFE) [27] والتي يمكن الوصول إليها في St. Jude Cloud (https://platform.stjude.cloud/requests/cohorts). على سبيل المثال ، جهاز التسلسل الخارجي <"type": "entrez-nucleotide" ، "attrs": <"text": "E00332" ، "term_id": "2168619" ، "term_text": "E00332" >> E00332 في الشكل تم استخدام & # x000a0 2 b لهذه المجموعة. يتم تضمين جميع البيانات الأخرى ذات الصلة في المقالة أو الملفات التكميلية.

نظرًا لندرة أخطاء التسلسل ، هناك حاجة إلى عدد كبير من أزواج القواعد المتداخلة بين القراءة الأمامية والعكسية للحصول على تقديرات موثوقة لمعدلات الخطأ. لهذا الغرض ، طلبنا أن تحتوي خلية التدفق على ما لا يقل عن 2000000 زوج أساسي متداخل ليتم تضمينها في التحليل (على سبيل المثال ، ملف إضافي 1: الشكل S2). تم استخدام نفس العتبة على مستوى العينة للملف الإضافي 1: الشكل S1. يتم تقليل هذه العتبة إلى 1000000 عند تحليل معدلات الخطأ على مستوى السطح في الشكل & # x000a0 2 ج ، د ، الملف الإضافي 1: الشكل S3 ، S4 ، S5.

داخل كل منصة ، مثل HiSeq ، قد تكون هناك اختلافات بين النماذج الفرعية ، مثل HiSeq 2000/4000. على سبيل المثال ، يمكن أن تحتوي خلايا التدفق على عدد مختلف من التجانبات لكل قطعة (ملف إضافي 1: الملاحظة التكميلية 4-6). لحساب ذلك ، أنشأنا ملفًا إضافيًا 1: الشكل S4 و S5 باستخدام خلايا التدفق مع العدد الأكثر شيوعًا من المربعات (HiSeq ، 24 NextSeq ، 12 NovaSeq ، 78).


شاهد الفيديو: FASTQ Format (قد 2022).


تعليقات:

  1. Sebak

    أنصحك بزيارة موقع يحتوي على كمية كبيرة من المعلومات حول موضوع يثير اهتمامك.

  2. Rey

    لطيف فحسب !!

  3. Blagdon

    هذه هي العبارة الثمينة

  4. Nikogrel

    أنا أفهم هذه القضية. دعنا نناقش.



اكتب رسالة