Telomer
HeimHeim > Blog > Telomer

Telomer

Jun 26, 2023

Nature Genetics Band 55, Seiten 1390–1399 (2023)Diesen Artikel zitieren

6669 Zugriffe

58 Altmetrisch

Details zu den Metriken

Pangenome bieten Zugang zu einer genauen Darstellung der genetischen Vielfalt von Arten, sowohl im Hinblick auf Sequenzpolymorphismen als auch auf Strukturvarianten (SVs). Hier haben wir das Saccharomyces cerevisiae Reference Assembly Panel (ScRAP) erstellt, das Genome in Referenzqualität für 142 Stämme umfasst, die die phylogenetische und ökologische Vielfalt der Art repräsentieren. Der ScRAP umfasst abgestufte Haplotyp-Assemblierungen für mehrere heterozygote diploide und polyploide Isolate. Wir haben ca. 4.800 nichtredundante SVs identifiziert, die einen umfassenden Überblick über die genomische Vielfalt bieten, einschließlich der Dynamik der Telomerlänge und transponierbarer Elemente. Wir entdeckten häufige Fälle komplexer Aneuploidien, bei denen große Chromosomen große Deletionen und Translokationen erfuhren. Wir fanden heraus, dass SVs die Genexpression in der Nähe der Bruchpunkte beeinflussen und wesentlich zur Evolution des Genrepertoires beitragen können. Wir haben auch entdeckt, dass horizontal erworbene Regionen an den Chromosomenenden eingefügt werden und neue Telomere erzeugen können. Insgesamt zeigt der ScRAP den Nutzen eines Pangenoms für das Verständnis der Genomentwicklung auf Populationsebene.

Die Einzelmolekül-Long-Read-Sequenzierung ermöglicht den Zugriff auf lückenlose Genomanordnungen, einschließlich repetitiver Chromosomenregionen, die bei früheren Technologien im Allgemeinen nicht zusammengesetzt sind. Dies lässt sich am besten an der raschen Zunahme der Kontiguität des menschlichen Genoms1 veranschaulichen, insbesondere dank ultralanger Lesevorgänge von Oxford Nanopore Technology (ONT)2. Kürzlich veröffentlichte das Telomer-zu-Telomer-Konsortium (T2T) die erste vollständige „T2T“-Anordnung zweier menschlicher Chromosomen3,4,5, gefolgt von der Veröffentlichung des ersten lückenlosen menschlichen Genoms, einschließlich fast 200 MB neuer Sequenzen6. Komplexe Pflanzengenome und klassische Modellorganismen konnten dank Long-Read-Technologien ebenfalls Verbesserungen in der Assemblierungskontiguität verzeichnen7,8,9,10,11.

Diese Fortschritte ermöglichten es nur wenigen Arten, über mehrere referenzähnliche zusammenhängende Genome zu verfügen, darunter Modellorganismen und Arten von anthropozentrischer Bedeutung wie Escherichia coli12, Drosophila melanogaster10,13, Solanum lycopersicum14, Glycine max15, Oryza sativa8,16, Bombyx mori17 und Menschen18,19 ,20. Die Bäckerhefe Saccharomyces cerevisiae verfügt über insgesamt 68 Long-Read-Genomassemblierungen von Nichtreferenzstämmen21,22,23,24,25,26,27,28,29,30. Diese Daten wurden verwendet, um Kontiguitätsverbesserungen gegenüber Short-Read-Daten25 zu quantifizieren, genomweite Karten transponierbarer Elemente (TEs)22,24,25 zu erstellen, subtelomere Regionen29 zu charakterisieren, Haplotypen in Phasen einzuteilen und große Strukturvarianten (SVs)22,25 zu erkennen. 26,29,30. Allerdings variiert die Kontiguität der verfügbaren Genomanordnungen in S. cerevisiae stark und nur eine kleine Untergruppe von ihnen erreichte die Kontiguität auf Chromosomenebene. Darüber hinaus bleibt die Probenahme begrenzt, da vielen Stämmen ein repräsentatives Referenzgenom fehlt und trotz ihrer Häufigkeit keine polyploiden Genome einbezogen wurden (11,5 % der Isolate)31. Schließlich stellt die Phaseneinteilung der Haplotypen diploider und polyploider Genome eine Herausforderung dar, da sie Haplotyp-Schlussfolgerungen und Messungen der Heterozygotie verhindert.

Hier haben wir das S. cerevisiae Reference Assembly Panel (ScRAP) erstellt, das T2T-Genomassemblierungen für 142 Isolate umfasst, die den Genomraum der Art abtasten. Die Qualität dieser Genome übertrifft den Referenz-Goldstandard und ermöglicht uns die präzise Charakterisierung von SVs und komplexen Regionen in einem Ausmaß, das bei anderen Arten noch nicht erreicht wurde.

Das ScRAP umfasst 142 Stämme, die die geografische und ökologische Verbreitung der Art sowie ihre Ploidie- und Heterozygotiegrade abdecken (Abb. 1a, b und Ergänzungstabelle 1). Das Panel umfasst 197 nukleare und 136 mitochondriale Genomassemblys, darunter 100 neu sequenzierte Genome, unter denen Haplotyp-aufgelöste Assemblies sowohl für diploide als auch für polyploide Genome verfügbar sind (Tabelle 1 und Ergänzungstabellen 1–3). Genommetriken zeigen ein hohes Maß an Kontiguität und Vollständigkeit in allen Baugruppen (Ergänzende Anmerkung 1). Der ScRAP liefert Genome in Referenzqualität für alle wichtigen phylogenetischen Klassen 31, 32 (Abb. 1c und Ergänzende Anmerkung 2). T2T-Haplotyp-aufgelöste diploide Anordnungen zeigen, dass Schwesterhaplotypen (HPs; Haplotyp 1 (HP1) und Haplotyp 2 (HP2)) immer im Baum gruppiert waren und das gleiche Beimischungsprofil hatten (Abb. 1c, d). Der auffälligste Unterschied wurde zwischen den beiden HPs des Stamms Wine/European MC9 (AIS) beobachtet, bei denen die Zweiglänge von HP2 (AIS_HP2) im Vergleich zu allen anderen Endzweigen (Abb. 1c) unverhältnismäßig länger ist, was durch das Chromosom bestimmt wird -maßstäbliche Introgressionen der Chromosomen VI und VII einer stark divergierenden Art (siehe Introgressionen ganzer Chromosomen).

a, Beschreibung der ökologischen Herkunft, Ploidie und Zygotie der 142 ScRAP-Stämme. Farben werden als Schlüssel verwendet, um den Stammursprung zu symbolisieren (wild (grün), domestiziert (rot), menschlich (blau) oder Labor (gelb)), und Formen symbolisieren ihre Ploidie- und Zygotiestufen (haploid (einschichtiger Halbkreis), homozygot). diploid (Vollkreis), heterozygot diploid (zweigeteilter Kreis), heterozygot triploid und tetraploid (drei- und viergeteilter Kreis). Die haploide Kategorie enthält sowohl natürliche als auch gentechnisch veränderte (Δho) Stämme. Alle triploiden und tetraploiden Stämme außer für den homozygoten triploiden Stamm, der in den USA isoliert wurde. b, Geografischer Ursprung der Isolate. Die Form und Farben der Symbole sind wie in a. c, Phylogenetischer Baum basierend auf dem verketteten Proteinsequenz-Alignment von 1.612 1:1-Orthologen. Der Baum wurde durch Einbeziehung von 23 Stämmen anderer Saccharomyces-Arten (in der Abbildung nicht dargestellt) verwurzelt. Die Symbole auf der rechten Seite erinnern an den ökologischen Ursprung, die Ploidie und die Zygotie aller Isolate, wie in a beschrieben. Das Vorhandensein aneuploider Chromosomen ist mit einem Sternchen gekennzeichnet mit unterschiedlichen Graustufen, die zwischen mehreren Fällen im Vergleich zur 1.011-Genom-Untersuchung unterscheiden31 – schwarz, zuvor entdeckt; dunkelgrau, bisher nicht entdeckt; mittelgrau, vorher nicht vorhanden und neu gewonnen; hellgrau, früher vorhanden, aber neu verloren. d, genetische Abstammung der Population, wie durch Ausführen von ADMIXTURE mit k = 13 definiert.

Wir haben ein strenges molekulares Uhrmodell angewendet, um die wichtigsten Gründungsereignisse der Artengeschichte zu messen (Methoden). In Übereinstimmung mit früheren Schätzungen hat sich S. cerevisiae vor 5,7–1,7 MYA von seiner Schwesterart Saccharomyces paradoxus abgespalten (Ergänzungstabelle 4). Die erste Spaltung der am stärksten divergierenden Abstammungslinie (CHN-IX/TW1) erfolgte zwischen 680 und 180 KYA. Auf den Ursprung der Art folgte ein einziges Ereignis außerhalb Chinas, das den Rest der Weltpopulation zwischen 290 und 80 KYA begründete. Die Wein-/Europäische Abstammungslinie trennte 55–15 KYA von der wilden mediterranen Eichenpopulation, die wahrscheinlich ihren wilden Vorfahren darstellt33.

Wir identifizierten insgesamt 36.459 SVs durch paarweise Abgleiche des gesamten Genoms mit dem S288C-Referenzgenom (Abb. 2a; Methoden). Diese Aufrufe bestehen aus Kopienanzahlvarianten (CNVs) >50 bp, einschließlich Deletionen, Insertionen, Duplikationen und Kontraktionen repetitiver Sequenzen und kopieneutraler Umlagerungen einschließlich Inversionen (>1 kb) und Translokationen (>10 kb). Sie entstanden aus 4.809 nicht-redundanten groß angelegten Umlagerungen, die in unterschiedlicher Häufigkeit in den 141 Nicht-Referenzstämmen vorkommen (Tabelle 1 und Ergänzungstabelle 5). Dieser nicht redundante SV-Katalog umfasst ca. 80 % der geschätzten Strukturvielfalt der gesamten Art, von der wir vorhergesagt haben, dass sie etwa 6.000 SVs enthalten (Abb. 2b und Tabelle 1).

a: Das äußere Donut-Diagramm gibt die Anzahl der SV jedes Typs an. Das innere Balkendiagramm zeigt die Verteilung von SV auf die 142 Stämme. b, Rarefaction-Kurve, die die Entwicklung der Anzahl nichtredundanter SV als Funktion der Anzahl sequenzierter Stämme zeigt. Eingefügte Diagramme zeigen Verdünnungskurven pro SV-Typ. c, Die Anzahl der SVs und SNVs/Indels wird relativ zum Referenzgenom (S288C) berechnet. Die Kategorien „heterozygot monosporisch“ und „homozygot monosporisch“ entsprechen monosporischen Isolaten, die aus der Sporulation heterozygoter bzw. homozygoter diploider Stämme stammen. d, Die Allelfrequenz zeigt, wie SVs zwischen den Stämmen aufgeteilt werden. e: Die Werte 0 und 1 repräsentieren die relativen Positionen der Zentromere bzw. Telomere. f, Die x-Achse wurde auf 10 kb gekürzt. Die den verschiedenen SV-Typen zugeordneten Farben sind wie in den anderen Panels. g: Die Faltungsanreicherungen entsprechen dem Verhältnis zwischen dem Anteil der mit einem bestimmten ARS-Typ verbundenen Bruchpunkte und dem Anteil des Genoms, der von demselben ARS-Typ abgedeckt wird. h, „intragenisch“ bedeutet, dass SVs vollständig in den Genen enthalten sind. „Genhaltig“ bedeutet SVs, die mindestens ein vollständiges Gen enthalten. „Genstörung“ entspricht SVs, bei denen sich ein Bruchpunkt innerhalb eines Gens und der andere Bruchpunkt in einer intergenen Region befindet. „Genfusion“ bezeichnet Fälle, in denen die beiden SV-Breakpoints innerhalb zweier unterschiedlicher Kodierungssequenzen liegen. In der Spalte „wesentlich“ bedeuten n (nein) und y (ja) nicht-essentielle bzw. essentielle Gene. Eine manuelle Überprüfung von 29 gelöschten Genen, die als essentiell beschrieben werden, ergab, dass sie tatsächlich nicht essentiell sind, bedingt essentiell sind oder nur im heterozygoten Zustand als gelöscht befunden werden. i, Die Zahlen unten geben für jeden SV-Typ die Gesamtzahl der SV-Gen-Paare und die Anzahl der Paare an, die einen erheblichen Expressionsunterschied in Gegenwart oder Abwesenheit eines bestimmten SV aufweisen.

Durch das Phasing heterozygoter Genome wurde eine große Anzahl an SVs hinzugefügt, die bei alleiniger Verwendung kollabierter Assemblies unentdeckt geblieben wären. Im Durchschnitt wurden 33 % der in Phasenstämmen erkannten Anrufe nur durch Phasenassemblys validiert (Extended Data, Abb. 1a) und 53 % von ihnen sind heterozygot (Tabelle 1 und Extended Data, Abb. 1b). Bemerkenswert ist, dass sowohl der Anteil der Anrufe, die nur in Gegenwart von Phasengenomen validiert wurden, als auch der Anteil heterozygoter Varianten mit der Ploidie zunimmt. Die mittlere Anzahl der SVs steigt ebenfalls mit der Ploidie, von 219 SVs bei Haploiden auf 453 bei Tetraploiden (Extended Data Abb. 1c). Wir haben die Anzahl der SVs als Funktion der Anzahl der SNVs/Indels für jeden Stamm aufgetragen und eine positive Korrelation beobachtet (Abb. 2c). Allerdings steigt die SV-Zahl mit höherer Ploidie schneller an als die von SNVs (Abb. 2c). Darüber hinaus ist bei einer gegebenen Anzahl von SNVs/Indels die Anzahl der SVs in heterozygoten Genomen systematisch höher als in homozygoten. Diese Beobachtungen legen nahe, dass SVs sich bevorzugt in Genomen mit höherer Ploidie und heterozygoten Genomen ansammeln oder besser toleriert werden.

Es gibt einen Median von 240 SVs pro Stamm mit einem Maximum von 639 Ereignissen im hoch heterozygoten tetraploiden Stamm YS8(E) (BTE) (Tabelle 1 und Ergänzungstabelle 6). Die Anzahl der SVs unterscheidet sich nicht zwischen domestizierten und wilden Isolaten (Wilcoxon-Signed-Rank-Test, P = 0,53). Deletionen und Insertionen sind die häufigsten Arten von SVs (~ 100 Ereignisse pro Stamm), gefolgt von Duplikationen und Kontraktionen (10–20 Ereignisse pro Stamm). Translokationen und Inversionen sind seltener (nur wenige Vorkommen pro Stamm; Ergänzungstabelle 6). Die meisten SVs kommen in geringer Häufigkeit in der Bevölkerung vor, wobei 34 % der Ereignisse in einem einzelnen Genom und 91 % mit einer geringen Allelhäufigkeit <0,1 gefunden werden (Abb. 2d), was darauf hindeutet, dass SVs meist schädlich oder neu sind.

Alle Arten von SVs, mit Ausnahme der Inversionen, sind aufgrund der hohen evolutionären Plastizität dieser Regionen hauptsächlich auf subtelomere Regionen beschränkt (Abb. 2e). Einfügungen enthalten häufiger repetitive Sequenzen (82 %) als Deletionen, Duplikationen und Inversionen (41–47 %). Die Verteilung der Ereignisgrößen, ohne Translokationen, zeigt, dass kleine SVs am häufigsten vorkommen, wobei 58 % der Ereignisse <1 kb und nur 9 % > 10 kb sind (Abb. 2f). Diese Verteilung zeigt zwei deutliche Peaks um 300 bp und 6 kb für Deletionen, Insertionen und Inversionen, die Solo-Long Terminal Repeats (LTRs) und Ty-Elementen voller Länge entsprechen. Die Mobilität von Ty-Elementen ist direkt für 59 % aller Insertionen (1.571 Ereignisse) und 16 % der Deletionen durch Inter-LTR-Rekombination (218 Ereignisse) verantwortlich. Dieses Ungleichgewicht wird durch die begrenzte Anzahl von Ty-Elementen im Referenzgenom erklärt, die als Deletion interpretiert werden können, wenn sie in anderen Genomen fehlen. Interessanterweise resultierten 19 % bzw. 8 % aller Duplikationen und Kontraktionen (entsprechend 74 bzw. sieben Fällen) auch aus Tandem-Ty-Bewegungen. Insgesamt 39 % aller SVs resultieren aus dem Einfügen und Löschen von Ty-Elementen.

Wir fanden eine deutliche Anreicherung repetitiver Sequenzen (LTRs, Tys, tRNAs, Y′- und . Interessanterweise fanden wir einen erheblichen Zusammenhang zwischen autonom replizierenden Sequenzen (ARSs) und SV-Breakpoints. Wir haben alle ARSs aus ORIdb34 extrahiert und gezeigt, dass die ARS-SV-Assoziation umso größer ist, je höher die Wahrscheinlichkeit ist, dass das ARS abgefeuert wird (Abb. 2g).

Wir fanden heraus, dass fast 40 % der SVs (1.876 von 4.809) einen direkten Einfluss auf proteinkodierende Gene hatten (Tabelle 1), mit Ausnahme von SVs, die an der Insertion und Deletion von Ty-Elementen beteiligt sind. Interessanterweise sinkt dieser Anteil bei essentiellen Genen auf 3 %. Der mit Abstand häufigste Fall ist die Situation, dass beide Bruchpunkte eines bestimmten SV innerhalb desselben Gens liegen. Wir fanden 1.170 solcher Fälle von intragenen SVs, die größtenteils Insertionen und in geringerem Maße Deletionen und Duplikationen entsprachen (Abb. 2h). Die meisten Kontraktionen repetitiver Sequenzen gehören ebenfalls zu dieser Kategorie, da 78 von 93 in kodierende Sequenzen fallen. Es ist schwierig, das funktionelle Ergebnis intragener SVs vorherzusagen, da jedes Ereignis je nach Größe und Position relativ zum Leserahmen die entsprechende Kodierungssequenz stören kann oder nicht. Wir fanden 508 SVs, bei denen mindestens ein ganzes Gen zwischen den beiden Bruchpunkten liegt, was 345 Deletionen, 84 Inversionen und 27 Duplikationen mit durchschnittlich fünf, 30 bzw. zwei Genen entspricht. Insgesamt umfassten die 345 Deletionen 525 verschiedene Gene, die in mindestens einem HP vollständig deletiert wurden. Die beiden letzten Kategorien, Genstörung und Genfusion, umfassen alle SVs, bei denen einer oder beide Bruchpunkte innerhalb eines proteinkodierenden Gens liegen. Beachten Sie, dass sich diese beiden Kategorien nicht gegenseitig mit der vorherigen ausschließen, da ein bestimmtes Ereignis sowohl ganze Gene enthalten als auch an seinen Bruchpunkten andere Gene stören oder mit ihnen verschmelzen kann. Wir haben 450 Fälle von Genunterbrechungen identifiziert, die zu Genkürzungen führen, indem der interne Teil eines Gens mit einer intergenen Region verschmolzen wird. Wir fanden außerdem 145 mutmaßliche Genfusionsereignisse, bei denen beide Bruchpunkte eines bestimmten SV in verschiedene Gene fallen. Diese Ereignisse können neue chimäre Gene erzeugen, obwohl sie wahrscheinlich unbestimmte Anteile sowohl an Fusionen innerhalb als auch außerhalb des Rahmens umfassen. Überraschenderweise führte etwa die Hälfte der Translokationen (98 von 200) zu einer Genunterbrechung (n = 71) oder Fusion (n = 27) an ihren Bruchpunkten, im Gegensatz zur allgemeinen Annahme, dass Translokationen hauptsächlich zwischen TEs stattfinden. Insgesamt identifizierten wir 1.698 vollständige Gendeletionen und -duplikationen sowie 1.513 Genstrukturveränderungen am Ursprung neuer Gensequenzen, die das Genrepertoire der Art erheblich erweitern können.

SVs können die Genexpression beeinflussen, indem sie die Sequenz des offenen Leserahmens beeinflussen, ihre Kopienzahl modifizieren oder ihre regulatorischen Elemente ändern. Mithilfe einer kürzlich durchgeführten Umfrage, bei der das Transkriptom von mehr als 1.000 S. cerevisiae-Isolaten erstellt wurde35, untersuchten wir die Beziehung zwischen Genexpression und SVs. Für 51 Isolate analysierten wir die Expressionsniveaus für 6.445 Transkripte gegenüber 1.876 SVs und umfassten einen ähnlichen Anteil der verschiedenen SV-Typen wie der gesamte Datensatz (Extended Data, Abb. 3a). Wir haben zunächst einen Satz von 2.808 SV-Genpaaren definiert, wobei mehr als die Hälfte der Paare Insertions- oder Deletionsereignisse beinhalteten. Anschließend verglichen wir die Expression von Genen, die mit einem bestimmten SV assoziiert sind oder nicht (Extended Data, Abb. 3b). Wir fanden heraus, dass 124 SV-Genpaare (4,4 %; Ergänzungstabelle 7), die 97 einzigartige SVs umfassten, erhebliche unterschiedliche Expressionsänderungen aufwiesen (Tabelle 1). Dieser Einfluss scheint subtil zu sein, aber die transkriptomischen Daten wurden aus einer einzigen Bedingung (reiches Medium) gewonnen und wir haben die Analyse nur auf direkte cis-Effekte beschränkt. Interessanterweise variiert dieser Anteil je nach Art der SVs (Abb. 2i), wobei mehr als 5 % der Paare Deletionen und Duplikationen beinhalten und nur 1 % der Paare Inversionen, Translokationen und Kontraktionen beinhalten.

Wir untersuchten den Unterschied zwischen SVs, die sich in kodierenden und nicht kodierenden Regionen befinden, und beschränkten uns dabei auf Einfügungs- und Löschereignisse. Insgesamt sind 7,3 % der SV-Genpaare (60 von 815), die kodierende Sequenzen beeinflussen, mit erheblichen Unterschieden in der Expression verbunden, hauptsächlich durch Verringerung oder Unterdrückung der Expression (Abb. 2i). Im Gegensatz dazu wurde festgestellt, dass nur 3,1 % (23 von 726) der in nichtkodierenden Regionen vorhandenen Paare einen wesentlichen Einfluss auf die Genexpression hatten. Insgesamt zeigen diese Ergebnisse einen unterschiedlichen Einfluss auf die Genexpression je nach SV-Typ und Standort.

Wir identifizierten 26 Aneuploidien des gesamten Chromosoms, die 18 der 142 Isolate betrafen (Ergänzungstabelle 8). Interessanterweise haben wir auch eine komplexe Art von Aneuploidien entdeckt, die große SVs wie Translokationen, horizontale Gentransfer-Insertionen (HGT) und große (~100 kb) Deletionen umfassen (Ergänzungstabelle 8). Wir haben acht komplexe Aneuploidien in sieben Stämmen identifiziert, was 24 % aller Aneuploidien im ScRAP ausmacht. Wir haben die chromosomale Organisation in fünf Stämmen vollständig aufgelöst (Abb. 3a) und bestätigt, dass alle sieben komplexen Aneuploidien bereits vorhanden waren, als die Stämme erstmals mit Illumina sequenziert wurden31. Wir haben 993 Stämme (84 aus Lit. 36 und 909 aus Lit. 31) erneut analysiert, um sowohl einfache als auch komplexe Aneuploidien zu erkennen. Wir fanden heraus, dass ein großer Anteil aneuploider Chromosomen (bis zu 18 %) mit großen SVs auf Bevölkerungsebene assoziiert ist (Ergänzende Anmerkung 3 und ergänzende Tabellen 9 und 10). Interessanterweise stellten wir fest, dass komplexe Aneuploidien im Vergleich zu einfachen Aneuploidien größere Chromosomen umfassen (Abb. 3b). Es besteht eine positive Korrelation zwischen dem Anteil komplexer Aneuploidien für jedes Chromosom und ihrer Größe (Abb. 3c), während mehrere Studien eine negative Korrelation zwischen der Chromosomengröße und dem Auftreten einfacher Aneuploidien ganzer Chromosomen berichteten37. Darüber hinaus fanden wir einen zunehmenden Anteil komplexer Aneuploidien mit zunehmenden Ploidien (Abb. 3d), wie es für einfache Aneuploidien beschrieben wurde37. Diese Ergebnisse legen nahe, dass komplexe Aneuploidien einen alternativen adaptiven Weg eröffnen, der für einfache Aneuploidien nicht zugänglich wäre, indem sie eine erhöhte Kopienzahl für Gene ermöglichen, die sich auf großen Chromosomen befinden.

a, Schematische Darstellung der chromosomalen Zusammensetzung komplexer Aneuploidien. Die roten Punkte symbolisieren Zentromere. Die grauen Kästchen geben die Translokationshaltepunkte an. Gepunktete Umrahmungen zeigen duplizierte Regionen, während gepunktete Linien innerhalb von Chromosomen Deletionen anzeigen. Die Black Box in ASB symbolisiert die HGT-Region. b, Verteilung der Chromosomengrößen, die an komplexen (n = 85 verschiedenen Chromosomen) und einfachen (n = 379 verschiedene Chromosomen) Aneuploidien beteiligt sind. Die horizontalen Linien in den Boxplots entsprechen dem Median, die unteren und oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs. Angegeben sind zweiseitige Wilcoxon-Mittelwertvergleichs-P-Werte. c, Prozentsatz der gesamten Chromosomenaneuploidien, die als Funktion ihrer Größe komplex sind. Das Bestimmtheitsmaß (r2) wurde mit der lm-Methode des R-Programms berechnet. Das schattierte Fehlerband stellt das 95 %-Konfidenzintervall der Regressionsanpassung dar. d, Anzahl und Prozentsatz der euploiden, einfachen und komplexen Aneuploiden unter 993 analysierten Stämmen.

Die mittlere Telomergröße variiert zwischen verschiedenen Isolaten um den Faktor 4 (Extended Data Abb. 4), von 166 bp im Weinstamm CBS2183 (AFI) bis 686 bp im französischen Milchstamm CLIB561 (BGN_3a). Einige Stämme weisen eine homogene Telomerlänge über verschiedene Chromosomenenden hinweg auf, während andere eine große Varianz aufweisen. Die durchschnittliche Telomerlänge pro Stamm korreliert positiv mit der Varianz (Extended Data Abb. 5a). Wir fanden keine wesentliche Korrelation zwischen Telomerlänge und Ploidie, Heterozygotie oder Ökologie (Extended Data Abb. 5b – d). Wir untersuchten auch die Variation der Telomerlänge zwischen einzelnen Chromosomenenden in der Population von 100 Stämmen. Trotz einer weltweit homogenen Verteilung sind TEL03L und in geringerem Maße TEL07R wesentlich länger als alle anderen Telomere (Abb. 4a). Die beiden gleichen Chromosomenenden wurden auch in W303 als die längsten beschrieben (Lit. 38). Die Erhaltung größerer Telomergrößen bei TEL03L auf Populationsebene legt nahe, dass die zugrunde liegenden genetischen Determinanten erhalten bleiben würden, da die Art um mindestens etwa 180 KYA von ihrem letzten gemeinsamen Vorfahren abweicht. Wir fanden heraus, dass die meisten Enden eine einzelne Kopie des Kern-X-Elements tragen (67 %, 3.036/4.528; Ergänzungstabelle 11) und die Telomerlänge an chromosomalen Extremitäten ohne dieses Element wesentlich länger ist, dieser Unterschied ist jedoch bei TEL03L (Extended) nicht sichtbar Daten Abb. 6a–c). Wir fanden auch heraus, dass die Telomerlänge wesentlich größer war, wenn Subtelomere ein Ty5-Element enthielten, aber trotz einer spezifischen Anreicherung wird die TEL03L-Länge nicht durch das Vorhandensein von Ty5 beeinflusst (Extended Data Abb. 6d – f). Schließlich stellten wir fest, dass TEL03L an Y′-Elementen erschöpft ist und tatsächlich das ärmste aller Enden in der Bevölkerung ist (Extended Data Abb. 6g und Ergänzende Anmerkung 3), und TEL03L, das ein Y′-Element enthält, weist wesentlich kürzere Telomere auf als diese ohne (Abb. 4b und Extended Data Abb. 6h, i) und dieser Trend ist einzigartig für TEL03L unter den 32 Chromosomen-Enden (Extended Data Abb. 7). Dieser Befund legt nahe, dass die Wirkung der Sequenz, die die Bildung längerer Telomere an TEL03L fördert, durch das Vorhandensein eines Y′-Elements an diesem Ende spezifisch abgepuffert wird.

a: Querbalken innerhalb der Violindiagramme zeigen die einzelnen mittleren Telomerlängen an, und die horizontale Linie zeigt die globale mittlere Telomerlänge über alle Enden hinweg (n = 100 unabhängige Stämme in jedem Boxplot). Es wurde keine Korrektur für Mehrfachtests angewendet, aber die Falscherkennungsraten wurden geschätzt, indem der Anteil falsch positiver Ergebnisse mit 1, 2 und 3 Sternen (schwarz für das Rangprodukt und grau für den Rangsummentest) berechnet wurde, entsprechend P < 0,05, 0,01 und 0,001 bzw. b, Querbalken geben die mittleren Längen von TEL03L an (n = 100 unabhängige Stämme in jedem Boxplot). Angegeben sind zweiseitige Wilcoxon-Mittelwertvergleichs-P-Werte. c, Region A wurde von einer Torulaspora-Art auf BLD_1a- und AAB-Stämme übertragen und durch eine Ty2-Insertion in AAB unterbrochen. Der innerste Teil der Telomer-Repeats liegt in der Nähe der Torulaspora-Repeats (AAGGTTGA/TGGTGT50), während der distale Teil aus den Saccharomyces (TG1-3) besteht. d, Telomer wiederholt den allmählichen Übergang vom Torulaspora-Typ zum S. cerevisiae-Typ. Die Farben entsprechen den in c. dargestellten Wiederholungstypen. e, S. cerevisiae- und S. kudriavzevii-Chromosomen sind in Blau bzw. Dunkelrot dargestellt. Beide Bruchpunkte auf den Chromosomen VI und VII treten in Regionen auf, die im Vergleich zum genomweiten Durchschnitt eine geringe Sequenzdivergenz aufweisen (rote gestrichelte Linie). f, Die Topologie des Baums ist die gleiche wie in Abb. 1. tRNA-Gengewinne und -verluste werden in Dunkelblau bzw. Orange dargestellt. Anticodon-Modifikationen sind hellblau geschrieben. Stammnamen sind dunkelblau für Gewinne, orange für Verluste und lila, wenn verschiedene Arten von Ereignissen gleichzeitig auftraten. g, Chromosomenverteilung aller Arten transponierbarer Elemente in den 100 de novo zusammengesetzten Genomen (oben). Bei Isolaten, die mehrere Arten von Elementen in einer einzelnen Region enthalten, wird vorzugsweise das vollständige Ty dargestellt, gefolgt vom verkürzten Ty. Chromosomenverteilung vollständiger Ty-Elemente (unten). Pro Isolat wird nur ein Element aufgetragen. Bei Isolaten mit mehreren Familien an einer bestimmten Insertionsstelle war die im Referenzgenom gefundene Familie bevorzugt vertreten.

Bei S. cerevisiae wurden mehrere HGT-Ereignisse gemeldet, ihr mechanistischer Ursprung und ihre genaue Struktur sind jedoch noch nicht geklärt31,39,40. Wir haben die Struktur und Entwicklung aller in S. cerevisiae bekannten großen HGT-Regionen charakterisiert (Regionen A – G; Ergänzungstabelle 12). Obwohl HGTs in domestizierten Stämmen angereichert sind, kommen sie auch in wilden Isolaten vor (Extended Data Abb. 8), was zeigt, dass sie in natürlichen Umgebungen vorkommen und möglicherweise unter anthropischen Bedingungen verstärkt werden können. Ein neues gemeinsames Merkmal aller HGT-Regionen besteht darin, dass sie an Telomeren lokalisiert sind, was bedeutet, dass sie bei ihrer Übertragung die Telomersequenz und -funktion bewahren oder wiederherstellen müssen (Ergänzende Anmerkung 3). Beispielsweise wurde die HGT-Region A (40 kb) von einer undefinierten Torulaspora-Art übertragen und ist auf Chromosom IX-L in DBVPG1608 (BLD_1a) und auf Chromosom IL in CBS422a (AAB; Abb. 4c und erweiterte Daten Abb. 8) vorhanden. Darüber hinaus weist die Region A in AAB eine Ty2-Insertion auf, was zeigt, wie sich diese Regionen nach der Übertragung weiterentwickelten. Wir untersuchten die Telomerwiederholungen im distalen Teil der Region A und stellten fest, dass sich die interneren Telomerwiederholungen der Torulaspora-Spenderspezies allmählich in Richtung der klassischen S. cerevisiae TG1-3-Wiederholungen verschieben, wobei einige Zwischenwiederholungen eine gemischte Zusammensetzung enthielten (Abb. 4c). ,D). Diese Struktur legt nahe, dass die Torulaspora-Wiederholungen eine de novo-Telomeraddition durch Telomerase hervorgerufen haben, um ein funktionelles S. cerevisiae-ähnliches Telomer wiederherzustellen.

Die HP-Phasenbestimmung des aus Vino Cotto in Italien isolierten Stammes MC9 (AIS) ergab einen bisher nicht beobachteten Fall einer Introgression auf Chromosomenebene. Ein vollständiges Homolog von chrVI und ein nahezu vollständiges Homolog von chrVII stammen aus Saccharomyces kudriavzevii (Sk) und veranschaulichen einen einzigartigen Hybridkaryotyp (Abb. 4e). Rekombinationsbruchpunkte treten in Regionen auf, die im Vergleich zum genomweiten Durchschnitt eine geringe Divergenz aufweisen (1 SNP alle 4,78 bp, rote gestrichelte Linie, Abb. 4e). Insgesamt ist die besondere AIS-Genomstruktur mit aktuellen Modellen der Saccharomyces-Genomentwicklung schwer zu erklären. Die Bildung eines vollständigen Sc × Sk-Hybrids mit sequenziellem Verlust von 14 Sk-Chromosomen und Rediploidisierung der entsprechenden Sc-Chromosomen oder die teilweise Übertragung von zwei Sk-Chromosomen in einen Sc-Stamm stellen zwei mögliche Wege dar.

Multigene tDNA-Familien befinden sich in komplexen repetitiven Regionen, da sie als genomische Ziele für die De-novo-Transposition der Ty1- zu Ty4-Elemente41 dienen und daher nicht durch Short-Read-Genomsequenzierung zusammengesetzt werden können. Wir identifizierten 310 orthologe tDNA-Genfamilien, die dasselbe Anticodon hatten und zumindest auf einer Seite von denselben proteinkodierenden Genen flankiert waren (Ergänzungstabelle 13). Das tDNA-Repertoire besteht aus 41 Arten von Isoakzeptoren, die allen Isolaten gemeinsam sind. In zwei Familien kam es zu einer Mutation im Anticodon eines tDNA-Mitglieds (Ergänzende Anmerkung 3). Wir fanden heraus, dass 248 von 310 Familien in allen 100 Isolaten konserviert waren, während die anderen je nach Anzahl der enthaltenen Stämme in zwei verschiedene Kategorien unterteilt wurden. Wir haben 35 tDNA-Familien in weniger als fünf Stämmen beobachtet, was darauf hindeutet, dass sie durch kürzliche tRNA-Genzuwächse erworben wurden, während 27 Familien in mehr als 90 Stämmen gefunden wurden, was nicht unbedingt auf kürzliche Verluste in 1–10 Isolaten schließen lässt (Extended Data Abb. 9a). von eng verwandten Stämmen geteilt, wie zum Beispiel dem tK(CUU), das zehnmal unabhängig voneinander verloren ging, aber nie zunahm (Abb. 4f und Ergänzungstabelle 14). Insgesamt stellten wir fest, dass bei 30 und 38 Stämmen 38 tDNA-Gengewinne bzw. 42 Genverluste zu verzeichnen waren und dass alle Kladen von diesen Ereignissen betroffen sind (Abb. 4f). Mehrere Stämme häuften mehrere Ereignisse an (bis zu fünf in HN10 (BAM), isoliert aus morschem Holz in China). Einige Kladen akkumulieren bevorzugt eine Art von Ereignis, was darauf hindeutet, dass funktionelle Einschränkungen die Erweiterung oder Kontraktion des tDNA-Genrepertoires begünstigen können (Abb. 4f). Interessanterweise befinden sich kürzlich gewonnene tDNAs näher an den Chromosomenenden als die konservierten oder verlorenen tDNAs (Extended Data Abb. 9b), wobei sich 17/35 neu gewonnene tDNAs in Subtelomeren befinden, während dies bei keinem der 248 konservierten Gene der Fall ist, was darauf hindeutet, dass dies bei Subtelomeren der Fall sein könnte dienen als tRNA-Gen-Kinderstube, wo neue Kopien durch segmentale Duplikationen gewonnen werden, die mit der Verbindung translozierter Segmente von anderen Chromosomen verbunden sind. Die anderen 18 der 35 neu gewonnenen tDNAs, die sich außerhalb der subtelomeren Regionen befinden, resultieren ebenfalls hauptsächlich aus segmentalen Duplikationen, entweder verstreut oder hintereinander.

Wir haben alle vollständigen und verkürzten Kopien von Retrotransposons und ihren Solo-LTRs aus den fünf Familien (Ty1–Ty5) sowie das Tsu4-Element kommentiert, das aus einer mit Saccharomyces uvarum oder Saccharomyces eubayanus verwandten Linie stammt (Ergänzungstabelle 11 und Ergänzende Anmerkung 3). ). Wir beobachteten, dass TEs zusammen mit den Y′-Elementen Variationen der Genomgröße steuern (Extended Data, Abb. 10a). Das zweitgrößte Genom (12,65 MB) stammt von einem monosporischen Isolat (AMM_1a), das von einem Blattbaum in Taiwan (SJ5L12; Extended Data Abb. 10a) stammt und im Median eine starke Transpositionsaktivität mit insgesamt 120 vollständigen und acht verkürzten Elementen aufwies Die Zahl beträgt 14,5 (Extended Data Abb. 10b,c). Der TE-Gehalt ist zwischen den Isolaten hinsichtlich Anzahl und Art der Elemente sehr unterschiedlich (Extended Data Abb. 10b, c), wie bereits beschrieben43. Wir identifizierten 426 orthologe Insertionsstellen, die von mehreren Genomen gemeinsam genutzt werden (d. h. zumindest auf einer Seite von denselben orthologen Protein-kodierenden Genen flankiert werden, Ergänzungstabelle 15). Ihre Verteilung innerhalb der Population zeigt eine U-förmige Verteilung, wobei 50 % von weniger als 15 Stämmen und 26 % von mehr als 90 Stämmen geteilt werden (Extended Data Abb. 10d). Die am stärksten konservierten Stellen sind im Solo-LTR am stärksten angereichert (Extended Data Abb. 10e und Abb. 4g), was darauf hindeutet, dass eine Rekombination zwischen LTR häufig vorkommt. Das am stärksten konservierte vollständige Element ist nur in 62 Stämmen vorhanden (Ergänzungstabelle 15), und 118 Insertionsstellen enthalten überhaupt keine Kopie in voller Länge (Abb. 4g). Die vier eng verwandten Stämme aus der malaysischen Gruppe (BMB, BMC_2a, UWOPS034614 und UWOPS052272) enthalten eine durchschnittliche Anzahl an Solo-LTRs (etwa 390) und verkürzte Ty-Kopien (zwischen 6 und 9), weisen jedoch keinerlei Elemente voller Länge auf, was darauf hindeutet dass alle funktionellen Kopien durch Rekombination zwischen LTRs verloren gingen. Wir haben bestätigt, dass die malaysischen Stämme mit 14 Translokationen und zwischen 6 und 8 Inversionen pro Genom zu den am stärksten umgeordneten Genomen gehören (Ergänzungstabelle 6) 29, 44, was mit einer erhöhten ektopischen Rekombination zwischen verteilten Wiederholungen vereinbar ist. Der häufige Verlust vollständiger Elemente durch Rekombination zwischen LTR wird durch einen aktiven Prozess der De-novo-Transposition ausgeglichen. Es gibt 61 Standorte, die nur vollständige Elemente enthalten, zwei Drittel werden in einem einzelnen Isolat gefunden und der Rest wird von einigen wenigen Stämmen (zwischen 2 und 7) geteilt, die phylogenetische Nachbarn sind (Ergänzungstabelle 15). Dies ist insbesondere in Klade 13 (Laborstämme) sichtbar, wo 30 neue Insertionen aus sechs kürzlich erfolgten unabhängigen Insertionsereignissen resultierten (Erweiterte Daten, Abb. 10f).

Mithilfe von T2T-Assemblierungen einer großen Gruppe von S. cerevisiae-Stämmen konnten wir einen großen Teil (80 %) der strukturellen Vielfalt der Arten erfassen. Wir haben geschätzt, dass für den Zugriff auf die fehlenden Ereignisse etwa 360 zusätzliche Stämme erforderlich wären. Wir haben gezeigt, dass SVs die Expression von Genen beeinflussen können, die sich in der Nähe befinden. Darüber hinaus fanden wir heraus, dass SVs das Potenzial haben, die Diversität des Genrepertoires zu erhöhen, was einen Pangenom-Paradigmenwechsel erfordert, der die funktionelle Charakterisierung akzessorischer Gene ermöglicht . Der wahre Beitrag von SVs und akzessorischen Genen zur fehlenden Erblichkeit muss noch quantifiziert werden, aber der ScRAP stellt eine entscheidende genomische Ressource für dieses Ziel dar.

Wir fanden einen Median von 240 SVs (>50 bp) pro Genom, was einer durchschnittlichen Dichte von 1 SV pro 50 kb entspricht. Im Vergleich dazu würde jedes menschliche Genom >20.000 SVs46 enthalten, was etwa 1 SV/150 kb entspricht, also dreimal weniger als bei S. cerevisiae. Bei anderen Eukaryoten, die von Pangenomdaten profitieren, reicht die SV-Dichte von 1 SV/90 kb in Drosophila47 (wahrscheinlich unterschätzt, da nur euchromatische SVs mit >100 bp berücksichtigt wurden), 1 SV/38 kb in Sojabohnen15 und 1 SV/17 kb in Reis8 und bis zu 1 SV/4 kb bei Seidenraupen17. Wir fanden auch eine klare positive Korrelation zwischen der Anzahl der SVs und SNVs/Indels, die sich im Genom ansammeln. Es wurde vorgeschlagen, dass eine genomische Uhr das Tempo der Fixierung zwischen Aminosäuresubstitutionen und groß angelegten Umlagerungen in Bakterien und Hefen koordinieren würde48,49. Allerdings scheint diese Uhr je nach Ploidie- und Zygotiegrad des Genoms unterschiedlich schnell zu ticken. SVs reichern sich bevorzugt in heterozygoten Genomen und Genomen mit höherer Ploidie an (Abb. 2c). Eine Möglichkeit wäre, dass SVs in Genomen mit höherer Ploidie besser toleriert werden, da ihre schädlichen Auswirkungen (z. B. Gendeletion und Dosierungsungleichgewicht) effizienter abgepuffert werden. Alternativ könnte die Rate der SV-Bildung mit der Ploidie zunehmen, wie es für Aneuploidien vorgeschlagen wurde37.

In naher Zukunft werden hochwertige De-novo-Zusammensetzungen von Tausenden von Individuen eine einheitliche, vollständige und genaue Darstellung der genomischen Vielfalt der Arten erzeugen. Über die hier berichtete Analyse hinaus bietet der ScRAP eine solide Grundlage für diesen Zweck und wird den Übergang zu einem Pangenom ohne Referenzverzerrungen vorantreiben.

Das vollständige Panel besteht aus drei unterschiedlichen Datensätzen wie folgt: (1) 100 neu sequenzierte und de novo zusammengesetzte Genome, (2) 18 neu zusammengesetzte Genome unter Verwendung zuvor verfügbarer roher Nanopore-Lesedaten25 und (3) 24 öffentlich verfügbare vollständige Genomassemblierungen, einschließlich des S288C-Referenzgenoms 22, 23, 24, 26, 28, 29, 51, 52 (ergänzende Abbildung 1). Die Begründung für die Auswahl der 100 in dieser Studie de novo sequenzierten Stämme basierte hauptsächlich auf den Erkenntnissen aus dem 1.011-Genom-Projekt31,53. Wir haben eine pro Klade und Subklade ausgewählt, mit einem guten Sporulator-Phänotyp. Wir haben einige Stämme mit einer bekannten SV-Signatur ausgewählt (z. B. AIF mit segmentalen Duplikationen). Der AIS-Stamm, der eine Introgression auf Chromosomenebene aufwies, wurde erstmals in der 1.011-Arbeit entdeckt, aber aufgrund seiner komplexen Genomstruktur ausgeschlossen. Wir haben auch Stämme ausgewählt, von denen bekannt ist, dass sie große HGT-Ereignisse auslösen. Die 31 Diploiden (zehn nahezu homozygot und 21 hoch heterozygot), die nicht in der Lage waren, zu sporulieren oder lebensfähige Sporen zu produzieren, wurden in ihren ursprünglichen Ploidien sequenziert. Beachten Sie, dass BAF ausnahmsweise als diploid sequenziert wurde, obwohl es gut sporuliert und eine gute Lebensfähigkeit der Sporen aufweist.

Wir züchten Hefezellen in 10–15 ml Hefe-Pepton-Dextrose-Medium (YPD) bei 30 °C über Nacht (220 U/min). Für die DNA-Extraktion wurden insgesamt weniger als 7 × 109 Zellen verwendet. DNA mit hohem Molekulargewicht (HMW) wurde mit dem QIAGEN Genomic-tip 100/G gemäß dem „QIAGEN Genomic DNA Handbook“ für Hefe extrahiert. DNA-Menge und -Länge wurden durch den Qubit dsDNA HS Assay bzw. Pulsfeld-Gelelektrophorese (PFGE) kontrolliert. Die Bibliotheksvorbereitung und die ONT-Sequenzierung wurden basierend auf dem Protokoll „1D Native Barcoding genomic DNA with EXP-NBD104 and SQK-LSK108“ bei Verwendung von FLO-MIN106 MinION-Durchflusszellen und dem Protokoll „1D Genomic DNA by Ligation with EXP-NBD104 and SQK“ durchgeführt -LSK109 – PromethION' bei Verwendung der V2 FLO-PRO002-Durchflusszelle. Diese Protokolle sind bei der Oxford Nanopore Technologies Community erhältlich.

Für die Vorbereitung der Sequenzierungsbibliothek wurden bis zu 2 µg HMW-DNA pro Probe verwendet, um mit der Vorbereitung der Bibliothek zu beginnen. DNA-Reparatur und Endvorbereitung wurden mit dem NEBNext FFPE DNA Repair Mix mit dem folgenden Reaktionsaufbau durchgeführt: 48 µl DNA, 3,5 µl NEBNext FFPE DNA Repair Buffer, 2 µl NEBNext FFPE DNA Repair Mix, 3,5 µl Ultra II End Prep Reaction Buffer und 3 µl Ultra II End Prep Enzymmischung; 15 Min. bei 20 °C, gefolgt von 15 Min. bei 65 °C. Anschließend wurde die DNA-Größenauswahl unter Verwendung von AMPure XP Beads (Verhältnis 1:1) durchgeführt, gefolgt von einer nativen Barcode-Ligation (22,5 µl DNA, 2,5 µl nativer Barcode aus dem EXP-NBD104-Kit und 25 µl Blunt/TA Ligase Master Mix; 25 °C für 20 Min.). Nach einer weiteren Runde der AMPure XP-Bead-Reinigung (Verhältnis 1:1) wurden die Proben gepoolt und die Adapter für die gepoolte Probe 15 Minuten lang bei 25 °C ligiert (65 µl DNA, 5 µl Adaptermix II (AMII)). bereitgestellt im EXP-NBD104-Kit, 20 µl NEBNext Quick Ligation Reaction Buffer und 10 µl Quick T4 DNA Ligase; 25 °C für 15 Min.). Die mit dem Adapter ligierte DNA wurde durch Zugabe eines 0,4-fachen Volumens AMPure XP-Kügelchen und anschließende 5-minütige Inkubation bei Raumtemperatur gereinigt. Bei Verwendung des SQK-LSK108-Kits für FLO-MIN106 MinION-Durchflusszellen wurden zwei Waschungen mit 140 µl Adapter-Bead-Bindungspuffer (ABB) durchgeführt. Bei Verwendung des SQK-LSK109-Kits für FLO-PRO002-Durchflusszellen wurden zweimal 250-µl-L-Fragmentpufferwaschungen durchgeführt. Die endgültige Bibliothek wurde in 15 µl Elutionspuffer eluiert und gemäß den ONT-Handbüchern in die MinION- oder PromethION-Durchflusszellen geladen. Rohe Fast5-Dateien wurden mit Guppy (Version: 3.4.5) als Basis aufgerufen, gefolgt von der Entfernung von Adaptern und Barcodes durch Porechop (Version: 0.2.4;github.com/rrwick/Porechop). Das gesamte Projekt generierte nahezu 204 Gbit/s an Nanopore-Sequenzierungsdaten. Die Sequenzierungsstatistiken sind in der Ergänzungstabelle 16 aufgeführt. Für die Speicherung/Freigabe von Fast5-Dateien wurden einzelne Fast5-Dateien mithilfe von Picopore (Version: 1.2.0; github.com/scottgigante/picopore) von Basecalling-Daten befreit, um sicherzustellen, dass alle Dateien nur die erforderlichen Daten enthalten für erneutes Basecalling. Als nächstes wurden Single-Fast5-Dateien mit dem Befehl ont-fast5-api (Version: 0.3.2; github.com/nanoporetech/ont_fast5_api) single_to_multi in Multi-Fast5-Dateien konvertiert, gefolgt vom Befehl fast5_subset, um stammspezifische Fast5-Dateien zu generieren Enthält Fast5-Dateien für alle Lesevorgänge in jeder stammspezifischen Fastq-Datei. Dies wurde durchgeführt, um die Komplexität der erneuten Analyse mithilfe von Fast5-Dateien von Stämmen zu verringern, die mit mehreren Barcodes und über mehrere Fließzellen hinweg ausgeführt wurden, und um Fast5-Dateien für Lesevorgänge mit unzureichender Qualität zu entfernen. Alle adapter-/barcodefreien Fastq-Dateien und die zugehörigen stammspezifischen Fast5-Dateien sind unter der Zugangsnummer PRJEB50706/ERP135326 verfügbar.

Wir ließen Hefezellkulturen über Nacht bei 30 °C in 20 ml YPD-Medium bis zur frühen stationären Phase wachsen. Wir haben Zellen durch Zentrifugation gesammelt und die gesamte genomische DNA mit der QIAGEN Genomic-tip 100/G gemäß den Anweisungen des Herstellers extrahiert. Genomische Illumina-Sequenzierungsbibliotheken wurden mit einer mittleren Insertgröße von 280 bp erstellt und einer Paired-End-Sequenzierung (2 × 100 bp) auf Illumina HiSeq 2500-Sequenzierern unterzogen. Alle Paired-End-Illumina-Reads sind unter der Zugangsnummer PRJEB50706/ERP135326 verfügbar.

Alle Pipelines sind in den ergänzenden Methoden detailliert beschrieben.

Die subtelomeren Regionen wurden auf die gleiche Weise mit Anmerkungen und Namen versehen, wie in unserer vorherigen Studie vorgeschlagen29. Darüber hinaus wurden manuelle Untersuchungen und Anpassungen durchgeführt, um subtelomere Enden mit unvollständigen Sequenzinformationen oder erheblichen Neuordnungen zu kuratieren (Ergänzungstabelle 17).

Wir haben einen konsistenten Satz von 100 haploiden oder homozygoten Genomanordnungen für die Analyse der Dynamik von tDNAs und Ty-Elementen definiert, indem wir zunächst die diploiden, triploiden und tetraploiden Phasenanordnungen ausgeschlossen haben, da sie eine Anzahl annotierter tDNA- und Ty-Kopien enthielten, die proportional zu ihrer Ploidie war und daher schwer mit haploiden und kollabierten Genomanordnungen zu vergleichen (Ergänzungstabelle 11). Wir haben auch acht haploide Genome aus einer bestimmten Studie entfernt22, da sie eine viel geringere Anzahl an tDNAs enthielten als alle anderen Genome des Datensatzes, was wahrscheinlich auf lokale Assemblierungsfehler hinweist. Wir haben kollabierte Assemblies schließlich aus heterozygoten Genomen ausgeschlossen, da sie einige Diskrepanzen mit ihren zugehörigen Phasenassemblys aufwiesen, was auf mögliche Assemblierungsprobleme in diesen komplexen Regionen hindeutet.

Wir haben Telofinder54 (https://telofinder.readthedocs.io/en/latest/) entwickelt, um die chromosomale Position und Größe von Telomersequenzen in Hefegenomassemblierungen zu bestimmen. Der Telomernachweis basiert auf der Berechnung sowohl der DNA-Sequenzentropie als auch der Anteile der „CC“, „CA“- und „AC“-Dinukleotide in einem 20-bp-Schiebefenster. Telofinder gibt zwei CSV- und zwei Bed-Dateien aus, die die Telomeraufrufe und ihre Koordinaten enthalten, entweder als Rohausgabe oder nach der Zusammenführung aufeinanderfolgender Aufrufe. Wir haben Telofinder (Version: 1.0; Optionen: -s -1) auf allen 394 de novo und 24 zuvor verfügbaren Kerngenomassemblys ausgeführt, um ganze Genomsequenzen zu scannen.

Illumina-Reads wurden mit BWA-MEM (Version: 0.7.17) auf das Referenzgenom abgeglichen und die Abdeckung wurde mit BEDTools genomecov (Version: 2.27.1; Optionen: -d -ibam) berechnet. Anschließend wurde die Genomabdeckung für jeden Stamm separat anhand der Zentromerpositionen visualisiert. Aneuploidien wurden dann manuell mit Anmerkungen versehen. Um komplexe Aneuploidiestrukturen zu validieren, verwendeten wir zusätzlich sowohl Nanoporen-Reads als auch Genomassemblierungen. Nanoporen-Messwerte wurden mit minimap2 (Version: 2.17) an der Referenz ausgerichtet und mit tablet55 visualisiert. Rohe und finalisierte Genomassemblys wurden mit MUMmer nucmer (Version: 4.0.0beta2) mit der S288C-Referenzassembly und anderen Assemblys abgeglichen und als Punktdiagramm visualisiert. Darüber hinaus wurden durch die Analyse roher Genomassemblierungen vier komplexe Aneuploidie-Chromosomen identifiziert und extrahiert, die vollständig oder teilweise zusammengesetzt waren und zumindest die komplexe Region enthielten (CBS1586/AHG +1×chr10c; CBS457/AIF +1×chr11c; CBS4255/ASB). +2×chr9c; CBS1489/ASG +1×chr3c).

Die Aneuploidie-Erkennungspipeline56 unter Verwendung von Illumina-Daten von Refs. 31,36 ist unter https://github.com/SAMtoBAM/aneuploidy_detection verfügbar und besteht aus den folgenden Schritten:

Illumina-Lesevorgänge wurden mit BWA-MEM (Version: 0.7.17) abgeglichen und die Abdeckung wurde mit BEDTools genomecov (Version: 2.27.1; Optionen: -d -ibam) berechnet.

Die Abdeckung wurde zur Berechnung der mittleren Abdeckung in 30-kb-Bins mit einer 10-kb-Schrittweite unter Verwendung von BEDTools makewindows und map eingeteilt, wobei Regionen, die 15 kb (ein halbes Fenster) von jedem Chromosomenende abdecken, entfernt wurden, um Probleme bei der Telomerkartierung/-variation zu reduzieren .

Die Abdeckung wurde durch den genomweiten Median normalisiert und Kandidatenregionen wurden extrahiert, wenn sie um ±0,7*(1/n) abwichen. 0,7 gewährt eine gewisse Nachsicht gegenüber Abdeckungsabweichungen, die für eine Änderung der Kopienzahl als ausreichend erachtet werden.

Abweichende Bins wurden aggregiert, sodass eine Lücke von <= 10 kb (der Größe eines Objektträgers) möglich war.

Aggregierte Behälter wurden in zwei Typen unterteilt, je nachdem, ob sie ein Zentromer überlappten oder nicht, und zwar als „Zentromer-bezogen“ (CR) bzw. „Nicht-Zentromer-bezogen“ (NCR).

Die Größe der CR-Regionen wurde auf die Summe aller Regionen innerhalb desselben Chromosoms mit derselben Abweichung erhöht, z. B. +1, +2, −1 usw., um eine CR-Summe zu erhalten. Anschließend haben wir alle CR-Summen <50 kb entfernt und die Differenz zwischen dieser CR-Summe und der Chromosomengröße berechnet (abzüglich der 30 kb, die von den Enden entfernt wurden).

Alle CR-Summen mit einem Größenunterschied von mehr als 100 kb (d. h. ein CR deckt keine Regionen mit einer Summe von 100 kb oder mehr ab) wurden als komplex und der Rest als einfach gekennzeichnet

Stellen Sie die normalisierte Abdeckung aller Aneuploidien grafisch dar und kuratieren Sie die Liste manuell, um Fehlalarme zu entfernen und die komplex-einfache Klassifizierung anzupassen.

Während der manuellen Kuration blieben 34 Komplexe komplex, 347 einfache blieben einfach, vier Komplexe wurden als falsch positive Aneuploidien entfernt (aufgrund der Auswirkung des „Smiley-Effekts“), 32 wechselten von komplex zu einfach und zehn von einfach zu einfach Komplex. Der Übergang von einfach zu komplex war immer auf die Größenschwelle zurückzuführen (der Größenunterschied dieser zehn CRs betrug 96, 90, 82, 80, 72, 72, 66, 66, 50 und 40 kb). Alle Beispiele dieser Neuklassifizierung von einfach zu komplex waren unterschiedlich.

Identifizieren Sie alle NCRs >100 kb, die in einem Stamm vorhanden sind, der eine oben erkannte Aneuploidie enthält. Als mit komplexer Aneuploidie zusammenhängend kennzeichnen und in der weniger konservativen Schätzung der Anzahl komplexer Aneuploidien verwenden.

Der neu generierte große Aneuploidie-Datensatz überschneidet sich nach Stamm und Chromosom zu 88 % (303/343) mit dem der Referenz. 31 Datensatz. Damit bleiben nur 40 Aneuploidien (12 %) übrig, die nicht erneut entdeckt werden. Von diesen 40 ergab die manuelle Überprüfung, dass neun in Referenz eindeutig falsch positiv waren. 31, acht stammten von demselben Stamm und es geht darum, zu definieren, ob acht Chromosomen verloren gingen oder die anderen acht hinzugewonnen wurden, eines weist eine starke Zunahme der Abdeckung in der Nähe des Zentromers auf, ist aber nicht abdeckend, und drei weisen eine leichte Änderung der Abdeckung auf, sind es aber deutlich unter dem festgelegten Schwellenwert für die Anzeige einer Änderung der Kopienzahl. Daher sind im neuen Datensatz wahrscheinlich nur 19 verpasste Aneuploidien echte falsch-negative Ergebnisse. Die Überlappung zwischen Datensätzen zeigt zusätzlich 120 bisher unentdeckte Aneuploidien im neuen Datensatz. Von diesen 120 handelt es sich bei 35/120 (29 %) um komplexe Aneuploidien, im Vergleich zu 9/303 (2 %) innerhalb der Überlappung.

SV-Genpaare wurden mit BEDTools (Version: 2.27.1) ausgewertet. Für SVs, die CDS überlappen, wurde BEDTools intersect verwendet, um die Paare zu identifizieren. Ein zusätzlicher awk-Filter wurde angewendet, um CDS, die sich vollständig in SVs befinden, gezielt zu identifizieren. Für SVs innerhalb intergener Regionen wurde BEDTools close verwendet, um die Paare zu identifizieren, entweder durch Identifizierung der beiden SVs, die im Fall von Indels einem CDS am nächsten liegen (unter Verwendung der Optionen –io und –id oder –iu) oder durch Identifizierung des CDS, das am nächsten zu einem CDS liegt jede Grenze eines SV sowie diejenigen, die SV-Grenzen überlappen könnten. Bei Inversionsereignissen wurden nur die Paare untersucht, an denen die Gene beteiligt waren, die den zugehörigen Inversionsbruchpunkten am nächsten waren oder diese überlappten. Darüber hinaus waren SVs im Fall von Indels nur dann mit einem CDS assoziiert, wenn sie sich im intergenen Raum zwischen dem beobachteten CDS und dem nächsten befanden, sowohl stromaufwärts als auch stromabwärts.

Für jedes der im vorherigen Schritt erhaltenen SV-Genpaare wurden die 51 untersuchten Stämme in die folgenden zwei Gruppen aufgeteilt: Stämme mit und ohne SV. Anschließend wurden die Expressionswerte des untersuchten Gens in jedem der Stämme zwischen 0 und 1 eingestuft und normalisiert und dann zur Bewertung der differentiellen Expression verwendet, indem ein zweiseitiger Wilcoxon-Mann-Whitney-Test zwischen dem mit und ohne SV durchgeführt wurde Gruppen. Diese statistische Analyse wurde mit R (Version: 3.5.1) durchgeführt.

Für das Kerngenom wurden die Proteomsequenzen von 181 Eingabegenomen (mit 23 Saccharomyces-Arten außerhalb der Gruppe) für die phylogenetische Analyse verwendet. Insgesamt 1.612 Eins-zu-Eins-Kernorthologengruppen wurden von Proteinortho identifiziert (Version: 6.0.25; Optionen: --check -selfblast -singles). Für jede Orthologgruppe wurden das Protein- und CDS-Alignment von MACSE (Version: 2.04; Optionen: -prog alignSequences -gc_def 1 -seq $i.species_relabeled.fa -out_NT $i.macse_NT.aln.fa -out_AA $i) generiert. macse_AA.aln.fa und -prog exportAlignment -align $i.macse_NT.aln.fa -codonForFinalStop --- -codonForInternalStop NNN -codonForInternalFS NNN -codonForExternalFS --- -charForRemainingFS - -out_NT $i.macse_NT.aln.tidy.fa -out_AA $i.macse_AA.aln.tidy.fa). Darüber hinaus wurde eine verkettete Supermatrix des 1.612 Ortholog-basierten CDS-Alignments generiert, wobei verschiedene Partitionen definiert wurden, die verschiedenen Orthologgruppen entsprechen. Diese Supermatrix und die zugehörige Partitionsdefinition wurden von IQtree für die Erstellung eines Baums mit maximaler Wahrscheinlichkeit verwendet (Version: 1.6.12; Optionen: -spp $prefix.concatenated.cds.partition.txt -s $prefix.concatenated.cds.tidy.fa - m MFP -bb 1000 -alrt 1000 -nt $threads -pre $prefix.iqtree -safe). Insgesamt wurden 1.000 Runden ultraschneller Bootstrap (UB) und Approximations-Likelihood-Ratio-Test (aLRT) verwendet, um die Zweigunterstützungen zu bewerten.

Die Eingabe-VCF-Datei (matrixSam.snp.vcf.gz) wurde mit HaplotypeCaller und GenotypeGVCFs (Version: 4.1.8.1) von GATK4 mit BWA-MEM (Version: 0.7.17) ausgerichteten Illumina-Lesevorgängen generiert. Der resultierende Multisample-VCF wurde dann nach Varianten mit einem Quality-by-Depth, StrandOddsRatio, FisherStrand, Mapping Quality, MappingQualityRankSum und/oder ReadPosRankSum von mehr als zwei sd vom Durchschnitt gefiltert. Schließlich wurden Varianten aus Regionen entfernt, die von RepeatMasker und/oder in Ref. als repetitiv gekennzeichnet wurden. 57, um den endgültigen VCF zu generieren.

Wir haben das Python-Skript vcf2phylip58 (https://github.com/edgardomortiz/vcf2phylip; Versionen: 2.8; Optionen: -I $input_vcf –resolve-IUPAC -o S288C –fasta –output-prefix) verwendet, um die VCF-Datei in das zu konvertieren Fasta-Format. Der entsprechende SGDref-Eintrag im Fasta-Format wurde basierend auf der Referenz-Allelspalte der Eingabe-VCF-Datei extrahiert. MAFFT (Version: 7.471; Optionen: --auto --thread $threads --preservecase --addfragments) wurde verwendet, um diese beiden Fasta-Dateien auszurichten, indem der extrahierte SGDref-Eintrag als Referenzsequenz für die Ausrichtung verwendet wurde. Die resultierende Ausrichtung wurde von ClipKIT weiter gefiltert (Version: GitHub commit cccc8bf; Optionen: -m Gappy). Die gefilterte Ausrichtung wurde zur Baumerstellung in IQtree eingespeist (Version: 1.6.12; Optionen: -s $prefix.fasta -m GTR+ASC -bb 1000 -alrt 1000 -nt $threads -pre $prefix.iqtree -safe). Tausend Runden UB und aLRT wurden verwendet, um die Zweigunterstützungen zu bewerten.

Die Eingabe-SV-VCF-Datei (homo_and_hetero_noDoublonsInCoordinates.vcf.gz) wurde unter Verwendung des nichtredundanten SV-Datensatzes generiert. Basierend auf den Anwesenheits-/Abwesenheitsinformationen dieser identifizierten SVs in jedem Assembly-Eintrag wurde entsprechend eine Phylip-formatierte 0/1-Matrix generiert und für die Baumbildung verwendet. IQtree (Version: 1.6.12; Optionen: -s $prefix.phylip -st MORPH -m MK+ASC -bb 1000 -alrt 1000 -nt $threads -pre $prefix.iqtree -safe) wurde verwendet, um den phylogenetischen Baum zu generieren . Tausend Runden UB und aLRT wurden verwendet, um die Zweigunterstützungen zu bewerten.

Für die oben generierten phylogenetischen Bäume wurden baumbasierte Vorgänge wie Neuwurzeln, Beschneiden von Zweigen und Extrahieren von Spitzenetiketten mit den Tools nw_reroot, nw_prune und nw_labels aus dem Newick Utilities-Paket (Version: 1.6.0) durchgeführt. Die Baumvisualisierung wurde mit dem R-Paket ggtree (Version: 3.2.1) durchgeführt. Der Cophylo-Vergleich wurde mit dem R-Paket Phytools (Version: 1.0-3) durchgeführt. Der Abstand zwischen Bäumen wurde im Hinblick auf die Menge an Informationen bewertet, die die Teilungen der Bäume gemeinsam mit dem Clustering-Informationsabstand enthalten, der im R-Paket TreeDist (Version: 2.4.1) implementiert ist.

Wir haben die zuvor veröffentlichte Formel für die molekulare Datierung verwendet59. Wir haben 100 und 365 Generationen pro Jahr in Betracht gezogen, um unsere Schätzungen zu binden, wie zuvor vorgeschlagen60. Der Wert der Mutationsrate von 2,31072123540072E-10 wurde als Durchschnitt der zuvor gemeldeten Raten für homozygote und heterozygote Linien berechnet61. Die paarweisen Abstände zwischen Stämmen wurden mit MEGA11 (Version: 11.0)62 als p-Abstand berechnet, wobei nur die vierfach degenerierten Stellen verwendet wurden. Um festzustellen, ob es sich bei einer Codon-Position um eine vierfach degenerierte Stelle handelt, scannen wir jedes Codon und jede Codon-Position (d. h. erste, zweite und dritte Position) basierend auf der Codon-Tabelle des NCBI (https://www.ncbi.nlm.nih.gov). /Taxonomy/Utils/wprintgc.cgi) basierend auf dem CDS-Alignment jeder orthologen Gengruppe. Alle Codonpositionen, die den vierfach degenerierten Stellen entsprechen, wurden miteinander verkettet, um das Alignment der vierfach degenerierten Stellen des entsprechenden CDS-Alignments zu bilden. Die Ausrichtung der vierfach degenerierten Stellen aller 1-zu-1-Ortholog-CDS wurde weiter verkettet, um eine Superausrichtung der vierfach degenerierten Stellen zu bilden.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Alle Sequenzierungsdaten und Assemblierungs-/Annotationsdateien wurden im Europäischen Nukleotidarchiv (https://www.ebi.ac.uk/ena/browser/home) unter dem Dachprojekt PRJEB59869 hinterlegt. Der Projektzugang für die Rohsequenzierungsdaten (fast5, nanopore fastq, Illumina fastq) lautet PRJEB50706. Die Assembly-/Annotationszugänge lauten PRJEB59413, PRJEB59129, PRJEB59231, PRJEB59232 und PRJEB59230 für unphasierte nukleare, HP1, HP2, HP (für Polyploide) bzw. mitochondriale Assemblys. Jeder Beitritt für einzelne Baugruppen ist in der Ergänzungstabelle 1 (Kern) und der Ergänzungstabelle 3 (Mitochondrien) angegeben.

Alle in der Studie verwendeten veröffentlichten und/oder öffentlich verfügbaren Software sind mit ihren Versionsnummern und ihrer Download-Referenz in den Abschnitten „Methoden“ und „Ergänzende Methoden“ sowie in der Berichtszusammenfassung aufgeführt. In dieser Studie entwickelte benutzerdefinierte Skripte sind Telofinder (https://doi.org/10.5281/zenodo.8063924)54, das auch unter https://github.com/GillesFischerSorbonne/telofinder verfügbar ist, die Aneuploidie-Erkennungspipeline (https:// doi.org/10.5281/zenodo.8068318)56, das auch unter https://github.com/SAMtoBAM/aneuploidy_detection verfügbar ist, also die HP-Phasing-Pipeline (https://doi.org/10.5281/zenodo.8068328)63 auch verfügbar unter https://github.com/SAMtoBAM/PhasedDiploidGenomeAssemblyPipeline und das Skript zum Generieren des nichtredundanten SV-Datensatzes (https://doi.org/10.5281/zenodo.8068284)64, das auch unter https://github verfügbar ist. com/SAMtoBAM/MUMandCo/tree/master/nonredundant_population_datasets.

Chaisson, MJP et al. Die Komplexität des menschlichen Genoms mithilfe der Einzelmolekülsequenzierung aufklären. Natur 517, 608–611 (2015).

Artikel CAS PubMed Google Scholar

Jain, M. et al. Nanoporensequenzierung und Assemblierung eines menschlichen Genoms mit ultralangen Lesevorgängen. Nat. Biotechnologie. 36, 338–345 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Logsdon, GA, Vollger, MR & Eichler, EE Lange gelesene Sequenzierung des menschlichen Genoms und ihre Anwendungen. Nat. Rev. Genet. 21, 597–614 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Logsdon, GA et al. Die Struktur, Funktion und Entwicklung eines vollständigen menschlichen Chromosoms 8. Nature 593, 101–107 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Miga, KH et al. Telomer-zu-Telomer-Anordnung eines vollständigen menschlichen X-Chromosoms. Natur 585, 79–84 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Nurk, S. et al. Die vollständige Sequenz eines menschlichen Genoms. Wissenschaft 376, 44–53 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Choi, JY et al. Auf Nanoporensequenzierung basierende Genomassemblierung und evolutionäre Genomik von Circum-Basmati-Reis. Genombiol. 21, 21 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Qin, P. et al. Pangenomanalyse von 33 genetisch vielfältigen Reisakzessionen deckt verborgene genomische Variationen auf. Zelle 184, 3542–3558 (2021).

Artikel CAS PubMed Google Scholar

Rousseau-Gueutin, M. et al. Long-Read-Assemblierung des Brassica napus-Referenzgenoms Darmor-bzh. GigaScience 9, giaa137 (2020).

Artikel PubMed PubMed Central Google Scholar

Kim, BY et al. Stark zusammenhängende Ansammlungen von 101 Drosophilid-Genomen. eLife 10, e66405 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

O'Donnell, S., Chaux, F. & Fischer, G. Hochkontinuierliche Nanoporen-Genomanordnung von Chlamydomonas reinhardtii CC-1690. Mikrobiol. Ressource. Ankündigung 9, e00726 (2020).

Artikel PubMed PubMed Central Google Scholar

Wang, J. et al. Long-Read-Sequenzierung zur Untersuchung der Stammvariation bei adhärent-invasiven Escherichia coli, die aus menschlichem Darmgewebe isoliert wurden. PLoS ONE 16, e0259141 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Rech, GE et al. Long-Read-Sequenzierung im Populationsmaßstab deckt transponierbare Elemente auf, die mit Genexpressionsvariationen und adaptiven Signaturen in Drosophila verbunden sind. Nat. Komm. 13, 1948 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Alonge, M. et al. Wesentliche Auswirkungen weit verbreiteter struktureller Variation auf die Genexpression und die Ernteverbesserung bei Tomaten. Zelle 182, 145–161 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Liu, Y. et al. Pangenom wilder und kultivierter Sojabohnen. Zelle 182, 162–176 (2020).

Artikel CAS PubMed Google Scholar

Zhang, F. et al. Die Long-Read-Sequenzierung von 111 Reisgenomen zeigt deutlich größere Pan-Genome. Genomres. 32, 853–863 (2022).

PubMed PubMed Central Google Scholar

Tong, X. et al. Hochaufgelöstes Pangenom der Seidenraupe liefert genetische Einblicke in künstliche Selektion und ökologische Anpassung. Nat. Komm. 13, 5619 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Audano, PA et al. Charakterisierung der wichtigsten strukturellen Allelevarianten des menschlichen Genoms. Zelle 176, 663–675 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Beyter, D. et al. Die Langzeitsequenzierung von 3.622 Isländern liefert Einblicke in die Rolle von Strukturvarianten bei menschlichen Krankheiten und anderen Merkmalen. Nat. Genet. 53, 779–786 (2021).

Artikel CAS PubMed Google Scholar

Wong, KHY, Levy-Sakin, M. & Kwok, P.-Y. De-novo-Assemblierungen des menschlichen Genoms offenbaren ein Spektrum alternativer Haplotypen in verschiedenen Populationen. Nat. Komm. 9, 3040 (2018).

Artikel PubMed PubMed Central Google Scholar

Abou Saada, O., Tsouris, A., Eberlein, C., Friedrich, A. & Schacherer, J. nPhase: eine genaue und zusammenhängende Phasenmethode für Polyploide. Genombiol. 22, 126 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Bendixsen, DP, Gettle, N., Gilchrist, C., Zhang, Z. & Stelkens, R. Genomischer Beweis eines antiken ostasiatischen Divergenzereignisses in wilden Saccharomyces cerevisiae. Genombiol. Entwicklung 13, evab001 (2021).

Artikel PubMed PubMed Central Google Scholar

Berlin, K. et al. Zusammensetzen großer Genome mit Einzelmolekülsequenzierung und ortssensitivem Hashing. Nat. Biotechnologie. 33, 623–630 (2015).

Artikel CAS PubMed Google Scholar

Czaja, W., Bensasson, D., Ahn, HW, Garfinkel, DJ & Bergman, CM Evolution der Kontrolle der Ty1-Kopienzahl in Hefe durch horizontalen Transfer und Rekombination. PLoS Genet. 16, e1008632 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Istace, B. et al. De-novo-Assemblierung und Populationsgenomuntersuchung von natürlichen Hefeisolaten mit dem Oxford Nanopore MinION-Sequenzer. GigaScience 6, 1–13 (2017).

Artikel PubMed PubMed Central Google Scholar

Jenjaroenpun, P. et al. Vollständige genomische und transkriptionelle Landschaftsanalyse mittels Sequenzierung der dritten Generation: eine Fallstudie von Saccharomyces cerevisiae CEN.PK113-7D. Nukleinsäuren Res. 46, e38 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Lee, TJ et al. Umfangreiche Probenahmen von Saccharomyces cerevisiae in Taiwan offenbaren die Ökologie und Entwicklung prädomestizierter Abstammungslinien. Genomres. 32, 864–877 (2022).

PubMed PubMed Central Google Scholar

Shao, Y. et al. Schaffung einer funktionsfähigen Einzelchromosomenhefe. Natur 560, 331–335 (2018).

Artikel CAS PubMed Google Scholar

Yue, J.-X. et al. Gegensätzliche evolutionäre Genomdynamik zwischen domestizierten und wilden Hefen. Nat. Genet. 49, 913–924 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Heasley, LR & Argueso, JL Die genomische Charakterisierung eines wilden diploiden Isolats von Saccharomyces cerevisiae zeigt eine ausgedehnte und dynamische Landschaft struktureller Variationen. Genetik 220, iyab193 (2022).

Artikel PubMed Google Scholar

Peter, J. et al. Genomentwicklung bei 1.011 Saccharomyces cerevisiae-Isolaten. Natur 556, 339 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Duan, S.-F. et al. Der Ursprung und die adaptive Entwicklung domestizierter Hefepopulationen aus Fernostasien. Nat. Komm. 9, 2690 (2018).

Artikel PubMed PubMed Central Google Scholar

Almeida, P. et al. Ein Einblick in die Populationsgenomik in die mediterranen Ursprünge der Domestizierung von Weinhefe. Mol. Ökologisch. 24, 5412–5427 (2015).

Artikel PubMed Google Scholar

Siow, CC, Nieduszynska, SR, Müller, CA & Nieduszynski, CA OriDB, die DNA-Replikationsursprungsdatenbank, aktualisiert und erweitert. Nukleinsäuren Res. 40, D682–D686 (2012).

Artikel CAS PubMed Google Scholar

Caudal, E. et al. Das Pan-Transkriptom zeigt einen großen Beitrag des akzessorischen Genoms zur Variation der Genexpression in Hefe. Vorabdruck bei bioRxiv https://doi.org/10.1101/2023.05.17.541122 (2023).

Strope, PK et al. Die 100-Genom-Stämme, eine S. cerevisiae-Ressource, die ihre natürliche phänotypische und genotypische Variation und ihr Auftreten als opportunistischer Krankheitserreger beleuchtet. Genomres. 25, 762–774 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Gilchrist, C. & Stelkens, R. Aneuploidie in Hefe: Segregationsfehler oder Anpassungsmechanismus? Yeast 36, 525–539 (2019).

CAS PubMed Google Scholar

Sholes, SL et al. Chromosomenspezifische Telomerlängen und die minimalen funktionellen Telomere, die durch Nanoporensequenzierung ermittelt wurden. Genomres. 32, 616–628 (2022).

Artikel PubMed PubMed Central Google Scholar

Legras, J.-L. et al. Die Anpassung von S. cerevisiae an fermentierte Lebensmittelumgebungen zeigt eine bemerkenswerte Genomplastizität und die Spuren der Domestikation. Mol. Biol. Entwicklung 35, 1712–1727 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Novo, M. et al. Gentransferereignisse von Eukaryoten zu Eukaryoten, die durch die Genomsequenz der Weinhefe Saccharomyces cerevisiae EC1118 aufgedeckt wurden. Proz. Natl Acad. Wissenschaft. USA 106, 16333–16338 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Bonnet, A. & Lesage, P. Licht und Schatten auf den Mechanismen der Auswahl der Integrationsstelle in Hefe-Ty-Retrotransposon-Familien. Curr. Genet. 67, 347–357 (2021).

Artikel CAS PubMed Google Scholar

Bergman, CM Horizontaler Transfer und Proliferation von Tsu4 in Saccharomyces paradoxus. Mob. DNA 9, 18 (2018).

Artikel PubMed PubMed Central Google Scholar

Bleykasten-Grosshans, C., Fabrizio, R., Friedrich, A. & Schacherer, J. Artenweite transponierbare Elementrepertoires zeichnen die Evolutionsgeschichte des Wirts Saccharomyces cerevisiae nach. Mol. Biol. Entwicklung 38, 4334–4345 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Marie-Nelly, H. et al. Hochwertige Genom(re)assemblierung anhand chromosomaler Kontaktdaten. Nat. Komm. 5, 5695 (2014).

Artikel CAS PubMed Google Scholar

McCarthy, CGP & Fitzpatrick, DA Pangenomanalysen von Modellpilzarten. Mikrob. Genom. 5, e000243 (2019).

PubMed PubMed Central Google Scholar

Ho, SS, Urban, AE & Mills, RE Strukturelle Variation im Zeitalter der Sequenzierung. Nat. Rev. Genet. 21, 171–189 (2020).

Artikel CAS PubMed Google Scholar

Chakraborty, M., Emerson, JJ, Macdonald, SJ & Long, AD Strukturvarianten weisen eine weit verbreitete allelische Heterogenität und Formvariation in komplexen Merkmalen auf. Nat. Komm. 10, 1–11 (2019).

Artikel Google Scholar

Vakirlis, N. et al. Die Rekonstruktion der Chromosomenarchitektur und des Genrepertoires der Vorfahren enthüllt Prinzipien der Genomentwicklung in einer Modellhefegattung. Genomres. 26, 918–932 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Puigbò, P., Lobkovsky, AE, Kristensen, DM, Wolf, YI & Koonin, EV Genome in Aufruhr: Quantifizierung der Genomdynamik in Prokaryonten-Supergenomen. BMC Biol. 12, 66 (2014).

Artikel PubMed PubMed Central Google Scholar

Peska, V. et al. Außergewöhnliche Vielfalt an Telomeren, Telomerase-RNAs und ihren Template-Regionen in Saccharomycetaceae. Wissenschaft. Rep. 11, 12784 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Goffeau, A. et al. Leben mit 6000 Genen. Science 274, 563–567 (1996).

Artikel Google Scholar

Zhang, X. & Emerson, JJ Ableitung der genetischen Architektur der Expressionsvariation aus wiederholten allelspezifischen Expressionsexperimenten mit hohem Durchsatz. Vorabdruck bei bioRxiv https://doi.org/10.1101/699074 (2019).

De Chiara, M. et al. Durch die Domestizierung wurde der Lebenszyklus der entstehenden Hefe umprogrammiert. Nat. Ökologisch. Entwicklung 6, 448–460 (2022).

Artikel PubMed Google Scholar

Fischer, G., Kornobis, E. & Cokelaer, T. Telofinder: ein Python-Paket zur Bestimmung der Position und Größe von Telomerwiederholungen. Zenodo https://doi.org/10.5281/zenodo.8063924 (2023).

Edwards, D. (Hrsg.) Plant Bioinformatics: Methods and Protocols, S. 253–268 (Springer, 2016).

SAMtoBAM. SAMtoBAM/aneuploidy_detection: v1. Zenodo https://doi.org/10.5281/zenodo.8068318 (2023).

Jubin, C., Serero, A., Loeillet, S., Barillot, E. & Nicolas, A. Die Sequenzprofilierung des Saccharomyces cerevisiae-Genoms ermöglicht die Entfaltung einzigartiger und mehrfach ausgerichteter Reads zur Variantenerkennung. G3 (Bethesda) 4, 707–715 (2014).

Artikel PubMed Google Scholar

Ortiz, EM vcf2phylip v2.0: Konvertieren einer VCF-Matrix in mehrere Matrixformate für die phylogenetische Analyse. Zenodo https://doi.org/10.5281/zenodo.2540861 (2019).

Fay, JC & Benavides, JA Hinweise auf domestizierte und wilde Populationen von Saccharomyces cerevisiae. PLoS Genet. 1, e5 (2005).

Artikel PubMed PubMed Central Google Scholar

D'Angiolo, M. et al. Ein lebender Hefe-Vorfahre enthüllt den Ursprung genomischer Introgressionen. Natur 587, 420–425 (2020).

Artikel PubMed Google Scholar

Tattini, L. et al. Genaue Verfolgung der Mutationslandschaft diploider Hybridgenome. Mol. Biol. Entwicklung 36, 2861–2877 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Tamura, K., Stecher, G. & Kumar, S. MEGA11: Molekulare Evolutionsgenetische Analyse Version 11. Mol. Biol. Entwicklung 38, 3022–3027 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

SAMtoBAM. SAMtoBAM/PhasedDiploidGenomeAssemblyPipeline: v1. Zenodo https://doi.org/10.5281/zenodo.8068328 (2023).

SAMtoBAM. SAMtoBAM/MUMandCo: v3.8. Zenodo https://doi.org/10.5281/zenodo.8068284 (2023).

Referenzen herunterladen

Wir danken B. Dujon und B. Llorente für ihr wertvolles Feedback zum Papier. Diese Arbeit wurde von der Agence Nationale de la Recherche ANR-16-CE12-0019 (an GL, JS und GF) und ANR-18-CE12-0004 (an GL und GF) unterstützt. Diese Arbeit wurde teilweise auch von ANR-15-IDEX-01 (an GL), Fondation pour la Recherche Médicale (EQU202003010413 an GL), dem Europäischen Forschungsrat (ERC Consolidator Grant 772505 an JS), Guangdong Basic und Applied Basic unterstützt Research Foundation (2019A1515110762 an J.-XY), Guangdong Pearl River Talents Program (2019QN01Y183 an J.-XY) und National Natural Science Foundation of China (32070592 an J.-XY). JS ist Fellow des Institute for Advanced Study der Universität Straßburg (USIAS) und Mitglied des Institut Universitaire de France.

Diese Autoren haben gleichermaßen beigetragen: Samuel O'Donnell, Jia-Xing Yue.

Diese Autoren haben diese Arbeit gemeinsam betreut: Joseph Schacherer, Gianni Liti, Gilles Fischer.

Universität Sorbonne, CNRS, Institut de Biologie Paris-Seine, Labor für Computational and Quantitative Biology, Paris, Frankreich

Samuel O'Donnell, Nicolas Agier, Stéphane Delmas und Gilles Fischer

Staatliches Schlüssellabor für Onkologie in Südchina, Kollaboratives Innovationszentrum für Krebsmedizin, Guangdong Schlüssellabor für Diagnose und Therapie von Nasopharynxkarzinomen, Krebszentrum der Sun Yat-sen-Universität, Guangzhou, China

Jia-Xing Yue, Jing Li und Zepu Miao

Universität Côte d'Azur, CNRS, INSERM, IRCAN, Nizza, Frankreich

Jia-Xing Yue, Matteo De Chiara, Jing Li, Lorenzo Tattini und Gianni Liti

Universität Straßburg, CNRS, GMGM UMR 7156, Straßburg, Frankreich

Omar Abou Saada, Claudia Caradec, Fabien Dutreux, Téo Fournier, Anne Friedrich und Joseph Schacherer

Biomics Technological Platform, Zentrum für technologische Ressourcen und Forschung (C2RT), Institut Pasteur, Paris, Frankreich

Thomas Cokelaer & Etienne Kornobis

Zentrum für Bioinformatik und Biostatistik, Abteilung für Computational Biology, Institut Pasteur, Paris, Frankreich

Thomas Cokelaer & Etienne Kornobis

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

JS, GL und GF haben die Studie konzipiert. SOD, NA, CC, SD, TF und JL führten Experimente durch. SOD, J.-XY, OAS, TC, MDC, FD, TF, AF, EK, JL, ZM, LT, JS, GL und GF analysierten die Ergebnisse. SOD, J.-XY, JS, GL und GF haben den Artikel geschrieben. Alle Autoren haben die endgültige Version des Papiers überprüft und dazu beigetragen.

Korrespondenz mit Joseph Schacherer, Gianni Liti oder Gilles Fischer.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Genetics dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Peer-Reviewer-Berichte sind verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

A. Einfluss der Haplotyp-Phaseneinstellung auf die SV-Validierung für die verschiedenen Ploidiegrade (n = 21, n = 6 und n = 7 für diploide, triploide bzw. tetraploide Stämme). B. Verteilung der Anzahl heterozygoter SV pro Stamm, aufgeteilt nach Ploidie. Bei Diploiden erfolgte dies einfach dadurch, dass jede Variante, die nicht sowohl HP1- als auch HP2-Genom enthielt, als heterozygot betrachtet wurde (n = 21 Stämme). Bei Polyploiden wurden zunächst die Phasengenome mit der Referenz abgeglichen, die Abdeckung um die Region des Ereignisses berechnet und diese Abdeckung dann verwendet, um die maximale Anzahl vorhandener Haplotypen abzuschätzen. Wenn die Anzahl der Phasenblöcke zur Validierung der Variante geringer war als die maximalen Haplotypen, wurde das Ereignis als heterozygot betrachtet (n = 6 bzw. n = 7 triploide und tetraploide Stämme). Die horizontalen Linien in den Boxplots entsprechen dem Median, die unteren und oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs. C. Anzahl der validierten SV pro Stamm, aufgeteilt nach Ploidie (n = 51, n = 76, n = 6 und n = 7 für haploide, diploide, triploide bzw. tetraploide Stämme. Die horizontalen Linien in den Boxplots entsprechen dem Median, dem unteren und die oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs.

Die Haltepunkte aller SVs in jedem „besten“ Genom wurden mit der entsprechenden GFF-Annotationsdatei abgeglichen. Diese wurden dann mit dem genomweiten Anteil der Ereignisse verglichen, um eine Anreicherung pro Genom zu berechnen. Dies wurde erreicht, indem die mit dem Haltepunkt verbundenen Merkmale (links: n = 1776 CDS, n = 5 Zentromer, n = 1743 LTR, n = 274 tRNA, n = 760 TY, n = 354 X_element und n = 498 Y_prime_element) und die Nächstes Element für intergene Haltepunkte (rechts: n = 2041 CDS, n = 145 Zentromer, n = 1784 LTR, n = 1291 tRNA, n = 748 TY, n = 427 X_element und n = 278 Y_prime_element). Die horizontalen Linien in den Boxplots entsprechen dem Median, die unteren und oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs.

A. Anzahl der verschiedenen Arten von SVs, die im Satz von 51 Isolaten vorhanden sind, die zur Untersuchung der Beziehung zwischen SVs und Genexpressionsvariation verwendet werden (Ins für Insertionen, Del für Deletionen, Inv für Inversionen, Dup für Duplikationen, Transloc für Translokationen und Contr für Kontraktionen). ). B. Vergleich der Expressionsniveaus, die es ermöglichen, die Auswirkung des SV zu testen. Linkes Feld, Vergleich des Vorhandenseins (+SV) oder Fehlens (−SV) eines Deletionsereignisses in der regulatorischen Region des ORF YHR043C. Rechtes Feld, Vergleich des Vorhandenseins (+SV) oder Fehlens (−SV) einer Duplikation des ORF YHR054C. Die horizontalen Linien in den Boxplots entsprechen dem Median, die unteren und oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs.

Die vertikalen Linien in den Boxplots entsprechen dem Median, die unteren und oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs. Für jeden der 142 Stämme ist die Anzahl der zur Ableitung des Boxplots verwendeten Telomere in der Ergänzungstabelle 1 angegeben. Das Nebendiagramm zeigt die Verteilung der durchschnittlichen Telomerlänge pro Stamm für jeden Datensatz. Medianwerte werden durch die grauen Querbalken in jedem Geigendiagramm angezeigt (für De-novo-Versammlungen n = 100 Stämme, für öffentliche Versammlungen n = 24 Stämme und für Neuzusammenstellungen n = 18). Angegeben sind zweiseitige Wilcoxon-Mittelwertvergleichs-p-Werte.

A. Streudiagramm, das die positive Korrelation zwischen der mittleren Telomerlänge und ihrer Varianz pro Stamm zeigt. Der Pearson-Korrelationskoeffizient und der zugehörige p-Wert wurden mithilfe der stat_cor-Methode in R berechnet. Das schattierte Fehlerband stellt das 95 %-Konfidenzintervall der Regressionsanpassung dar. Boxplots, die die Verteilung der Telomerlängen pro Stamm, aufgeteilt nach b, zeigen. Ploidie, c. Zygosität und d. Ökologie. Medianwerte werden durch die grauen Querbalken in jedem Geigendiagramm angezeigt. Zweiseitige Wilcoxon-Mittelwertvergleichs-p-Werte sind angegeben (b, c und d).

a, d und g zeigen die Anzahl der Kernelemente X, Ty5 und Y', die jeweils an jedem Chromosomenende in den 100 Stämmen gefunden wurden. b, e und h. zeigen die Verteilungen der mittleren Telomerlänge in Gegenwart oder Abwesenheit der entsprechenden subtelomeren Elemente über alle Chromosomenenden (n = 32 Subtelomere) und c, f und i über TEL03L (n = 32 Subtelomere). Medianwerte werden durch die schwarzen Querbalken in jedem Geigendiagramm angezeigt. Zweiseitige Wilcoxon-Mittelwertvergleichs-p-Werte sind angegeben (b, c, e, f, h und i).

Angegeben sind zweiseitige Wilcoxon-Mittelwertvergleichs-p-Werte. Die Anzahl der Telomere, die zur Ableitung jedes Geigendiagramms verwendet wird, ist oben in jedem einzelnen Diagramm angegeben.

Der phylogenetische Baum auf der linken Seite ist identisch mit Abb. 1 und entspricht einem Baum, der auf dem verketteten Proteinsequenz-Alignment von 1.612 1:1-Orthologen basiert. Die grünen, roten, blauen und gelben Symbole weisen auf die ökologische Herkunft hin. Ploidiestufen und Zygotie werden durch die Formen der Symbole wie in Abb. 1 symbolisiert.

A. Konservierung von tRNA-Genfamilien über 100 Isolate hinweg. B. Relative chromosomale Lage konservierter, gewonnener und verlorener tDNA-Genfamilien. Die horizontalen Linien in den Boxplots entsprechen dem Median, die unteren und oberen Scharniere entsprechen dem ersten und dritten Quartil und die Whiskers erstrecken sich bis zum 1,5-fachen des Interquartilbereichs. Die drei Sterne zeigen P-Werte < 0,01 aus einem zweiseitigen Wilcoxon-Test an (P = 3,707e-07 für von allen geteilt vs. gewonnen und P = 0,0001122 für Gewinn vs. verloren) und ns steht für nicht signifikant (P = 0,4044 für geteilt). von allen vs. verloren).

A. Streudiagramme, die die Genomgröße jedes Stamms, aufgeteilt nach Datensatz, als Funktion der Anzahl der Y'-Elemente (links), Ty-Elemente (Mitte) und Y' + Ty-Elemente (rechts) zeigen. b. Anzahl der TE-Sequenzen pro Stamm über die 142 haploiden/kollabierten Genomanordnungen. Alle Sequenzen aus den 5 Ty-Familien werden nach Kategorie zusammengefasst. c. Anzahl der vollständigen Ty-Elemente pro Stamm über die 142 haploiden/kollabierten Genomanordnungen. d. Verteilung der 126 Insertionsstellen über die 100 haploide oder homozygote Genome unter Berücksichtigung entweder der vollständigen Ty-Elemente oder aller Arten von TE-Sequenzen (komplette, verkürzte und Solo-LTRs). e. Streudiagramm zwischen der Anzahl der Solo-LTRs pro Insertionsstelle und der Anzahl der Stämme, die eine Insertionsstelle teilen. Der Pearson-Korrelationskoeffizient und der zugehörige zweiseitige t-Test-p-Wert wurden mit der stat_cor-Methode in R. f. berechnet. Karte der De-novo-Insertionen vollständiger Ty-Elemente in den 100 homozygoten untersuchten Stämmen. Die Karte zeigt die 61 Insertionen Sites, in denen nur vollständige Elemente und niemals SoloLTRs gefunden werden, was stark darauf hindeutet, dass diese Sites aktuellen Einfügungen entsprechen. Die Stämme sind nach dem phylogenetischen Kernbaum organisiert (Abb. 1).

Ergänzende Anmerkungen 1–3, ergänzende Methoden und ergänzende Abbildungen. 1–15.

Ergänzungstabellen 1–17.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

O'Donnell, S., Yue, JX., Saada, OA et al. Telomer-zu-Telomer-Anordnungen von 142 Stämmen charakterisieren die Strukturlandschaft des Genoms in Saccharomyces cerevisiae. Nat Genet 55, 1390–1399 (2023). https://doi.org/10.1038/s41588-023-01459-y

Zitat herunterladen

Eingegangen: 01. November 2022

Angenommen: 26. Juni 2023

Veröffentlicht: 31. Juli 2023

Ausgabedatum: August 2023

DOI: https://doi.org/10.1038/s41588-023-01459-y

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt